System Prompt Token Zähler
Der System Prompt in diesem Beispiel hat etwa 180 Tokens. Das mag klein erscheinen, aber System Prompts in Produktionsanwendungen haben routinemäßig 500 bis 3000 Tokens, wenn du Tool Schemata, Persönlichkeitsanweisungen, Sicherheitsvorkehrungen und Few-Shot Beispiele hinzufügst. Das Zählen der Tokens vor dem Einsatz hilft, das Kontextfenster bei GPT-4o, Claude und Gemini genau zu budgetieren.
Das Kontextfenster Budget Verstehen
Jeder LLM API Aufruf hat ein Kontextfenster Limit. Die Gesamtzahl der Tokens in allen Nachrichten der Anfrage muss innerhalb dieses Limits liegen:
kontextfenster = system_prompt + gespraechsverlauf + tool_definitionen + antwort
| Modell | Kontextfenster |
|---|---|
| GPT-4o | 128k Tokens |
| GPT-4o mini | 128k Tokens |
| Claude 3.5 Sonnet | 200k Tokens |
| Claude 3 Haiku | 200k Tokens |
| Gemini 1.5 Pro | 1M Tokens |
| Gemini 1.5 Flash | 1M Tokens |
Bei Chat Anwendungen wächst der Gesprächsverlauf mit jeder Runde. Ein 500 Token System Prompt in einem 128k Fenster ist für Runde 1 in Ordnung, aber ein langes Gespräch kann das Fenster unabhängig von der Größe des System Prompts füllen. Der System Prompt ist eine Fixkosten; der Gesprächsverlauf ist eine variable Kosten.
Budget Richtlinien nach Anwendungstyp
Interaktiver Chat und Agenten
Halte System Prompts unter 10 bis 15% des Kontextfensters. Dies bewahrt Platz für Gesprächsverlauf und mehrschrittige Überlegungen. Ein 1000 Token System Prompt ist in einem 128k Modell nicht inhärent problematisch, aber kombiniere ihn mit einem 50-Runden-Gespräch, detaillierten Tool Ausgaben und einer langen Codegenerierungsantwort, und du näherst dich dem Limit.
Einmalige Klassifikation und Extraktion
Die Länge des System Prompts ist hier weniger wichtig, weil sich der Gesprächsverlauf nicht ansammelt. Du kannst 20.000 bis 30.000 Token System Prompts verwenden, wenn die Aufgabe detaillierte Anweisungen erfordert. Der Kompromiss sind Kosten und Latenz: längere Eingaben kosten mehr und dauern länger.
RAG Systeme
System Prompts in RAG Systemen enthalten normalerweise Anweisungen, wann zu suchen ist, wie Suchergebnisse zu interpretieren sind und wie mit fehlenden Informationen umzugehen ist. Halte sie kurz (300 bis 500 Tokens), da die eingefügten Dokumente den Großteil des Kontextfensters füllen. Ein langer System Prompt reduziert die Anzahl der Dokumente, die du pro Anfrage einfügen kannst.
Berechne Tokens für deine eigenen System Prompts mit dem vollständigen Token Zähler.