Question 1

Wie viel vom Kontextfenster sollte ein System Prompt verwenden?

Accepted Answer

Für interaktive Chat Anwendungen halte System Prompts unter 10 bis 15 Prozent des gesamten Kontextfensters. Ein 128k Kontextfenster mit einem 5000 Token System Prompt lässt 123k Tokens für Gesprächsverlauf und Antworten. Für einmalige Klassifikations- oder Extraktionsaufgaben, bei denen sich der Gesprächsverlauf nicht ansammelt, sind längere System Prompts weniger problematisch.

Question 2

Zählen System Prompt Tokens zu den Kosten eines API Aufrufs?

Accepted Answer

Ja. Alle Tokens in einem API Aufruf (System-, Benutzer-, Assistenten- und Tool-Ergebnisnachrichten) zählen sowohl für die Eingabetoken-Abrechnung als auch für die Ratengrenzen. Die Ausnahme ist das Prompt Caching: Wenn du einen System Prompt bei Anthropic oder OpenAI cachen lässt, werden wiederholte Aufrufe mit demselben gecachten Präfix zu einem niedrigeren Satz abgerechnet (typischerweise 10 bis 25% des normalen Eingabetoken-Preises).

Question 3

Wie kann ich die Tokenanzahl meines System Prompts reduzieren?

Accepted Answer

Entferne redundante Anweisungen (wenn zwei Regeln dasselbe sagen, behalte eine). Verwende kürzere Sätze, ohne die Bedeutung zu verlieren. Verschiebe Few-Shot Beispiele vom System Prompt in eine separate Nachricht oder ein Retrieval System. Ersetze lange Tool Beschreibungen durch prägnante Parameterschemata. Vermeide die Wiederholung von Informationen, die das Modell bereits aus dem Training kennt.

Question 4

Was ist Prompt Caching und wie hilft es bei System Prompts?

Accepted Answer

Prompt Caching ermöglicht es, ein Präfix deines Prompts (typischerweise den System Prompt) als cachebar zu markieren. Der Anbieter speichert den KV Cache für dieses Präfix und verwendet ihn bei nachfolgenden Aufrufen wieder, bei denen dasselbe Präfix erscheint. Anthropic berechnet 25% des normalen Eingabepreises für Cache Lesevorgänge. OpenAI berechnet 50%. Bei hochvolumigen Anwendungen mit einem stabilen System Prompt kann dies die Eingabekosten für den System Prompt Teil um 50 bis 75% reduzieren.

Modell	Kontextfenster
GPT-4o	128k Tokens
GPT-4o mini	128k Tokens
Claude 3.5 Sonnet	200k Tokens
Claude 3 Haiku	200k Tokens
Gemini 1.5 Pro	1M Tokens
Gemini 1.5 Flash	1M Tokens

System Prompt Token Zähler: Token Verbrauch Schätzung

Tokenanzahl

Textstatistiken

Geschätzte Kosten

Verwandte Werkzeuge

System Prompt Token Zähler

Das Kontextfenster Budget Verstehen

Budget Richtlinien nach Anwendungstyp

Interaktiver Chat und Agenten

Einmalige Klassifikation und Extraktion

RAG Systeme