Question 1

Quanto da janela de contexto um prompt de sistema deve usar?

Accepted Answer

Para aplicações de chat interativo, mantenha prompts de sistema abaixo de 10 a 15% da janela de contexto total. Uma janela de contexto de 128k tokens com um prompt de sistema de 5000 tokens deixa 123k tokens para historico de conversa e respostas. Para tarefas de classificação ou extração únicas onde o historico de conversa não se acumula, prompts de sistema mais longos são menos problematicos.

Question 2

Os tokens do prompt de sistema contam para o custo de uma chamada de API?

Accepted Answer

Sim. Todos os tokens em uma chamada de API (mensagens de sistema, usuario, assistente e resultados de ferramentas) contam tanto para a faturação de tokens de entrada quanto para os limites de taxa. A exceção é o cache de prompt: se você armazenar em cache um prompt de sistema com Anthropic ou OpenAI, chamadas repetidas com o mêsmo prefixo em cache são faturadas a uma taxa mais baixa (tipicamente 10 a 25% do preco normal do token de entrada).

Question 3

Como possó reduzir o número de tokens do meu prompt de sistema?

Accepted Answer

Remova instruções redundantes (se duas regras dizem a mêsma coisa, mantenha uma). Use frases mais curtas sem perder significado. Mova exemplos few-shot do prompt de sistema para uma mensagem separada ou um sistema de recuperação. Substitua descrições longas de ferramentas por esquemas de parametros concisos. Evite repetir informações que o modelo ja conhece do treinamento.

Question 4

O que e cache de prompt é como ele ajuda com prompts de sistema?

Accepted Answer

O cache de prompt permite marcar um prefixo do seu prompt (tipicamente o prompt de sistema) como armazenavel em cache. O provedor armazena o cache KV para esse prefixo é o reutiliza em chamadas subsequentes onde o mêsmo prefixo aparece. A Anthropic cobra 25% do preco normal de entrada para leituras de cache. A OpenAI cobra 50%. Para aplicações de alto volume com um prompt de sistema estavel, issó pode reduzir os custos de entrada na parte do prompt de sistema em 50 a 75%.

Modelo	Janela de Contexto
GPT-4o	128k tokens
GPT-4o mini	128k tokens
Claude 3.5 Sonnet	200k tokens
Claude 3 Haiku	200k tokens
Gemini 1.5 Pro	1M tokens
Gemini 1.5 Flash	1M tokens

Contador de Tokens de Prompt de Sistema: Estimativa de Usó de Tokens

Contagem de Tokens

Estatísticas de Texto

Custo Estimado

Ferramentas Relacionadas

Contador de Tokens de Prompt de Sistema

Entendendo o Orcamento da Janela de Contexto

Diretrizes de Orcamento por Tipo de Aplicação

Chat interativo e agentes

Classificação e extração de único turno

Agentes com muitas ferramentas

Tecnicas de Redução de Tokens

Remova instruções redundantes

Aparar frases verbosas

Mova exemplos para fora do prompt de sistema

Use esquemas de ferramentas concisos

Cache de Prompt

Anthropic

OpenAI

Quando o cache importa