Question 1

O que exatamente é um token?

Accepted Answer

Um token é um fragmento de texto que o modelo processa como uma unidade. Para a maioria do texto em inglês, um token equivale apróximadamente a 3-4 caracteres ou cerca de 0,75 palavras. Palavras comuns como 'the', 'is' e 'and' são tipicamente um token cada. Palavras raras, nomês proprios e identificadores de código geralmente são divididos em varios tokens. Espacos, pontuação e novas linhas também consomem tokens. Os limites exatos dependem do tokenizador que o modelo usa.

Question 2

Por que os tokens são importantes para o custo da API?

Accepted Answer

O preco das APIs de LLM é baseado no número de tokens, tipicamente com tarifas separadas para tokens de entrada e de saída. Tokens de saída geralmente são 3 a 5 vezes mais caros que os de entrada. Um prompt 100 tokens mais longo custa mais em cada chamada de API. Issó se acumula rapidamente se você faz milhares de chamadas por dia. Medir o número de tokens antes de implantar um prompt em produção ajuda a detectar prompts de sistema inesperadamente longos e estimar os custos mensais com precisão.

Question 3

Como os tokens são contados: todo modelo usa o mêsmo metodo?

Accepted Answer

Não. Cada familia de modelos usa seu proprio tokenizador. GPT-3.5 e GPT-4 usam cl100k_base (um vocabulario de apróximadamente 100.000 tokens). GPT-4o e GPT-4o-mini usam o200k_base, que tem um vocabulario maior (cerca de 200.000 tokens) e tende a codificar o mêsmo texto em menos tokens. Claude usa seu proprio tokenizador, que difere novamente. Os modelos Gemini usam SentencePiece. O mêsmo texto pode contar como 120 tokens no GPT-4 e 105 tokens no GPT-4o. Sempre use o tokenizador correspondente ao modelo que você esta implantando.

Question 4

O que é uma janela de contexto é como ela se relaciona com tokens?

Accepted Answer

A janela de contexto é o número máximo de tokens que um modelo pode processar em uma única requisição, combinando entrada (prompt + historico da conversa + documentos) e saída. O GPT-4o tem uma janela de contexto de 128.000 tokens; Claude 3.5 Sonnet suporta até 200.000 tokens. Se sua entrada exceder a janela de contexto, a API retorna um erro. Na prática, a janela de contexto é um orcamento: tokens de entrada, tokens de saída e quaisquer documentos injetados consomem do mêsmo pool.

Modelo	Entrada (por 1M tokens)	Saida (por 1M tokens)
GPT-4o	$2,50	$10,00
GPT-4o-mini	$0,15	$0,60
Claude 3.5 Sonnet	$3,00	$15,00
Claude 3 Haiku	$0,25	$1,25
Gemini 1.5 Flash	$0,075	$0,30

Componente	Alocação tipica
Prompt de sistema	100 a 500 tokens
Historico da conversa (últimos N turnos)	2.000 a 20.000 tokens
Documentos injetados / contexto RAG	5.000 a 50.000 tokens
Reservado para saída	1.000 a 4.000 tokens

Contador de Tokens de Prompt ChatGPT: Ferramenta de Calculo de Tokens

Contagem de Tokens

Estatísticas de Texto

Custo Estimado

Ferramentas Relacionadas

O Prompt de Exemplo

O Que é um Token?

Por que o Numero de Tokens Importa

Custo de API

Limites da janela de contexto

Qualidade da resposta

Como Diferentes Tokenizadores Lidam com o Mesmo Texto

Tecnicas Praticas para Reduzir o Numero de Tokens

Aparar espacos e redundancia

Use formatos estruturados para dados

Prefira prompts de sistema para instruções estaticas

Armazene em cache contexto repetido

A Janela de Contexto como um Orcamento