Question 1

Qué es exactamente un token?

Accepted Answer

Un token es un fragmento de texto que el modelo procesa como una unidad. Para la mayoría del texto en inglés, un token equivale aproximadamente a 3-4 caracteres o alrededor de 0.75 palabras. Palabras comunes como 'the', 'is' y 'and' son tipicamente un token cada una. Palabras raras, nombres propios e identificadores de código suelen dividirse en multiples tokens. Los espacios, signos de puntuación y nuevas líneas también consumen tokens. Los limites exactos dependen del tokenizador que use el modelo.

Question 2

Por qué son importantes los tokens para el costo de API?

Accepted Answer

El precio de las API de LLM se basa en el número de tokens, tipicamente con tarifas separadas para tokens de entrada y de salida. Los tokens de salida suelen ser 3-5 veces más caros que los de entrada. Un prompt 100 tokens más largo cuesta más en cada llamada de API. Si haces miles de llamadas al día, esto se acumula rapidamente. Medir el número de tokens antes de desplegar un prompt en producción te ayuda a detectar prompts de sistema inesperadamente largos y estimar los costos mensuales con precisión.

Question 3

Cómo se cuentan los tokens: todos los modelos usan el mismo método?

Accepted Answer

No. Cada familia de modelos usa su propio tokenizador. GPT-3.5 y GPT-4 usan cl100k_base (un vocabulario de aproximadamente 100.000 tokens). GPT-4o y GPT-4o-mini usan o200k_base (vocabulario de aproximadamente 200.000 tokens), que tiende a codificar el mismo texto en menos tokens. Claude usa su propio tokenizador, que también difiere. Los modelos Gemini usan SentencePiece. El mismo texto puede contar como 120 tokens en GPT-4 y 105 tokens en GPT-4o. Usa siempre el tokenizador que coincida con el modelo que estas desplegando.

Question 4

Qué es la ventana de contexto y como se relaciona con los tokens?

Accepted Answer

La ventana de contexto es el número máximo de tokens que un modelo puede procesar en una sola solicitud, combinando entrada (prompt + historial de conversación + documentos) y salida. GPT-4o tiene una ventana de contexto de 128.000 tokens; Claude 3.5 Sonnet soporta hasta 200.000 tokens. Si tu entrada excede la ventana de contexto, la API devuelve un error. En la práctica, la ventana de contexto es un presupuesto: los tokens de entrada, los tokens de salida y los documentos añadidos se toman del mismo fondo.

Modelo	Entrada (por 1M tokens)	Salida (por 1M tokens)
GPT-4o	$2.50	$10.00
GPT-4o-mini	$0.15	$0.60
Claude 3.5 Sonnet	$3.00	$15.00
Claude 3 Haiku	$0.25	$1.25
Gemini 1.5 Pro	$1.25	$5.00
Gemini 1.5 Flash	$0.075	$0.30

Contador de Tokens de Prompt ChatGPT: Herramienta de Calculo de Tokens

Conteo de Tokens

Estadísticas de Texto

Costo Estimado

Herramientas Relacionadas

Prompt de Ejemplo

Que es un Token?

Por qué Importa el Número de Tokens

Costo de API

Ventana de contexto

Latencia

Estrategias de Reducción de Tokens