Prompt de Ejemplo
El prompt cargado en la herramienta es un prompt de sistema para un revisor de código asistido por LLM. Tiene entre 110 y 120 tokens según el tokenizador. Puede no parecer mucho, pero este prompt se envía con cada llamada de API. Si haces 10.000 llamadas al día, el prompt del sistema por si solo genera más de 1 millón de tokens de entrada al día.
Entender el número de tokens en la fase de diseño del prompt evita sorpresas de costos en producción.
Que es un Token?
La tokenización es el proceso de dividir el texto en unidades discretas que el modelo procesa. Los LLM no trabajan con caracteres o palabras. Trabajan con tokens. El mapeo de texto a tokens se define mediante una tabla de vocabulario creada durante el proceso de entrenamiento del modelo.
La mayoría de los LLM modernos usan Byte Pair Encoding (BPE). BPE comienza tratando cada byte como su propio token, luego fusiona iterativamente los pares adyacentes más frecuentes. Después de suficientes fusiones, las palabras comunes en inglés se convierten en un solo token, mientras que las palabras raras se dividen en subunidades de palabras.
Por ejemplo, con el tokenizador cl100k_base de GPT-4:
"PostgreSQL" → ["Post", "gre", "SQL"] (3 tokens)
"React" → ["React"] (1 token)
"TypeScript" → ["Type", "Script"] (2 tokens)
"the" → ["the"] (1 token)
El código tiende a tokenizarse de manera menos eficiente que el texto plano porque contiene identificadores, símbolos y sintaxis que aparecen con menos frecuencia en los datos de entrenamiento. Un fragmento de código de 100 líneas puede usar más tokens de lo que esperarias por el número de caracteres.
Por qué Importa el Número de Tokens
Costo de API
El precio de los LLM es por token. A mediados de 2026, los precios representativos son:
| Modelo | Entrada (por 1M tokens) | Salida (por 1M tokens) |
|---|---|---|
| GPT-4o | $2.50 | $10.00 |
| GPT-4o-mini | $0.15 | $0.60 |
| Claude 3.5 Sonnet | $3.00 | $15.00 |
| Claude 3 Haiku | $0.25 | $1.25 |
| Gemini 1.5 Pro | $1.25 | $5.00 |
| Gemini 1.5 Flash | $0.075 | $0.30 |
Ventana de contexto
Conocer tu número de tokens te ayuda a presupuestar la ventana de contexto. Un sistema de agente con un prompt de sistema de 2000 tokens, documentación de 10.000 tokens e historial de conversación de 5000 tokens usa 17.000 tokens antes de que el modelo genere una sola palabra de salida.
Latencia
Los modelos procesan tokens de forma secuencial durante la generación. Mas tokens de entrada significa mayor latencia antes del primer token. Mas tokens de salida significa mayor latencia total. Para aplicaciones en tiempo real, la longitud del prompt impacta directamente en la experiencia del usuario.
Estrategias de Reducción de Tokens
- Elimina instrucciones redundantes
- Acorta los ejemplos few-shot
- Usa descripciones de herramientas más cortas
- Mueve el contexto largo a recuperación (RAG) en lugar de incluirlo en el prompt
- Prefiere modelos con tokenizadores más nuevos (o200k_base sobre cl100k_base)