Contador de Tokens de Prompt de Sistema
El prompt de sistema en este ejemplo tiene aproximadamente 180 tokens. Puede parecer pequeño, pero los prompts de sistema en aplicaciones de producción rutinariamente tienen entre 500 y 3000 tokens cuando agregas esquemas de herramientas, instrucciones de personalidad, medidas de seguridad y ejemplos few-shot. Contar los tokens antes de desplegar te ayuda a presupuestar correctamente la ventana de contexto en GPT-4o, Claude y Gemini.
Entendiendo el Presupuesto de la Ventana de Contexto
Cada llamada de API de LLM tiene un limite de ventana de contexto. El número total de tokens entre todos los mensajes en la solicitud debe caber dentro de este limite:
ventana_contexto = prompt_sistema + historial_conversación + definiciones_herramientas + respuesta
| Modelo | Ventana de Contexto |
|---|---|
| GPT-4o | 128k tokens |
| GPT-4o mini | 128k tokens |
| Claude 3.5 Sonnet | 200k tokens |
| Claude 3 Haiku | 200k tokens |
| Gemini 1.5 Pro | 1M tokens |
| Gemini 1.5 Flash | 1M tokens |
Para aplicaciones de chat, el historial de conversación crece con cada turno. Un prompt de sistema de 500 tokens en una ventana de 128k esta bien para el turno 1, pero una conversación larga puede llenar la ventana independientemente del tamaño del prompt de sistema. El prompt de sistema es un costo fijo; el historial de conversación es un costo variable.
Guias de Presupuesto por Tipo de Aplicación
Chat interactivo y agentes
Mantén los prompts de sistema por debajo del 10 al 15 por ciento de la ventana de contexto. Esto reserva espacio para el historial de conversación y el razonamiento de multiples pasos. Un prompt de sistema de 1000 tokens en un modelo de 128k no es un problema por si solo, pero combinado con 50 turnos de conversación, salidas detalladas de herramientas y una respuesta larga de generación de código, te acercas al limite.
Clasificación y extracción únicas
Cómo el historial de conversación no se acumula, la longitud del prompt de sistema importa menos aquí. Puedes usar prompts más largos con muchos ejemplos si mejoran la precisión.
Agentes con uso intensivo de herramientas
Las definiciones de herramientas consumen tokens. Las API de OpenAI y Anthropic incluyen definiciones de herramientas en el recuento de tokens de entrada. Cada parámetro, descripción y tipo que agregues aumenta el prompt de sistema. Para aplicaciones con muchas herramientas, el prompt de sistema más las definiciones de herramientas pueden consumir de 2000 a 5000 tokens antes de que el usuario haya dicho una sola palabra.