Question 1

Cuánto de la ventana de contexto debería usar un prompt de sistema?

Accepted Answer

Para aplicaciones de chat interactivo, mantén los prompts de sistema por debajo del 10 al 15 por ciento de la ventana de contexto total. Con una ventana de contexto de 128k tokens y un prompt de sistema de 5000 tokens, quedan 123k tokens para el historial de conversación y las respuestas. Para tareas de clasificación o extracción únicas donde el historial de conversación no se acumula, los prompts de sistema más largos son menos problematicos.

Question 2

Los tokens del prompt de sistema están incluidos en el costo de una llamada de API?

Accepted Answer

Si. Todos los tokens en una llamada de API (mensajes de sistema, usuario, asistente y resultados de herramientas) están incluidos tanto en la facturación de tokens de entrada como en los limites de velocidad. La excepción es el almacenamiento en cache de prompts: si almacenas en cache un prompt de sistema con Anthropic o OpenAI, las llamadas repetidas con el mismo prefijo almacenado en cache se facturan a una tarifa más baja (tipicamente del 10 al 25 por ciento del precio normal de tokens de entrada).

Question 3

Cómo puedo reducir el número de tokens de mi prompt de sistema?

Accepted Answer

Elimina instrucciones redundantes (si dos reglas dicen lo mismo, conserva una). Usa frases más cortas sin perder significado. Mueve los ejemplos few-shot del prompt de sistema a un mensaje separado o a un sistema de recuperación. Reemplaza descripciones largas de herramientas con esquemas de parámetros cortos. Evita repetir información que el modelo ya conoce del entrenamiento.

Question 4

Qué es el almacenamiento en cache de prompts y como ayuda con los prompts de sistema?

Accepted Answer

El almacenamiento en cache de prompts te permite marcar un prefijo de tu prompt (tipicamente el prompt de sistema) como almacenable en cache. El proveedor guarda el cache KV para ese prefijo y lo reutiliza en llamadas posteriores donde aparezca el mismo prefijo. Anthropic cobra el 25 por ciento del precio de entrada normal por lecturas de cache. OpenAI cobra el 50 por ciento. Para aplicaciones de alto volumen con un prompt de sistema estable, esto puede reducir los costos de entrada en la parte del prompt de sistema entre un 50 y un 75 por ciento.

Modelo	Ventana de Contexto
GPT-4o	128k tokens
GPT-4o mini	128k tokens
Claude 3.5 Sonnet	200k tokens
Claude 3 Haiku	200k tokens
Gemini 1.5 Pro	1M tokens
Gemini 1.5 Flash	1M tokens

Contador de Tokens de Prompt de Sistema: Estimación de Uso de Tokens

Conteo de Tokens

Estadísticas de Texto

Costo Estimado

Herramientas Relacionadas

Contador de Tokens de Prompt de Sistema

Entendiendo el Presupuesto de la Ventana de Contexto

Guias de Presupuesto por Tipo de Aplicación

Chat interactivo y agentes

Clasificación y extracción únicas

Agentes con uso intensivo de herramientas