Sistem Prompt Token Sayacı
Bu örnekteki sistem prompt’u yaklaşık 180 token’dır. Bu küçük görünebilir, ancak üretim uygulamalarındaki sistem prompt’ları, araç şemaları, kişi talimatları, güvenlik önlemleri ve few-shot örnekleri eklediğinizde rutin olarak 500 ila 3000 token arasında çalışır. Dağıtmadan önce token’ları saymak, GPT-4o, Claude ve Gemini’de bağlam penceresini doğru bir şekilde bütçelemenize yardımcı olur.
Bağlam Penceresi Bütçesini Anlama
Her LLM API çağrısının bir bağlam penceresi sınırı vardır. İstekteki tüm mesajlar arasındaki toplam token sayısı bu sınıra sığmalıdır:
context_window = system_prompt + conversation_history + tool_definitions + response
| Model | Bağlam Penceresi |
|---|---|
| GPT-4o | 128k token |
| GPT-4o mini | 128k token |
| Claude 3.5 Sonnet | 200k token |
| Claude 3 Haiku | 200k token |
| Gemini 1.5 Pro | 1M token |
| Gemini 1.5 Flash | 1M token |
Sohbet uygulamaları için konuşma geçmişi her turla büyür. 128k pencerede 500 token’lık bir sistem prompt’u 1. tur için iyidir, ancak uzun bir konuşma, sistem prompt’u boyutundan bağımsız olarak pencereyi doldurabilir. Sistem prompt’u sabit maliyettir; konuşma geçmişi değişken maliyettir.
Uygulama Türüne Göre Bütçe Kılavuzları
Etkileşimli sohbet ve ajanlar
Sistem prompt’larını bağlam penceresinin yüzde 10 ila 15’inin altında tutun. Bu, konuşma geçmişi ve çok adımlı akıl yürütme için alan korur. 128k modelde 1000 token’lık bir sistem prompt’u kendi başına bir sorun değildir, ancak 50 turlu bir konuşma, ayrıntılı araç çıktıları ve uzun bir kod oluşturma yanıtı ile birleştirildiğinde sınıra yaklaşırsınız.
Tek seferlik sınıflandırma ve çıkarma
Konuşma geçmişi birikmediği için sistem prompt’u uzunluğu burada daha az önemlidir. Doğruluğu artırıyorlarsa, birçok örnek içeren daha uzun prompt’lar kullanabilirsiniz.
Araç yoğun ajanlar
Araç tanımları token tüketir. OpenAI ve Anthropic API’leri, isteğin bir parçası olarak araç şemalarını kabul eder; bunlar bağlam penceresine dahildir. 10 araç ve ayrıntılı parametre açıklamalarına sahip karmaşık bir ajan, sistem prompt’undan önce yalnızca araç şemalarında 2000+ token’a sahip olabilir.
Token Azaltma Teknikleri
Gereksiz talimatları kaldırın
Sistem prompt’unuz “Yardımsever, kısa ve profesyonel ol” ve ayrıca “Net, kısa yanıtlarla yardımsever ve profesyonel bir şekilde yanıtla” diyorsa, bu aynı talimatın iki kez yazılmasıdır. Bir sürüm yeterlidir.
Ayrıntılı ifadeleri kısaltın
Karşılaştırın:
Önce: “Müşteriye, adı konuşmada mevcut olduğunda her zaman adıyla hitap etmeyi hatırlamanız son derece önemlidir.”
Sonra: “Müşteriye adıyla hitap edin (ad mevcut olduğunda).”
Kısa sürüm, token sayısının yaklaşık dörtte biri ile aynı talimatları iletir.
Örnekleri sistem prompt’undan çıkarın
Few-shot örnekleri etkilidir ancak pahalıdır. Her biri 200 token olan beş örnek içeren bir sistem prompt’u, her isteğe 1000 token sabit maliyet ekler. Alternatifler:
- Kullanıcının sorgusuna göre çalışma zamanında ilgili örnekleri getiren bir getirme sistemi kullanın
- Örnekleri sistem prompt’u yerine ilk kullanıcı/asistan mesaj çiftine koyun
- Örneklerin ağırlıklara yerleştirildiği ince ayarlı bir model kullanın
Kısa araç şemaları kullanın
Araç açıklamaları, aracın ne yaptığını ve parametrelerinin ne anlama geldiğini açıklamalı, her biri hakkında bir paragraf yazmamalıdır. Karşılaştırın:
{
"description": "Bu araç, benzersiz tanımlayıcısına göre belirli bir sipariş hakkında bilgi aramanızı sağlar. Bir müşteri siparişinin durumu, kargo bilgisi veya satın aldığı ürünler hakkında soru sorduğunda bu aracı kullanmalısınız.",
"name": "order_lookup"
}
versus:
{
"description": "Belirtilen order_id için sipariş durumu, kargo bilgisi ve satır öğelerini döndürür.",
"name": "order_lookup"
}
İkinci sürüm model için daha kullanışlıdır ve daha az token kullanır.
Prompt Önbelleğe Alma
Sistem prompt’unuz istekler arasında kararlıysa, prompt önbelleğe alma, yinelenen girdi token maliyetinin çoğunu ortadan kaldırır.
Anthropic
Sistem prompt’unuzun sonunu bir önbellek kontrol kesme noktası ile işaretleyin. Aynı ön eke sahip sonraki istekler, önbellek okumaları için normal girdi fiyatının yüzde 10’u ile önbellekten sunulur (önbellek yazma, normal girdiden yüzde 25 daha pahalıdır, sonraki okumalarla amorti edilir).
system_prompt = [
{
"type": "text",
"text": "Sen yardımsever bir müşteri destek asistanısın...",
"cache_control": {"type": "ephemeral"}
}
]
Önbellek girişleri, kullanımda otomatik yenileme ile 5 dakika sürer.
OpenAI
OpenAI, 1024 token üzerindeki prompt’lar için otomatik olarak prompt önbelleğe alma uygular. Önbelleklenmiş token okumaları, normal girdi fiyatının yüzde 50’si ile faturalandırılır. Katılmanız gerekmez, ancak kararlı bir ön eke ihtiyacınız vardır. Sistem prompt’unu istekler arasında değiştirmek önbelleği bozar.
Önbelleğe alma ne zaman önemlidir
Milyon girdi token başına $3 (GPT-4o fiyatlandırması) ile 1000 token’lık bir sistem prompt’u istek başına $0,003’e mal olur. Günde 1 milyon istekte bu, günde $3000 veya ayda $90.000’dir. Yüzde 50 önbellekleme ile bu, günde $1500’e düşer. Tasarruflar, istek hacmi ve sistem prompt’u uzunluğu ile doğru orantılıdır.