OpenAI a activat prompt caching automat pe GPT-4o / GPT-4o-mini. Dacă structurezi promptul corect, primești 50% reducere pe partea cache-uită, fără nicio modificare de cod.
Cum funcționează
- Prompt-uri > 1024 tokens → eligibile pentru cache
- Primele N tokens (prefixul identic) sunt cache-uite pentru ~5-10 minute
- Request-uri ulterioare cu ACELAȘI prefix plătesc jumătate pe acei tokens
Pattern-ul corect
Greșit (fiecare request e unic):
Ești un asistent pentru [USER_NAME].
[MULT CONTEXT STATIC]
Întrebarea utilizatorului: [ENTREBARE]
Corect (prefixul e constant):
[INSTRUCȚIUNI SISTEM COMPLETE - 2000 tokens]
[EXEMPLE FEW-SHOT - 1000 tokens]
[CONTEXT STATIC DOCUMENTE - 1500 tokens]
---
User: [USER_NAME]
Question: [ENTREBARE]
Partea de sus, până la ---, e identică între request-uri. Aia se cache-uie. Câștig instant.
Regula de aur
Tot ce e variabil (username, întrebarea, context dinamic) → la FINALUL promptului, mereu.
Măsurătoare
În răspunsul API primești:
"usage": {
"prompt_tokens": 4500,
"prompt_tokens_details": { "cached_tokens": 3800 },
...
}
Dacă cached_tokens > 0, ești pe drumul bun.
Exemplu real — chatbot customer support
- 3500 tokens instrucțiuni + documente = static
- 200 tokens istoric conversație + întrebare curentă = dinamic
- La al 2-lea mesaj într-o conversație, cache hit 95%+
- Cost pe mesaj scade de la 0.012€ la 0.005€
Pe 30.000 mesaje/lună: 360€ → 150€.
Gotcha-uri
- Image input invalidează cache — pui imagini la final, text la început
- Temperature, tools, system message — orice diferență mică în parameters anulează cache
- Cache-ul expiră în ~5 min — trafic sporadic nu beneficiază
Pe Anthropic (Claude)
Anthropic are cache explicit cu cache_control în API. Mai control, mai complex. Economii similare (~90% pe partea cache-uită), dar TTL setabil.
Ce mai poți face
- Fallback pe
gpt-4o-minipentru întrebări simple → încă o reducere de 90% pe acele request-uri - Hard-code răspunsurile la top 10 întrebări frecvente (FAQ) → zero cost
Combinate: am văzut reduceri reale de 60-80% fără pierdere de calitate.