OpenAI prompt caching — cum am redus costul chatbot-ului cu 60% · OpenAI & Claude

Cosmin Rotaru · 2026-04-21T17:15:04.021Z

Cache-ul automatic de la OpenAI, pattern-ul de prompt care îl activează, și ce să NU schimbi între request-uri.

Postat acum 19 ore

OpenAI a activat prompt caching automat pe GPT-4o / GPT-4o-mini. Dacă structurezi promptul corect, primești 50% reducere pe partea cache-uită, fără nicio modificare de cod.

Cum funcționează

Prompt-uri > 1024 tokens → eligibile pentru cache
Primele N tokens (prefixul identic) sunt cache-uite pentru ~5-10 minute
Request-uri ulterioare cu ACELAȘI prefix plătesc jumătate pe acei tokens

Pattern-ul corect

Greșit (fiecare request e unic):

Ești un asistent pentru [USER_NAME]. 
[MULT CONTEXT STATIC]
Întrebarea utilizatorului: [ENTREBARE]

Corect (prefixul e constant):

[INSTRUCȚIUNI SISTEM COMPLETE - 2000 tokens]
[EXEMPLE FEW-SHOT - 1000 tokens]
[CONTEXT STATIC DOCUMENTE - 1500 tokens]
---
User: [USER_NAME]
Question: [ENTREBARE]

Partea de sus, până la ---, e identică între request-uri. Aia se cache-uie. Câștig instant.

Regula de aur

Tot ce e variabil (username, întrebarea, context dinamic) → la FINALUL promptului, mereu.

Măsurătoare

În răspunsul API primești:

"usage": {
  "prompt_tokens": 4500,
  "prompt_tokens_details": { "cached_tokens": 3800 },
  ...
}

Dacă cached_tokens > 0, ești pe drumul bun.

Exemplu real — chatbot customer support

3500 tokens instrucțiuni + documente = static
200 tokens istoric conversație + întrebare curentă = dinamic
La al 2-lea mesaj într-o conversație, cache hit 95%+
Cost pe mesaj scade de la 0.012€ la 0.005€

Pe 30.000 mesaje/lună: 360€ → 150€.

Gotcha-uri

Image input invalidează cache — pui imagini la final, text la început
Temperature, tools, system message — orice diferență mică în parameters anulează cache
Cache-ul expiră în ~5 min — trafic sporadic nu beneficiază

Pe Anthropic (Claude)

Anthropic are cache explicit cu cache_control în API. Mai control, mai complex. Economii similare (~90% pe partea cache-uită), dar TTL setabil.

Ce mai poți face

Fallback pe gpt-4o-mini pentru întrebări simple → încă o reducere de 90% pe acele request-uri
Hard-code răspunsurile la top 10 întrebări frecvente (FAQ) → zero cost

Combinate: am văzut reduceri reale de 60-80% fără pierdere de calitate.

OpenAI prompt caching — cum am redus costul chatbot-ului cu 60%