eduardweb.
OpenAI & ClaudeIntermediar#cost-optimization#gpt#openai

OpenAI prompt caching — cum am redus costul chatbot-ului cu 60%

De Cosmin Rotaru, 21 apr. 2026 · 3 vizualizări · 2 like-uri

Postat acum 19 ore

OpenAI a activat prompt caching automat pe GPT-4o / GPT-4o-mini. Dacă structurezi promptul corect, primești 50% reducere pe partea cache-uită, fără nicio modificare de cod.

Cum funcționează

  • Prompt-uri > 1024 tokens → eligibile pentru cache
  • Primele N tokens (prefixul identic) sunt cache-uite pentru ~5-10 minute
  • Request-uri ulterioare cu ACELAȘI prefix plătesc jumătate pe acei tokens

Pattern-ul corect

Greșit (fiecare request e unic):

Ești un asistent pentru [USER_NAME]. 
[MULT CONTEXT STATIC]
Întrebarea utilizatorului: [ENTREBARE]

Corect (prefixul e constant):

[INSTRUCȚIUNI SISTEM COMPLETE - 2000 tokens]
[EXEMPLE FEW-SHOT - 1000 tokens]
[CONTEXT STATIC DOCUMENTE - 1500 tokens]
---
User: [USER_NAME]
Question: [ENTREBARE]

Partea de sus, până la ---, e identică între request-uri. Aia se cache-uie. Câștig instant.

Regula de aur

Tot ce e variabil (username, întrebarea, context dinamic) → la FINALUL promptului, mereu.

Măsurătoare

În răspunsul API primești:

"usage": {
  "prompt_tokens": 4500,
  "prompt_tokens_details": { "cached_tokens": 3800 },
  ...
}

Dacă cached_tokens > 0, ești pe drumul bun.

Exemplu real — chatbot customer support

  • 3500 tokens instrucțiuni + documente = static
  • 200 tokens istoric conversație + întrebare curentă = dinamic
  • La al 2-lea mesaj într-o conversație, cache hit 95%+
  • Cost pe mesaj scade de la 0.012€ la 0.005€

Pe 30.000 mesaje/lună: 360€ → 150€.

Gotcha-uri

  1. Image input invalidează cache — pui imagini la final, text la început
  2. Temperature, tools, system message — orice diferență mică în parameters anulează cache
  3. Cache-ul expiră în ~5 min — trafic sporadic nu beneficiază

Pe Anthropic (Claude)

Anthropic are cache explicit cu cache_control în API. Mai control, mai complex. Economii similare (~90% pe partea cache-uită), dar TTL setabil.

Ce mai poți face

  • Fallback pe gpt-4o-mini pentru întrebări simple → încă o reducere de 90% pe acele request-uri
  • Hard-code răspunsurile la top 10 întrebări frecvente (FAQ) → zero cost

Combinate: am văzut reduceri reale de 60-80% fără pierdere de calitate.

Răspunsuri 0

Se încarcă răspunsurile…

Loghează-te pentru a răspunde

Doar membrii comunității pot lăsa comentarii.