RAG pentru chatbot-urile de customer support — pattern-ul care a scăzut costul cu 70% · RAG & Embeddings

Sorin Tudor · 2026-04-20T17:52:55.695Z

Chunk-ing inteligent, caching embeddings, fallback pe model mai mic. Ce am învățat după 5 implementări reale.

Postat acum 1 zi

Un chatbot care răspunde la "unde e comanda mea?" nu are voie să coste 0.02€ per mesaj. Altfel dă scaling cu probleme de business.

Trick 1 — Chunk-uri mai mici, overlap mai mare

Default 1000 tokens e prea mare. Eu merg cu 300-400 tokens + overlap 50. Retrievalul devine precis și modelul nu trebuie să citească kilometri de context.

Trick 2 — Embeddings în cache permanent

Documentele nu se schimbă des. Genererea embeddings-urilor se face o dată și le ții în Postgres cu pgvector. Refetch doar la update.

Trick 3 — Fallback pe model mai mic

Pentru 80% din întrebări (FAQ simple), gpt-4o-mini sau claude-haiku ajunge. Escaladezi la cel mare doar dacă scorul de retrieval e sub prag.

Trick 4 — Hard-code pentru întrebări frecvente

"Care sunt orele de program?" nu are ce căuta pe LLM. Direct în DB sau fișier → răspuns instant.

Rezultat

Pe un client cu 30k mesaje/lună: de la 600€ → 180€.

RAG pentru chatbot-urile de customer support — pattern-ul care a scăzut costul cu 70%