eduardweb.
RAG & EmbeddingsIntermediar#rag#ai#chatbot

RAG pentru chatbot-urile de customer support — pattern-ul care a scăzut costul cu 70%

De Sorin Tudor, 20 apr. 2026 · 1102 vizualizări · 2 like-uri

Postat acum 1 zi

Un chatbot care răspunde la "unde e comanda mea?" nu are voie să coste 0.02€ per mesaj. Altfel dă scaling cu probleme de business.

Trick 1 — Chunk-uri mai mici, overlap mai mare

Default 1000 tokens e prea mare. Eu merg cu 300-400 tokens + overlap 50. Retrievalul devine precis și modelul nu trebuie să citească kilometri de context.

Trick 2 — Embeddings în cache permanent

Documentele nu se schimbă des. Genererea embeddings-urilor se face o dată și le ții în Postgres cu pgvector. Refetch doar la update.

Trick 3 — Fallback pe model mai mic

Pentru 80% din întrebări (FAQ simple), gpt-4o-mini sau claude-haiku ajunge. Escaladezi la cel mare doar dacă scorul de retrieval e sub prag.

Trick 4 — Hard-code pentru întrebări frecvente

"Care sunt orele de program?" nu are ce căuta pe LLM. Direct în DB sau fișier → răspuns instant.

Rezultat

Pe un client cu 30k mesaje/lună: de la 600€ → 180€.

Răspunsuri 0

Se încarcă răspunsurile…

Loghează-te pentru a răspunde

Doar membrii comunității pot lăsa comentarii.