Un chatbot care răspunde la "unde e comanda mea?" nu are voie să coste 0.02€ per mesaj. Altfel dă scaling cu probleme de business.
Trick 1 — Chunk-uri mai mici, overlap mai mare
Default 1000 tokens e prea mare. Eu merg cu 300-400 tokens + overlap 50. Retrievalul devine precis și modelul nu trebuie să citească kilometri de context.
Trick 2 — Embeddings în cache permanent
Documentele nu se schimbă des. Genererea embeddings-urilor se face o dată și le ții în Postgres cu pgvector. Refetch doar la update.
Trick 3 — Fallback pe model mai mic
Pentru 80% din întrebări (FAQ simple), gpt-4o-mini sau claude-haiku ajunge. Escaladezi la cel mare doar dacă scorul de retrieval e sub prag.
Trick 4 — Hard-code pentru întrebări frecvente
"Care sunt orele de program?" nu are ce căuta pe LLM. Direct în DB sau fișier → răspuns instant.
Rezultat
Pe un client cu 30k mesaje/lună: de la 600€ → 180€.