RAG (Retrieval-Augmented Generation) terdengar simpel: chunk dokumen, embed, retrieve, generate. Tapi hasilnya sering mengecewakan. Berikut tujuh kesalahan yang paling sering muncul.
1. Chunking yang Terlalu Besar/Kecil
Chunk 2000 token → konteks terlalu lebar, noise tinggi. Chunk 100 token → konteks terpotong, jawaban dangkal.
Sweet spot biasanya 300-500 token, dengan overlap 50-100 token.
2. Tidak Ada Hybrid Search
Pure vector search ketinggalan keyword exact match (nama produk, kode, angka). Kombinasikan BM25 + vector → hybrid search lebih robust.
3. Embedding Tidak Relevan
General embedding (OpenAI text-embedding-3) bagus untuk umum, tapi lemah untuk domain spesifik (medis, hukum). Untuk domain khusus, fine-tune atau pakai domain-specific embedding.
4. Re-ranking Dilewati
Top-K dari retrieval belum tentu yang paling relevan untuk LLM. Pakai cross-encoder (Cohere Rerank, BGE Reranker) untuk re-rank top-K → top-3.
5. Tidak Ada Metadata Filter
Pencarian tanpa filter metadata bisa campur dokumen publik & internal. Tambahkan filter: source, date, language, access_level.
6. Context Window Disia-siakan
LLM modern punya 200K+ context, tapi bukan berarti kita pakai semua. Kualitas > kuantitas. Top-3 relevan > top-20混杂.
7. Tidak Ada Evaluasi
"Kayaknya bagus" bukan metrik. Pakai RAGAS, TruLens, atau evaluation suite sendiri untuk mengukur: faithfulness, relevance, precision.
Bonus: Pertimbangkan Long Context
Model seperti Claude Sonnet dengan 200K+ context kadang bisa "RAG tanpa RAG" untuk dokumen kecil. Tapi untuk 10K+ dokumen, RAG tetap lebih efisien.