Tout le monde a vu un demo RAG qui marche. Personne ne te montre celui qui crashe à 50 000 documents parce que chunking a explosé l'index, ou celui qui hallucine confidemment quand la question est hors-domaine. Ce projet te fait construire version qui tient en production.
Tu pars de 5 000 documents synthétiques d'un SaaS B2B fictif (Lumora Stock). Tu chunkes, tu embeddes avec un modèle déterministe (`all-MiniLM-L6-v2`, 384 dims, CPU pur), tu stockes en Postgres + pgvector, tu retrieves avec une mesure objective (recall@5, MRR), et tu câbles un hallucination gate qui refuse de répondre quand score de retrieval est trop faible.
Rubric ne juge JAMAIS qualité d'une réponse LLM (non-déterministe et hors-scope). Elle juge qualité du PIPELINE : déterminisme des embeddings, recall@5 ≥ 0.70, MRR ≥ 0.45, refus correct sur les questions hors-domaine. Compétence évaluée, c'est rigueur data,pas l'art du prompt.