// RESSOURCES · 12 novembre 2025

RAG et chatbot IA en entreprise : comment ça marche

Le RAG (Retrieval Augmented Generation) permet de bâtir un chatbot IA qui répond depuis vos propres documents. Architecture, étapes, limites, coûts. Cas réel SAWL.

Le RAG (Retrieval Augmented Generation) est l'architecture standard pour bâtir un chatbot IA qui répond à partir des documents d'une entreprise sans inventer. Principe : indexer les sources dans une base vectorielle, retrouver les passages pertinents à chaque question, demander au modèle de répondre uniquement à partir de ces passages. C'est ce qu'utilisent les assistants conversationnels en production aujourd'hui, qu'ils soient internes ou grand public.

Pourquoi le RAG plutôt qu'un LLM brut

Un modèle de langage (LLM) brut, sans RAG, répond à partir de sa connaissance d'entraînement, figée à une date de cutoff. Trois conséquences directes : pas d'accès aux documents internes de l'entreprise, hallucinations possibles (le modèle remplit les trous avec du plausible mais faux), périmètre de réponse non contrôlable.

Le RAG résout ces trois points. Le modèle ne répond qu'à partir des sources fournies, donc il a accès aux documents internes. Les hallucinations sont limitées car le modèle est contraint à ne pas inventer hors contexte. Le périmètre est maîtrisé par l'équipe qui choisit ce qui entre dans l'index.

C'est devenu l'architecture par défaut pour tout assistant conversationnel d'entreprise en production.

Les étapes d'une chaîne RAG

Sept étapes, dans cet ordre.

Ingestion · récupération des sources (PDF, base de données, site web, FAQ, fiche produit, base documentaire métier). Normalisation des formats.

Chunking · découpage des sources en passages de quelques centaines de tokens, avec recouvrement entre passages voisins pour ne pas couper une phrase au milieu. La stratégie de chunking est l'un des deux paramètres qui pèsent le plus sur la qualité finale.

Embeddings · encodage de chaque passage en vecteur dense, via un modèle d'embeddings (multilingue si le cas l'exige). Chaque vecteur capture le sens du passage dans un espace à plusieurs centaines ou milliers de dimensions.

Indexation · stockage des vecteurs dans un store vectoriel (Qdrant, Pinecone, pgvector, Chroma, Weaviate). Index optimisé pour la recherche par similarité.

Retrieval · à la question utilisateur, on encode la question avec le même modèle d'embeddings, on cherche les passages les plus proches par similarité cosinus, on retient un top-k court (5 à 10 passages en général).

Reranking (optionnel mais souvent utile) · un second modèle, plus lent et plus discriminant, réordonne les passages remontés selon leur pertinence relative à la question. Coûte quelques millisecondes, augmente sensiblement la justesse perçue.

Génération · le modèle reçoit en contexte les passages sélectionnés et la question, avec une instruction stricte : ne répondre qu'à partir de ce contexte. Si l'information n'est pas dans les passages, l'assistant doit le dire, pas inventer.

Les limites du RAG

Cinq limites à connaître et anticiper en cadrage.

Contenus contradictoires entre sources · si deux documents disent deux choses différentes sur le même fait, le modèle ne peut pas trancher à la place de l'équipe métier. Le RAG met en lumière les contradictions, il ne les résout pas.

Qualité des sources · un RAG sur des sources mal structurées, périmées ou incohérentes donne des résultats médiocres. La donnée pèse plus que le modèle.

Coût d'opération · chaque requête a un coût unitaire (modèle d'embeddings + modèle de génération). Compter quelques centimes par requête selon les modèles utilisés. Multiplié par le volume, ce n'est plus négligeable.

Maintenance continue · le RAG n'est pas un projet livré une fois pour toutes. C'est un dispositif vivant qui demande monitoring, ajustement des sources, réindexation, suivi des conversations qui ont fléchi.

Périmètre de réponse à cadrer · une fois en production, les utilisateurs posent des questions hors périmètre. L'assistant doit savoir dire « je ne réponds pas à ça » et rediriger, sans dériver vers du LLM brut qui inventerait.

Cas concret

sawl · assistant conversationnel pour offices de tourisme, branché sur Apidae et les sources éditoriales validées. RAG en production, multilingue, opéré quotidiennement. Cas qui montre comment l'IA en couche se construit sur des sources maîtrisées.

Auditer votre cas d'usage IA

09// À EXPLORER