Le Retrieval-Augmented Generation (RAG) est une architecture qui combine la recherche documentaire avec la generation de texte par un modele de langage. Au lieu d'inventer des reponses, le modele s'appuie sur des documents reels pour produire des reponses fiables et sourcees.

Pourquoi la recherche classique echoue en entreprise

Vous connaissez la situation : vous cherchez un document dans l'intranet, vous tapez des mots-cles, et vous obtenez 200 resultats dont aucun ne correspond a ce que vous voulez. Ou pire, le document existe mais il est dans un email, pas dans le systeme de gestion documentaire.

La recherche classique par mots-cles souffre de trois problemes fondamentaux en contexte professionnel :

Le probleme du vocabulaire

Quand vous cherchez "budget previsionnel Q2", le systeme ne trouve pas le document intitule "Projection financiere deuxieme trimestre". La recherche par mots-cles ne comprend pas que ces deux expressions designent la meme chose.

Le probleme de la fragmentation

Les donnees d'une entreprise sont reparties entre des dizaines d'outils : emails, documents partages, tickets, wikis, messagerie instantanee. La recherche classique ne cherche que dans un seul silo a la fois.

Le probleme du contexte

Meme quand vous trouvez le bon document, il faut encore le lire en entier pour extraire l'information pertinente. Pour une question precise ("Quel est le budget alloue au recrutement ?"), vous devez parcourir un PDF de 40 pages.

Le RAG : comment ca fonctionne

Le RAG resout ces trois problemes en combinant deux etapes : la recherche semantique et la generation augmentee.

Etape 1 : l'indexation

Avant de pouvoir repondre a des questions, le systeme doit indexer vos documents. Chaque document est decoupe en segments (chunks) de quelques centaines de mots. Chaque segment est transforme en un vecteur numerique (embedding) qui capture son sens semantique.

Ce processus est crucial. Un bon decoupage respecte la structure logique du document : on ne coupe pas au milieu d'un paragraphe, on preserve les tableaux, on garde le contexte des titres. Les approches modernes utilisent le semantic chunking, qui detecte les ruptures thematiques dans le texte.

Etape 2 : la recherche

Quand vous posez une question, celle-ci est egalement transformee en vecteur. Le systeme cherche alors les segments dont les vecteurs sont les plus proches de celui de votre question. C'est la recherche semantique : "budget previsionnel Q2" et "projection financiere deuxieme trimestre" ont des vecteurs proches, donc le systeme les associe.

Etape 3 : la generation

Les segments les plus pertinents sont injectes dans le contexte du modele de langage, qui synthetise une reponse en s'appuyant sur ces sources. Le modele cite ses sources, ce qui permet de verifier l'information.

La recherche hybride : combiner le meilleur des deux mondes

La recherche purement semantique a ses limites. Elle est excellente pour comprendre le sens, mais peut manquer des correspondances exactes (un numero de reference, un nom propre). C'est pourquoi les systemes performants combinent trois approches.

Recherche dense (embeddings)

Les embeddings capturent le sens profond des textes. Ils excellent pour les questions formulees differemment du contenu source. Un modele comme text-embedding-3-large transforme chaque segment en un vecteur de 3072 dimensions.

Recherche lexicale (BM25)

BM25 est l'algorithme classique de recherche par mots-cles, utilise par Elasticsearch et d'autres moteurs. Il excelle pour les termes precis : references, noms de projets, acronymes internes. Quand vous cherchez "REF-2026-0412", c'est BM25 qui trouve.

Re-classement (cross-encoder reranking)

Les deux premieres recherches produisent chacune une liste de resultats. Un cross-encoder -- un modele specialise -- reexamine chaque paire (question, segment) et attribue un score de pertinence fin. Les resultats sont retries selon ce score.

Cette combinaison offre le meilleur des deux mondes : comprehension semantique et precision lexicale, avec un tri final intelligent.

Les graphes de connaissances : au-dela du texte

Le RAG classique traite les documents comme des blocs de texte isoles. Mais en entreprise, l'information est relationnelle. Alice travaille sur le projet Phoenix. Le projet Phoenix depend du composant Auth. Le composant Auth a un ticket ouvert depuis 3 semaines.

Extraction d'entites

Un moteur de graphe de connaissances analyse vos documents pour extraire des entites (personnes, projets, equipes, technologies) et les relations entre elles. Ces entites sont stockees dans un graphe qui represente la structure reelle de votre organisation.

Traversee multi-sauts

Quand vous demandez "Qui travaille sur les dependances du projet Phoenix ?", le systeme traverse le graphe :

Projet Phoenix -> a pour dependance -> Composant Auth, Composant Billing
Composant Auth -> est maintenu par -> Bob, Claire
Composant Billing -> est maintenu par -> David

Cette traversee multi-sauts produit une reponse impossible a obtenir avec une simple recherche textuelle.

Enrichissement du RAG

Le graphe de connaissances enrichit le RAG. Quand une question porte sur une entite, le systeme recupere non seulement les passages pertinents, mais aussi le contexte relationnel de cette entite. La reponse est plus complete et plus precise.

La memoire : un RAG qui apprend

Un systeme RAG statique reindexe les documents et repond aux questions. Un systeme RAG avec memoire retient les interactions precedentes et s'ameliore.

Memoire factuelle

L'agent retient les faits que vous lui communiquez : "Mon projet prioritaire est Phoenix", "Je prefere les rapports en format bullet points". Ces preferences sont stockees et reinjectees dans chaque interaction future.

Memoire conversationnelle

Au fil des echanges, l'agent accumule du contexte sur vos sujets recurrents, vos collegues, vos projets. Ce contexte enrichit automatiquement ses reponses sans que vous ayez a repeter les informations.

Hot context

Le concept de hot context va plus loin. C'est un instantane, propre a chaque utilisateur, qui resume ses projets en cours, ses interlocuteurs frequents et ses preferences. Ce contexte est injecte dans chaque requete, ce qui rend l'agent immediatement pertinent sans phase de "rechauffe".

Implementation en entreprise : les pieges a eviter

Le piege du "tout indexer"

Indexer l'integralite des donnees sans strategie de permissions est dangereux. Si un stagiaire peut interroger l'agent et obtenir des informations confidentielles du comite de direction, votre systeme RAG est un risque de securite.

Chaque segment indexe doit porter ses propres permissions (ACL). Quand l'agent cherche des documents, il filtre les resultats en fonction de l'identite de l'utilisateur. C'est un principe non-negociable.

Le piege de la qualite des chunks

Un decoupage naif (tous les 500 caracteres) produit des segments incoherents qui degradent la qualite des reponses. Le decoupage semantique, l'enrichissement contextuel (ajouter le titre du document et la section parente a chaque segment) et le parsing specialise (tableaux, PDF, code) font une difference majeure.

Le piege de la fraicheur

Des documents indexes une fois et jamais mis a jour deviennent obsoletes. Un systeme de synchronisation incrementale qui detecte les changements et reindexe uniquement les modifications est indispensable.

L'approche Wardian

Wardian combine ces trois piliers -- recherche hybride, graphe de connaissances et memoire -- dans un moteur de connaissances unifie. Le systeme synchronise vos donnees depuis vos outils existants via des serveurs MCP, les indexe avec un pipeline d'ingestion semantique, et les rend accessibles a l'agent via cinq outils specialises.

Les donnees restent chez vous. Le moteur de connaissances est deploye dans votre infrastructure. Les permissions de vos outils source sont respectees dans chaque requete. Et le systeme apprend de chaque interaction pour devenir plus pertinent au fil du temps.

Le RAG n'est pas une technologie magique. C'est une architecture rigoureuse qui, bien implementee, transforme la maniere dont les equipes accedent a l'information. La difference entre un RAG mediocre et un RAG performant tient dans les details : qualite du chunking, hybridation de la recherche, respect des permissions et fraicheur des donnees.