Recherche augmentée
Une recherche qui comprend ce que la personne veut dire, pas seulement les mots qu'elle a tapés. Elle trouve par le sens, ramène la bonne page même quand le vocabulaire ne colle pas, et laisse l'utilisateur lire lui-même.
La plupart des moteurs de recherche cherchent des mots là où l'utilisateur cherche des idées. Tapez « remboursement », la barre ramène les pages où le mot « remboursement » apparaît. Tapez « me faire rembourser », et si vos contenus disent « retour d'article » ou « avoir », vous tombez sur zéro résultat alors que la réponse existe à deux clics. Le visiteur, lui, conclut que l'information n'est pas là, et part. La recherche augmentée s'attaque à cet écart : retrouver un contenu à partir de ce qu'il veut dire.
Personne ne formule une question comme un document est rédigé. On cherche avec ses mots à soi, parfois mal orthographiés, souvent partiels, dans une langue qui n'est pas celle du rédacteur. Une recherche par sens accepte cet écart de vocabulaire au lieu de le sanctionner. Elle rapproche « comment annuler ma commande » de la page « procédure de rétractation », même si pas un seul mot n'est commun aux deux.
Chercher par le sens, concrètement
Le principe porte un nom technique, la recherche sémantique, et une mécanique simple à se représenter. Chaque contenu est transformé en une position dans un espace, calculée à partir de son sens. Deux textes qui parlent de la même chose se retrouvent voisins, même écrits avec des mots différents. La requête de l'utilisateur subit le même traitement : on la place dans ce même espace, et on regarde quels contenus tombent à côté. Ce voisinage, c'est la pertinence. On ne compare plus des chaînes de caractères, on compare des significations.
Ces positions portent le nom d'embeddings. On les calcule une fois, à l'avance, sur tout le corpus, puis on les range dans un index conçu pour retrouver vite les plus proches voisins d'une requête. Quand quelqu'un cherche, le système place sa demande dans l'espace et remonte les contenus alentour, classés du plus proche au plus lointain. L'utilisateur reçoit une liste de résultats, ouvre celui qui lui parle, et lit. Le moteur l'amène à la bonne porte ; il franchit le seuil lui-même.
Pourquoi ce n'est pas un chatbot
La confusion est fréquente, parce que la brique de récupération se ressemble d'un cas à l'autre. La différence tient à ce qui sort du système. Un assistant conversationnel lit les passages trouvés, puis rédige une réponse à votre place et vous la sert formulée. Une recherche augmentée s'arrête plus tôt : elle vous rend les contenus, et vous laisse juge. La source vous arrive intacte, telle qu'elle est écrite.
Ce choix a ses raisons. Quand l'utilisateur doit pouvoir comparer plusieurs offres, lire un article en entier, naviguer entre des produits, parcourir un fonds documentaire, c'est lui qui décide. La recherche augmentée garde la main du côté humain et se contente de mieux trier ce qu'on lui montre. Là où un dialogue répond à une question fermée, elle ouvre un éventail et le classe par pertinence.
Où ça change la donne
Un catalogue e-commerce un peu fourni en est le terrain le plus parlant. Un client cherche « veste imperméable pour la pluie », vos fiches parlent de « coupe-vent déperlant », et la recherche classique ne renvoie rien à vendre. Une recherche par sens rapproche les deux et présente les bons produits. Le gain n'est pas dans le confort, il est dans le panier qui n'aurait jamais existé.
Le second terrain est interne : une base documentaire devenue trop large pour qu'on sache où chercher. Procédures, comptes rendus, notes techniques accumulées au fil des années, rédigées par des gens différents avec des mots différents pour les mêmes notions. Un collaborateur cherche une consigne et doit déjà connaître le terme exact employé dans le bon document pour la retrouver. La recherche augmentée lève cette condition : on décrit ce qu'on cherche, l'outil reconnaît la notion sous le vocabulaire, et remonte le document, même classé sous un intitulé qu'on n'aurait jamais deviné.
Le signal commun à ces deux cas, c'est l'écart de mots. Quand les visiteurs cherchent dans une langue et que le contenu est écrit dans une autre, la recherche par mots exacts laisse filer des résultats qui existent pourtant. Sur un site où le vocabulaire est homogène et le volume modeste, le moteur classique suffit et la recherche sémantique n'apporte rien qui vaille son coût. On la réserve aux corpus assez riches et assez variés en formulation pour que la lettre trahisse régulièrement le sens.
Comment on s'y prend
On part du corpus et des vraies requêtes
Avant tout calcul, on regarde deux choses : ce qu'il y a à indexer et ce que les utilisateurs cherchent vraiment. Le corpus est rassemblé, nettoyé, découpé en unités de la bonne taille, un produit, une fiche, une section d'article, assez large pour garder le contexte, assez resserrée pour rester précise. En parallèle, les requêtes réelles, quand elles existent dans vos journaux de recherche, montrent les mots que vos utilisateurs emploient et ceux sur lesquels le moteur actuel les laisse sans réponse. Cette matière oriente tout le reste.
On indexe le sens, sans jeter les mots-clés
Chaque unité est transformée en embedding par un modèle adapté à votre langue et à votre domaine, puis rangée dans un index de proximité. La recherche par mots exacts ne disparaît pas. Un nom de produit, une référence, un code article se cherchent à la lettre près, et le sens n'a rien à y voir. La bonne réponse mêle souvent les deux, et on règle ce dosage sur vos contenus.
On mesure la pertinence sur des cas réels
Une recherche ne se juge pas sur trois requêtes choisies pour bien sortir. On constitue un jeu de demandes représentatives, avec pour chacune les résultats qu'on attend en tête, et on mesure ce que le moteur place réellement dans les premières lignes. C'est là qu'on voit si le réglage tient, où il confond deux notions voisines, où il rate une formulation. On ajuste, on reteste, et on ne met en ligne que ce qui bat le moteur en place sur ces cas.
Ce que ça ne règle pas
Comprendre le sens ne crée pas de contenu manquant. Si la réponse n'est écrite nulle part chez vous, aucune recherche ne la fera apparaître, et c'est normal. Le moteur hérite aussi de l'état du corpus : des fiches mal renseignées ou des pages périmées remontent comme les autres, présentées avec le même aplomb. Une recherche par sens met en lumière les trous d'un contenu autant qu'elle en facilite l'accès. La tenue du corpus reste votre travail, de bout en bout.
La proximité de sens se trompe aussi, parfois. Deux sujets voisins dans les mots peuvent être éloignés dans l'intention, et l'inverse arrive. D'où la correspondance exacte gardée sous la main et un équilibre réglé entre les deux, plutôt qu'un pari sur l'une. Et avant d'ouvrir ce chantier, on vérifie que le jeu en vaut la chandelle. Quand le corpus est petit, le vocabulaire stable et le moteur en place déjà suffisant, on n'ajoute pas une couche qui coûte sans rien changer pour l'utilisateur.
Continuer sur l'IA
CAS D'USAGE IA
CAS D'USAGE IA
CAS D'USAGE IA
Audit, intégration, agents, automatisation, formation. Un gain qui se mesure, ou rien : c'est la seule raison qui nous fait sortir un modèle.
Transformer la donnée Apidae et les sources officielles d'une destination en assistant conversationnel multicanal, mesurable et conforme RGPD.
Hôtel 5★ thalasso au port du Crouesty · booking engine sur mesure et site refait en 2021
Le cahier des charges d'un site d'office de tourisme : objectifs, fonctionnalités (Apidae, carte, saisons, multilingue, résa), intégrations à anticiper. Structure issue de quinze ans de projets OT.