Comment Wikit améliore la fiabilité de ses chatbots ?
Qu'est-ce que les hallucinations d'IA générative ?
Les chatbots basés sur l’Intelligence Artificielle générative sont des merveilles de technologie, capables de produire du texte de manière autonome en imitant le langage humain. Cependant, malgré leurs capacités impressionnantes, ces systèmes ne sont pas à l'abri de ce que l'on appelle communément les hallucinations ou erreurs de génération. Les hallucinations dans le contexte de l’IA générative se réfèrent aux sorties ou aux productions générées par un modèle d’intelligence artificielle, qui peuvent être étranges, inattendues ou complètement déconnectées de la réalité, remettant ainsi en cause la véracité des résultats obtenus, souvent en raison des limitations de son entraînement ou de ses données d'entraînement. Le chatbot pourra par exemple inventer des informations sur un sujet qu'il ne connaît pas vraiment, ou répondre de manière incorrecte à une question en raison d'une mauvaise interprétation du contexte.
Les origines des hallucinations
Les "hallucinations" dans les chatbots basés sur l’IA générative trouvent leurs origines dans plusieurs facteurs. Tout d'abord, ces systèmes dépendent fortement des données d'entraînement sur lesquelles ils sont basés. Si ces données sont incomplètes, biaisées ou peu représentatives, le chatbot peut avoir du mal à produire des réponses précises et pertinentes. En effet, les chatbot basés sur IA générative ne sont pas magiques ! Pour fonctionner et générer des réponses ils doivent être alimentés par des sources documentaires en quantité suffisante et de grande qualité pour fournir une base solide afin de former le chatbot, le tester puis identifier les ajustements nécessaires.
De plus, les grands modèles de langage (LLM) utilisés par les chatbots peuvent avoir des lacunes dans leur compréhension du langage naturel, ce qui les rend susceptibles de produire des réponses erronées ou inappropriées. Enfin, les chatbots peuvent être confrontés à des situations ambiguës ou peu familières, ce qui peut entraîner des réponses imprévisibles ou déroutantes pour l'utilisateur.
Comment Wikit limite les hallucinations et améliore la fiabilité de ses chatbots ?
Chez Wikit, la gestion des hallucinations est un challenge techniques de premier plan et nous mettons tout en œuvre pour améliorer leur détection et les limiter. Notre approche repose sur différentes étapes incontournables pour assurer un fonctionnement optimal des modèles d’IA et assurer la fiabilité de nos chatbots.
1. Une préparation minutieuse des données
La base de connaissances est le socle sur lequel le chatbot s'appuie pour répondre aux requêtes des utilisateurs. Plus l’agent conversationnel disposera de données pertinentes en abondance, mieux il comprendra les requêtes des utilisateurs. En effet, la fourniture de données structurées de haute qualité au modèle de langage (LLM) est l’une des principales conditions préalables à la mise en œuvre de cas d’utilisation d’IA générative. Des données structurées permettent au modèle de comprendre les relations entre les différentes entités, contextes et significations. Cela améliore significativement la pertinence des réponses générées par le LLM, favorisant ainsi une meilleure compréhension des requêtes posées. Ainsi, pour créer un chatbot qui repose sur une IA, il est essentiel de constituer une base de connaissances basées sur un ensemble de données de haute qualité, représentatives et actualisée, afin de fournir au chatbot une base solide sur laquelle s'appuyer pour générer des réponses précises. Ainsi, si les informations données au chatbot ne sont plus d'actualités, les réponses seront forcément erronées.
Chez Wikit, nos équipes guident les clients dans la création de leur base de connaissances afin de s’assurer qu’elles contiennent toute l’information qui couvre le périmètre du chatbot, ni plus, ni moins. Elles les aident notamment dans la sélection des documents utiles, leur transmettent les bonnes pratiques de formatage de ces documents, et contribuent à la limitation et au reformatage des éléments plus difficiles à interpréter, comme les images.
Par ailleurs, nos équipes travaillent activement sur le formatage des données, afin que celles-ci soient le plus facilement ingérables par l’IA. En effet, les sources de données sont nombreuses et de natures très variées (documents PDF, Word, Markdown, présentations Powerpoint, sites internet, etc.)., nécessitant la mise au point de méthodes de formatage spécifiques pour chacune d’elles. Par exemple, afin de limiter la quantité d’information envoyée au chatbot en une seule fois, il est nécessaire de découper les documents en fragments. Le découpage de ces fragments est une étape cruciale, car elle doit permettre la création de fragments pertinents, qui contiennent un groupe d’informations uniformisées, cohérentes, condensées, et accompagnées du contexte nécessaire à leur compréhension. De la qualité de ce découpage dépend tout le reste de la chaine.
2. Des modèles d’IA couplés à une technologie RAG propriétaire
Chez Wikit, nous couplons notre IA à un technologie RAG propriétaire (Retrieval Augmented Generation, ou Génération Augmentée de Récupération). Cette approche combine deux étapes : une étape de récupération d'informations (Retrieval) chargée de trouver les informations pertinentes en réponse à une requête donnée, et une étape de génération de langage qui prend ces informations comme contexte et les aggrège dans une réponse plus détaillée et plus naturelle (Generation). En combinant ces différentes étapes, la méthode RAG permet aux chatbots d'IA générative de fournir des réponses plus pertinentes et plus précises aux requêtes des utilisateurs. Elle tire parti à la fois de la capacité des modèles de génération de langage à produire un langage naturel et de la capacité des systèmes de récupération d'informations à trouver rapidement des réponses pertinentes dans un ensemble de données. Cela se traduit par une expérience utilisateur améliorée et une plus grande capacité du chatbot à comprendre et à répondre aux besoins des utilisateurs.
3. Le conditionnement et la formation du chatbot
Chez Wikit, nous adoptons une approche appelée “grounding” qui consiste à définir clairement les domaines dans lesquels le chatbot excelle et à limiter ses interactions aux sujets qu'il maîtrise. Nous “éduquons” nos chatbots en les conditionnant à interagir sur une portée bien définie pour qu’ils ne répondent qu'aux questions pour lesquelles ils ont été formés. L’objectif est de limiter les connaissances initiales du modèle en formant l’algorithme avec les “seules” données de l’entreprise. En outre, il est possible de demander aux modèles de ne pas fournir de réponses si les informations requises ne sont pas présentes dans les données d’apprentissage, et surtout de ne pas établir de connexions qui ne sont pas explicitement présentes dans les données d’apprentissage. De cette manière, les modèles sont beaucoup moins susceptibles d’halluciner, ce qui augmente considérablement la qualité des résultats.
Une fois la préparation des données réalisée, notre approche consiste à tester les chatbots avec un public limité d’utilisateurs pour évaluer la validité des réponses générées, identifier les ajustements nécessaires et effectuer les correctifs. Il est important d’évaluer les requêtes en entrée du chatbot, mais également ses réponses. Pour cela, nous adoptons un processus d’évaluation rigoureux grâce à une batterie de test où nous évaluons le bon comportement du chatbot face à des requêtes inadéquates (dites “toxiques”), comme des insultes ou des actes malveillants. Il est d’importance majeure que les instructions de nos chatbots soient les plus robustes possible face à celles-ci.
Puis, à mesure que la confiance dans ses capacités augmente, sa portée pourra être élargie. Il faudra toutefois maintenir le contrôle en définissant clairement les attentes et en s’assurant que les utilisateurs comprennent les limitations du bot.
4. L'affichage des sources
Chez Wikit, nous faisons le choix de nous orienter vers une IA la plus transparente possible. Dans cette optique, nous proposons aux utilisateurs de nos chatbots d’explorer les sources exactes des réponses générées pour leur permettre de comprendre les leviers qui ont permis d’élaborer ces réponses. In fine, l’objectif sera d’éliminer les différentes couches du processus décisionnel, pour créer davantage de confiance dans les capacités de l’IA et, à terme, conduire à un chatbot plus efficace et adapté aux besoins de nos clients. Une IA transparente ne garantit pas une explicabilité parfaite mais permet que chaque réponse soit non seulement précise, mais également vérifiable et compréhensible.
5. La mise en place d’un disclaimer et le transfert à un humain
Malgré toutes ces mesures, les chatbots d’IA générative ne sont pas magiques et les hallucinations ne peuvent pas être totalement supprimées. C’est pourquoi, nous mettons systématiquement en place, sur tous nos chatbots, un disclaimer (avertissement) invitant les utilisateurs à vérifier les informations importantes dans les documents originaux.
Par ailleurs, il est inévitable que le chatbot ne puisse pas répondre à toutes les requêtes ou questions posées par les utilisateurs, surtout dans les premières phases de déploiement, où il peut rencontrer des limites dans sa compréhension ou ses capacités de génération de réponses. Afin d'éviter toute frustration de la part des utilisateurs, il est essentiel que le chatbot admette clairement lorsqu'il ne sait pas répondre, et facilite le transferts vers un agent humain. De cette manière, on garantit une expérience utilisateur positive, même en cas de non-réponse du chatbot.
Conclusion
La gestion des hallucinations est l’un des principaux challenges techniques des chatbots d’IA générative. Chez Wikit, nous mettons en œuvre des solutions appropriées pour détecter et limiter les hallucinations et nous progressons chaque jour vers des chatbots plus fiables et plus efficaces, capables de fournir des réponses précises et pertinentes, dans une variété de contextes d'utilisation.
Cependant, il nous semble essentiel de rappeler que les chatbots d’IA générative ne sont pas des outils magiques. Ils ne doivent donc pas être considérés comme une alternative à l'humain, mais plutôt comme des outils complémentaires à l’humain qui, dès lors qu’ils sont correctement paramétrés et utilisés, vont grandement contribuer à améliorer l'efficacité et la productivité des entreprises qui vont les déployer.