Logo Wikit
24 mars 2025

Benchmark MMTEB : comment Wikit contribue à l’évaluation des modèles d’embedding

Une IA plus performante pour mieux comprendre le langage humain

Dans un monde où les volumes d’informations numériques explosent, la capacité à retrouver rapidement et précisément les bonnes données est un défi majeur. Que ce soit pour alimenter un chatbot intelligent, améliorer un moteur de recherche ou classer automatiquement des documents, l’embedding joue un rôle fondamental dans le traitement du langage naturel (NLP). Mais de quoi s’agit-il exactement ?


Qu’est-ce qu’un modèle d’embedding ?

Un embedding (ou “plongement lexical” en français) est une méthode de représentation des mots, phrases ou documents sous forme de vecteurs numériques fourni par un modèle d’IA. Ces vecteurs capturent la signification des textes en fonction de leur contexte et permettant ainsi aux algorithmes de traiter mathématiquement le langage naturel.

La qualité de l’embedding est cruciale pour garantir le succès le succès de la tâche qui l’exploite. Ainsi, un modèle d’embedding doit  doit répondre à plusieurs critères :

  • Performance : il doit capturer la sémantique des textes avec précision et disposer d’une large fenêtre contextuelle.
  • Coût à l’inférence : généralement, plus le modèle est gros, plus l’embedding produit sera de bonne qualité. Mais un modèle de trop grande taillepeut être lent et coûteux à exploiter. Il faut donc trouver le bon compromis entre embedding expressif et rapidité du modèle.
  • Adaptabilité : les performances d’un embedding peuvent varier selon les langues, les tâches (récupération d’information, classification, reranking, etc.) et les domaines lexicaux (IT, juridique, médical, etc.). Il faut choisir un modèle adapté à son cas d'usage.

Face à ces enjeux, la communauté scientifique a développé MTEB (Massive Text Embedding Benchmark), un benchmark open source portant exclusivement sur les performances des modèles d’embedding. Le leaderboard MTEB est rapidement devenu un outil incontournable permettant aux data scientists de comparer et choisir les modèles adaptés à leurs besoins.


Wikit, un acteur clé dans l’évolution du benchmark MTEB

Dès les premières étapes du projet, Wikit a activement contribué à MTEB for French, une initiative visant à identifier les modèles d’embedding les plus performants pour la langue française. Ce travail a abouti à une publication scientifique consultable ici : MTEB for French.

Forte de cette expertise, l’équipe R&D de Wikit a poursuivi son engagement dans l’évolution de MTEB vers MMTEB (Multilingual MTEB), un benchmark permettant d’évaluer les modèles d’embedding dans un cadre véritablement multilingue. L’aboutissement de ces travaux a été récemment publié à ICLR (International Conference on Learning Representations), une conférence majeure en intelligence artificielle. Le papier est accessible ici : MMTEB sur Arxiv.


Pourquoi MMTEB est une avancée majeure ?

L’évolution vers MMTEB répond à un enjeu fondamental : la nécessité d’évaluer les modèles d’embedding de manière rigoureuse sur plusieurs langues et plusieurs tâches. Dans un contexte où les chatbots et les systèmes de recherche d’information doivent fonctionner efficacement dans des environnements multilingues et spécialisés, il est crucial de pouvoir sélectionner les modèles les mieux adaptés à chaque situation.

Grâce à MMTEB, les chercheurs et praticiens de l’IA disposent désormais d’un benchmark complet et fiable pour comparer les performances des modèles d’embedding selon différents critères :

  • Capacité multilingue : évaluer les modèles sur des langues variées et déterminer leur efficacité au-delà de l’anglais.
  • Diversité des tâches : tester les modèles sur des scénarios variés allant de la recherche d’information au reranking.
  • Domaines spécialisés : mesurer la pertinence des embeddings dans des secteurs comme l’IT, le droit ou la médecine.

Wikit, un expert reconnu en IA appliquée au NLP

Dès les débuts de la construction de MTEB, qui portait initialement uniquement sur l’anglais, Wikit a grandement contribué à son extension sur la langue française. Cette contribution à l’évolution de MTEB vers MMTEB, renforce l’expertise et le positionnement de Wikit en tant qu’acteur clé du NLP et de l’IA générative. Cette contribution illustre l’engagement de l’entreprise dans la recherche de solutions performantes et adaptées aux enjeux réels des entreprises et des collectivités.

En intégrant les avancées identifiables via MMTEB, Wikit optimise en permanence sa plateforme de création de chatbots et d’applications IA, garantissant ainsi à ses clients des performances de pointe pour des interactions intelligentes et contextualisées.


👉 Vous souhaitez en savoir plus sur nos travaux en IA et NLP ? Suivez nos actualités et découvrez comment nous exploitons les dernières avancées scientifiques pour améliorer nos solutions d’intelligence artificielle.


📌 Références :


Partager cet article
Logo de LinkedInLogo de FacebookLogo de Xemail