Les expressions idiomatiques révèlent l’écart entre reconnaître des mots et comprendre le langage. Leur sens est souvent non compositionnel : connaître chacun des mots ne suffit pas à déduire ce que l’expression signifie dans son contexte. Un système peut analyser parfaitement « break a leg » et prendre malgré tout un encouragement pour une blessure.

01Quand le langage cesse d’être littéral

Les humains distinguent couramment les lectures littérales et figurées à partir du contexte. « She spilled the tea on the table » décrit un accident ; « she spilled the tea about the meeting » décrit une divulgation. Cette distinction reste difficile pour les systèmes de traitement automatique des langues, car le chevauchement lexical peut être presque identique alors que le sens change complètement.

Le projet initial est parti d’une limite pratique : de nombreuses ressources consacrées aux expressions idiomatiques restent de taille modeste, couvrent peu de langues ou sont conçues pour une seule tâche isolée. IdiomX traite au contraire leur compréhension comme une suite de problèmes liés, de la reconnaissance d’un emploi figuré à la recherche et à l’explication du sens entre plusieurs langues.

La question de conception : une même ressource reproductible peut-elle prendre en charge la détection, la recherche sémantique, l’alignement interlingue et la restitution d’un sens interprétable, plutôt que d’évaluer chaque capacité isolément ?

Couverture du projet IdiomX illustrant la compréhension multilingue des expressions idiomatiques — IdiomX aborde la compréhension du langage figuré comme un problème multilingue de données, de modélisation et d’évaluation.

02Construire un jeu de données multilingue à grande échelle

La version publique contient plus de 190 000 exemples en contexte couvrant plus de 12 000 expressions idiomatiques. Les expressions anglaises sont reliées à des représentations sémantiques en arabe et en français, avec des étiquettes signalant un usage idiomatique, littéral ou ambigu et des métadonnées linguistiques complémentaires.

≈196Klignes dans le jeu de données complet actuellement publié sur Hugging Face

12K+expressions idiomatiques distinctes représentées

EN · AR · FRalignement sémantique entre l’anglais, l’arabe et le français

≈1,04coefficient déclaré de réutilisation des phrases après nettoyage

Le processus de construction combine des ressources lexicales, une génération contrôlée et une validation. Sa structure modulaire compte autant que sa taille : l’objectif est de rendre chaque étape inspectable et reproductible, plutôt que de publier un fichier final opaque.

Collecte

Extraire des expressions idiomatiques candidates à partir de sources incluant des données dérivées de Wiktionary et WordNet, tout en élargissant la couverture avec des expressions contemporaines et des candidates générées.

Nettoyage et normalisation

Filtrer le bruit, normaliser les expressions, supprimer les doublons et préparer des enregistrements cohérents pour l’enrichissement et l’évaluation.

Enrichissement contrôlé par LLM

Utiliser GPT-4.1-mini pour générer des significations, des exemples en contexte et des champs sémantiques alignés en anglais, en arabe et en français.

Validation structurée

Combiner des scores de similarité sémantique, des contrôles fondés sur des règles, la déduplication et des partitions conçues pour éviter les fuites de données, afin de permettre des benchmarks fiables.

Pipeline de préparation des données IdiomX — Le workflow de préparation des données transforme des sources lexicales hétérogènes en exemples normalisés, enrichis et validés.

03Plus qu’un jeu de données : un benchmark progressif

IdiomX est organisé comme une progression. La première tâche demande si un modèle reconnaît un emploi figuré. Les suivantes évaluent s’il peut retrouver une expression idiomatique adaptée à partir du contexte, aligner le sens entre les langues et fournir une explication qu’une personne peut examiner.

Pipeline complet du jeu de données et du benchmark IdiomX — Le workflow complet réunit la construction du jeu de données, l’entraînement des modèles, l’évaluation de la recherche, l’interprétation multilingue et des artefacts prêts au déploiement.

04Quatre tâches, de la reconnaissance à l’interprétation

Tâche 1

Détection des expressions idiomatiques

Déterminer si une expression est employée de manière idiomatique ou littérale dans sa phrase.

Méthodes comparées: TF-IDF avec régression logistique, DistilBERT et RoBERTa
Meilleur résultat rapporté: RoBERTa
Capacité: Désambiguïsation contextuelle

Tâche 2

Recherche d’une expression idiomatique à partir du contexte

À partir d’une phrase en contexte, classer les expressions idiomatiques qui traduisent le mieux son sens figuré sous-jacent.

Méthodes comparées: Recherche dense, lexicale et hybride avec réordonnancement
Meilleur résultat rapporté: Recherche hybride avec un modèle de réordonnancement ayant fait l’objet d’un réglage fin
Capacité: Recherche sémantique

Tâche 3

Recherche de l’arabe vers l’anglais

À partir d’un contexte en arabe, retrouver l’expression idiomatique anglaise correspondante afin d’évaluer l’alignement sémantique entre les langues.

Méthodes comparées: MiniLM multilingue, E5 multilingue et E5 avec réglage fin
Meilleur résultat rapporté: E5 avec réglage fin
Capacité: Alignement interlingue

Tâche 4

Interprétation des expressions idiomatiques

Retrouver l’expression idiomatique canonique et expliquer son sens en anglais, en arabe et en français.

Méthodes comparées: Recherche dense et hybride, avec et sans réordonnancement
Meilleur résultat rapporté: Recherche hybride avec réordonnancement
Capacité: Ancrage sémantique explicable

05Ce que révèlent les expériences du benchmark

Le projet indique que les transformeurs contextuels améliorent nettement la détection des expressions idiomatiques, tandis que la recherche hybride, lexicale et dense, surpasse la seule recherche dense. Le réglage fin est particulièrement important pour la tâche arabe-vers-anglais, où les formes de surface fournissent peu d’indices lexicaux directs.

Tâche	Configuration avec le meilleur résultat	Résultat principal
Détection	RoBERTa	Taux de bonnes classifications : 92,6 % · F1 : 0,926
Contexte → expression idiomatique	Recherche hybride + modèle de réordonnancement avec réglage fin	Top-1 : 88,5 %
Arabe → expression idiomatique anglaise	E5 avec réglage fin	Top-1 : 57,8 %
Interprétation	Recherche hybride + réordonnancement	Top-1 : 67,4 %

Ces chiffres ne sont pas interchangeables : chaque tâche teste un espace de recherche et un niveau de difficulté différents. Leur intérêt commun réside dans la progression, de la classification vers une recherche multilingue et une sortie interprétable.

Une sortie de la tâche 4 est conçue pour être lisible

EntréeSpill the tea

Sens canoniqueRévéler des ragots ou des secrets personnels

Sortie multilingueExplications en anglais, en arabe et en français

06Pourquoi comprendre le langage figuré est important

Les expressions idiomatiques ne sont pas des cas marginaux cantonnés aux dictionnaires. Elles apparaissent dans les conversations, les demandes d’assistance, les réseaux sociaux, les sous-titres, les supports pédagogiques et les instructions du quotidien. Les systèmes qui les interprètent littéralement peuvent mal comprendre l’intention, même lorsque chaque jeton leur est familier.

IA conversationnelleDes chatbots et assistants qui reconnaissent mieux ce que les utilisateurs veulent réellement dire.

TraductionDes systèmes qui recherchent un sens équivalent plutôt que de traduire mot à mot.

Apprentissage des languesDes outils qui retrouvent des explications, des contextes et des équivalents entre langues.

Recherche sémantiqueUne recherche fondée sur le sens visé plutôt que sur le chevauchement des formes de surface.

Analyse de contenuUne meilleure prise en compte de l’argot, du langage figuré et des emplois dépendant du contexte.

Interaction humain–robotDes interfaces qui traitent plus fiablement une parole naturelle et située culturellement.

07Un projet ouvert : données, code, article scientifique et démonstrations

IdiomX sépare le pipeline de construction du jeu de données du dépôt consacré à la modélisation et au benchmark. La provenance de la ressource est ainsi plus facile à examiner, tandis que les notebooks des tâches, les artefacts entraînés et les démonstrations restent organisés autour de l’évaluation.

Ayman Ali Sharara

Étudiant DSTI du MSc in Data Science & AI, en mode Online asynchrone. Ses travaux portent sur le TALN multilingue, l’ingénierie des données, les systèmes de recherche d’information et les applications pratiques de l’IA. IdiomX a été développé dans le cadre de son projet Deep Learning with Python.

MSc in Data Science & AI Online asynchrone

LinkedIn GitHub Hugging Face

Article adapté pour le DSTI TechBlog à partir de la contribution originale d’Ayman Sharara à son projet étudiant et de la documentation publique actuelle du projet. La rédaction et la présentation ont été révisées, tout en préservant les méthodes, les affirmations et les résultats rapportés du projet.