Les expressions idiomatiques révèlent l’écart entre reconnaître des mots et comprendre le langage. Leur sens est souvent non compositionnel : connaître chacun des mots ne suffit pas à déduire ce que l’expression signifie dans son contexte. Un système peut analyser parfaitement « break a leg » et prendre malgré tout un encouragement pour une blessure.
01Quand le langage cesse d’être littéral
Les humains distinguent couramment les lectures littérales et figurées à partir du contexte. « She spilled the tea on the table » décrit un accident ; « she spilled the tea about the meeting » décrit une divulgation. Cette distinction reste difficile pour les systèmes de traitement automatique des langues, car le chevauchement lexical peut être presque identique alors que le sens change complètement.
Le projet initial est parti d’une limite pratique : de nombreuses ressources consacrées aux expressions idiomatiques restent de taille modeste, couvrent peu de langues ou sont conçues pour une seule tâche isolée. IdiomX traite au contraire leur compréhension comme une suite de problèmes liés, de la reconnaissance d’un emploi figuré à la recherche et à l’explication du sens entre plusieurs langues.

02Construire un jeu de données multilingue à grande échelle
La version publique contient plus de 190 000 exemples en contexte couvrant plus de 12 000 expressions idiomatiques. Les expressions anglaises sont reliées à des représentations sémantiques en arabe et en français, avec des étiquettes signalant un usage idiomatique, littéral ou ambigu et des métadonnées linguistiques complémentaires.
Le processus de construction combine des ressources lexicales, une génération contrôlée et une validation. Sa structure modulaire compte autant que sa taille : l’objectif est de rendre chaque étape inspectable et reproductible, plutôt que de publier un fichier final opaque.
Collecte
Extraire des expressions idiomatiques candidates à partir de sources incluant des données dérivées de Wiktionary et WordNet, tout en élargissant la couverture avec des expressions contemporaines et des candidates générées.
Nettoyage et normalisation
Filtrer le bruit, normaliser les expressions, supprimer les doublons et préparer des enregistrements cohérents pour l’enrichissement et l’évaluation.
Enrichissement contrôlé par LLM
Utiliser GPT-4.1-mini pour générer des significations, des exemples en contexte et des champs sémantiques alignés en anglais, en arabe et en français.
Validation structurée
Combiner des scores de similarité sémantique, des contrôles fondés sur des règles, la déduplication et des partitions conçues pour éviter les fuites de données, afin de permettre des benchmarks fiables.

03Plus qu’un jeu de données : un benchmark progressif
IdiomX est organisé comme une progression. La première tâche demande si un modèle reconnaît un emploi figuré. Les suivantes évaluent s’il peut retrouver une expression idiomatique adaptée à partir du contexte, aligner le sens entre les langues et fournir une explication qu’une personne peut examiner.

04Quatre tâches, de la reconnaissance à l’interprétation
Détection des expressions idiomatiques
Déterminer si une expression est employée de manière idiomatique ou littérale dans sa phrase.
- Méthodes comparées
- TF-IDF avec régression logistique, DistilBERT et RoBERTa
- Meilleur résultat rapporté
- RoBERTa
- Capacité
- Désambiguïsation contextuelle
Recherche d’une expression idiomatique à partir du contexte
À partir d’une phrase en contexte, classer les expressions idiomatiques qui traduisent le mieux son sens figuré sous-jacent.
- Méthodes comparées
- Recherche dense, lexicale et hybride avec réordonnancement
- Meilleur résultat rapporté
- Recherche hybride avec un modèle de réordonnancement ayant fait l’objet d’un réglage fin
- Capacité
- Recherche sémantique
Recherche de l’arabe vers l’anglais
À partir d’un contexte en arabe, retrouver l’expression idiomatique anglaise correspondante afin d’évaluer l’alignement sémantique entre les langues.
- Méthodes comparées
- MiniLM multilingue, E5 multilingue et E5 avec réglage fin
- Meilleur résultat rapporté
- E5 avec réglage fin
- Capacité
- Alignement interlingue
Interprétation des expressions idiomatiques
Retrouver l’expression idiomatique canonique et expliquer son sens en anglais, en arabe et en français.
- Méthodes comparées
- Recherche dense et hybride, avec et sans réordonnancement
- Meilleur résultat rapporté
- Recherche hybride avec réordonnancement
- Capacité
- Ancrage sémantique explicable
05Ce que révèlent les expériences du benchmark
Le projet indique que les transformeurs contextuels améliorent nettement la détection des expressions idiomatiques, tandis que la recherche hybride, lexicale et dense, surpasse la seule recherche dense. Le réglage fin est particulièrement important pour la tâche arabe-vers-anglais, où les formes de surface fournissent peu d’indices lexicaux directs.
| Tâche | Configuration avec le meilleur résultat | Résultat principal |
|---|---|---|
| Détection | RoBERTa | Taux de bonnes classifications : 92,6 % · F1 : 0,926 |
| Contexte → expression idiomatique | Recherche hybride + modèle de réordonnancement avec réglage fin | Top-1 : 88,5 % |
| Arabe → expression idiomatique anglaise | E5 avec réglage fin | Top-1 : 57,8 % |
| Interprétation | Recherche hybride + réordonnancement | Top-1 : 67,4 % |
Ces chiffres ne sont pas interchangeables : chaque tâche teste un espace de recherche et un niveau de difficulté différents. Leur intérêt commun réside dans la progression, de la classification vers une recherche multilingue et une sortie interprétable.
Une sortie de la tâche 4 est conçue pour être lisible
06Pourquoi comprendre le langage figuré est important
Les expressions idiomatiques ne sont pas des cas marginaux cantonnés aux dictionnaires. Elles apparaissent dans les conversations, les demandes d’assistance, les réseaux sociaux, les sous-titres, les supports pédagogiques et les instructions du quotidien. Les systèmes qui les interprètent littéralement peuvent mal comprendre l’intention, même lorsque chaque jeton leur est familier.
07Un projet ouvert : données, code, article scientifique et démonstrations
IdiomX sépare le pipeline de construction du jeu de données du dépôt consacré à la modélisation et au benchmark. La provenance de la ressource est ainsi plus facile à examiner, tandis que les notebooks des tâches, les artefacts entraînés et les démonstrations restent organisés autour de l’évaluation.
Ayman Ali Sharara
Étudiant DSTI du MSc in Data Science & AI, en mode Online asynchrone. Ses travaux portent sur le TALN multilingue, l’ingénierie des données, les systèmes de recherche d’information et les applications pratiques de l’IA. IdiomX a été développé dans le cadre de son projet Deep Learning with Python.
Article adapté pour le DSTI TechBlog à partir de la contribution originale d’Ayman Sharara à son projet étudiant et de la documentation publique actuelle du projet. La rédaction et la présentation ont été révisées, tout en préservant les méthodes, les affirmations et les résultats rapportés du projet.