ÉtudiantsProjets, expérimentations et contributions publiques
Sur cette page
Vue d’ensembleQuand le langage cesse d’être littéralConstruire un jeu de données multilingue à grande échellePlus qu’un jeu de données : un benchmark progressifQuatre tâches, de la reconnaissance à l’interprétationCe que révèlent les expériences du benchmarkPourquoi comprendre le langage figuré est importantUn projet ouvert : données, code, article scientifique et démonstrations
DSTI TechBlog  / Étudiants
ÉtudiantsAtelier étudiant · contribution publique

Construire IdiomX : le langage au-delà du sens littéral

« Spill the tea » n’est pas une instruction qui concerne une boisson. L’étudiant DSTI Ayman Ali Sharara a conçu IdiomX pour évaluer si des systèmes d’IA multilingues peuvent détecter un emploi idiomatique, retrouver des expressions figurées et en expliquer le sens en anglais, en arabe et en français.

idiomxtaln-multilinguelangage-figurérecherche-sémantiqueanglais-arabe-françaisprojet-étudiant

Les expressions idiomatiques révèlent l’écart entre reconnaître des mots et comprendre le langage. Leur sens est souvent non compositionnel : connaître chacun des mots ne suffit pas à déduire ce que l’expression signifie dans son contexte. Un système peut analyser parfaitement « break a leg » et prendre malgré tout un encouragement pour une blessure.

01Quand le langage cesse d’être littéral

Les humains distinguent couramment les lectures littérales et figurées à partir du contexte. « She spilled the tea on the table » décrit un accident ; « she spilled the tea about the meeting » décrit une divulgation. Cette distinction reste difficile pour les systèmes de traitement automatique des langues, car le chevauchement lexical peut être presque identique alors que le sens change complètement.

Le projet initial est parti d’une limite pratique : de nombreuses ressources consacrées aux expressions idiomatiques restent de taille modeste, couvrent peu de langues ou sont conçues pour une seule tâche isolée. IdiomX traite au contraire leur compréhension comme une suite de problèmes liés, de la reconnaissance d’un emploi figuré à la recherche et à l’explication du sens entre plusieurs langues.

La question de conception : une même ressource reproductible peut-elle prendre en charge la détection, la recherche sémantique, l’alignement interlingue et la restitution d’un sens interprétable, plutôt que d’évaluer chaque capacité isolément ?
Couverture du projet IdiomX illustrant la compréhension multilingue des expressions idiomatiques
IdiomX aborde la compréhension du langage figuré comme un problème multilingue de données, de modélisation et d’évaluation.

02Construire un jeu de données multilingue à grande échelle

La version publique contient plus de 190 000 exemples en contexte couvrant plus de 12 000 expressions idiomatiques. Les expressions anglaises sont reliées à des représentations sémantiques en arabe et en français, avec des étiquettes signalant un usage idiomatique, littéral ou ambigu et des métadonnées linguistiques complémentaires.

≈196Klignes dans le jeu de données complet actuellement publié sur Hugging Face
12K+expressions idiomatiques distinctes représentées
EN · AR · FRalignement sémantique entre l’anglais, l’arabe et le français
≈1,04coefficient déclaré de réutilisation des phrases après nettoyage

Le processus de construction combine des ressources lexicales, une génération contrôlée et une validation. Sa structure modulaire compte autant que sa taille : l’objectif est de rendre chaque étape inspectable et reproductible, plutôt que de publier un fichier final opaque.

1

Collecte

Extraire des expressions idiomatiques candidates à partir de sources incluant des données dérivées de Wiktionary et WordNet, tout en élargissant la couverture avec des expressions contemporaines et des candidates générées.

2

Nettoyage et normalisation

Filtrer le bruit, normaliser les expressions, supprimer les doublons et préparer des enregistrements cohérents pour l’enrichissement et l’évaluation.

3

Enrichissement contrôlé par LLM

Utiliser GPT-4.1-mini pour générer des significations, des exemples en contexte et des champs sémantiques alignés en anglais, en arabe et en français.

4

Validation structurée

Combiner des scores de similarité sémantique, des contrôles fondés sur des règles, la déduplication et des partitions conçues pour éviter les fuites de données, afin de permettre des benchmarks fiables.

Pipeline de préparation des données IdiomX
Le workflow de préparation des données transforme des sources lexicales hétérogènes en exemples normalisés, enrichis et validés.

03Plus qu’un jeu de données : un benchmark progressif

IdiomX est organisé comme une progression. La première tâche demande si un modèle reconnaît un emploi figuré. Les suivantes évaluent s’il peut retrouver une expression idiomatique adaptée à partir du contexte, aligner le sens entre les langues et fournir une explication qu’une personne peut examiner.

Pipeline complet du jeu de données et du benchmark IdiomX
Le workflow complet réunit la construction du jeu de données, l’entraînement des modèles, l’évaluation de la recherche, l’interprétation multilingue et des artefacts prêts au déploiement.

04Quatre tâches, de la reconnaissance à l’interprétation

Tâche 1

Détection des expressions idiomatiques

Déterminer si une expression est employée de manière idiomatique ou littérale dans sa phrase.

Méthodes comparées
TF-IDF avec régression logistique, DistilBERT et RoBERTa
Meilleur résultat rapporté
RoBERTa
Capacité
Désambiguïsation contextuelle
Tâche 2

Recherche d’une expression idiomatique à partir du contexte

À partir d’une phrase en contexte, classer les expressions idiomatiques qui traduisent le mieux son sens figuré sous-jacent.

Méthodes comparées
Recherche dense, lexicale et hybride avec réordonnancement
Meilleur résultat rapporté
Recherche hybride avec un modèle de réordonnancement ayant fait l’objet d’un réglage fin
Capacité
Recherche sémantique
Tâche 3

Recherche de l’arabe vers l’anglais

À partir d’un contexte en arabe, retrouver l’expression idiomatique anglaise correspondante afin d’évaluer l’alignement sémantique entre les langues.

Méthodes comparées
MiniLM multilingue, E5 multilingue et E5 avec réglage fin
Meilleur résultat rapporté
E5 avec réglage fin
Capacité
Alignement interlingue
Tâche 4

Interprétation des expressions idiomatiques

Retrouver l’expression idiomatique canonique et expliquer son sens en anglais, en arabe et en français.

Méthodes comparées
Recherche dense et hybride, avec et sans réordonnancement
Meilleur résultat rapporté
Recherche hybride avec réordonnancement
Capacité
Ancrage sémantique explicable

05Ce que révèlent les expériences du benchmark

Le projet indique que les transformeurs contextuels améliorent nettement la détection des expressions idiomatiques, tandis que la recherche hybride, lexicale et dense, surpasse la seule recherche dense. Le réglage fin est particulièrement important pour la tâche arabe-vers-anglais, où les formes de surface fournissent peu d’indices lexicaux directs.

TâcheConfiguration avec le meilleur résultatRésultat principal
DétectionRoBERTaTaux de bonnes classifications : 92,6 % · F1 : 0,926
Contexte → expression idiomatiqueRecherche hybride + modèle de réordonnancement avec réglage finTop-1 : 88,5 %
Arabe → expression idiomatique anglaiseE5 avec réglage finTop-1 : 57,8 %
InterprétationRecherche hybride + réordonnancementTop-1 : 67,4 %

Ces chiffres ne sont pas interchangeables : chaque tâche teste un espace de recherche et un niveau de difficulté différents. Leur intérêt commun réside dans la progression, de la classification vers une recherche multilingue et une sortie interprétable.

Une sortie de la tâche 4 est conçue pour être lisible

EntréeSpill the tea
Sens canoniqueRévéler des ragots ou des secrets personnels
Sortie multilingueExplications en anglais, en arabe et en français

06Pourquoi comprendre le langage figuré est important

Les expressions idiomatiques ne sont pas des cas marginaux cantonnés aux dictionnaires. Elles apparaissent dans les conversations, les demandes d’assistance, les réseaux sociaux, les sous-titres, les supports pédagogiques et les instructions du quotidien. Les systèmes qui les interprètent littéralement peuvent mal comprendre l’intention, même lorsque chaque jeton leur est familier.

IA conversationnelleDes chatbots et assistants qui reconnaissent mieux ce que les utilisateurs veulent réellement dire.
TraductionDes systèmes qui recherchent un sens équivalent plutôt que de traduire mot à mot.
Apprentissage des languesDes outils qui retrouvent des explications, des contextes et des équivalents entre langues.
Recherche sémantiqueUne recherche fondée sur le sens visé plutôt que sur le chevauchement des formes de surface.
Analyse de contenuUne meilleure prise en compte de l’argot, du langage figuré et des emplois dépendant du contexte.
Interaction humain–robotDes interfaces qui traitent plus fiablement une parole naturelle et située culturellement.

07Un projet ouvert : données, code, article scientifique et démonstrations

IdiomX sépare le pipeline de construction du jeu de données du dépôt consacré à la modélisation et au benchmark. La provenance de la ressource est ainsi plus facile à examiner, tandis que les notebooks des tâches, les artefacts entraînés et les démonstrations restent organisés autour de l’évaluation.

Ayman Ali Sharara

Étudiant DSTI du MSc in Data Science & AI, en mode Online asynchrone. Ses travaux portent sur le TALN multilingue, l’ingénierie des données, les systèmes de recherche d’information et les applications pratiques de l’IA. IdiomX a été développé dans le cadre de son projet Deep Learning with Python.

Article adapté pour le DSTI TechBlog à partir de la contribution originale d’Ayman Sharara à son projet étudiant et de la documentation publique actuelle du projet. La rédaction et la présentation ont été révisées, tout en préservant les méthodes, les affirmations et les résultats rapportés du projet.