# Construire IdiomX : le langage au-delà du sens littéral

HTML canonique: https://dsti.school/fr/techblog/idiomx-comprehension-multilingue-expressions-idiomatiques

Cette version Markdown est générée par le même build du site statique DSTI que la page HTML canonique. Elle est destinée à la lisibilité machine et à une consultation concise.

[DSTI TechBlog](https://dsti.school/fr/techblog)  / Étudiants

Étudiants Atelier étudiant · contribution publique

« Spill the tea » n’est pas une instruction qui concerne une boisson. L’étudiant DSTI Ayman Ali Sharara a conçu IdiomX pour évaluer si des systèmes d’IA multilingues peuvent détecter un emploi idiomatique, retrouver des expressions figurées et en expliquer le sens en anglais, en arabe et en français.

AS Ayman Ali Sharara Étudiant DSTI · MSc in Data Science & AI · Online asynchrone

26 mai 2026 16 min de lecture Projet Deep Learning with Python

idiomx taln-multilingue langage-figuré recherche-sémantique anglais-arabe-français projet-étudiant

## Une expression. Un sens au-delà des mots.

Expression observée « Spill the tea »
Interprétation idiomatique

EN Reveal gossip or personal secrets.

AR كشف الشائعات أو الأسرار

FR Révéler des ragots ou des secrets personnels.

190K+ exemples en contexte

12K+ expressions idiomatiques

3 langues alignées

4 tâches du benchmark

Les expressions idiomatiques révèlent l’écart entre reconnaître des mots et comprendre le langage. Leur sens est souvent non compositionnel : connaître chacun des mots ne suffit pas à déduire ce que l’expression signifie dans son contexte. Un système peut analyser parfaitement « break a leg » et prendre malgré tout un encouragement pour une blessure.

AS
Un projet étudiant conçu pour être examiné publiquement IdiomX est né dans le cadre du cours DSTI Deep Learning with Python , sous la direction de Pr Hanna Abi Akl. Ayman a réalisé ce travail en tant qu’étudiant du [MSc in Data Science & AI](https://dsti.school/fr/msc-data-science-ai), en suivant ses études en mode [Online asynchrone](https://dsti.school/fr/online-asynchrone). Le jeu de données, le pipeline de construction, les modèles, les notebooks, l’article scientifique et les démonstrations qui en résultent sont accessibles au public.

## 01 Quand le langage cesse d’être littéral

Les humains distinguent couramment les lectures littérales et figurées à partir du contexte. « She spilled the tea on the table » décrit un accident ; « she spilled the tea about the meeting » décrit une divulgation. Cette distinction reste difficile pour les systèmes de traitement automatique des langues, car le chevauchement lexical peut être presque identique alors que le sens change complètement.

Le projet initial est parti d’une limite pratique : de nombreuses ressources consacrées aux expressions idiomatiques restent de taille modeste, couvrent peu de langues ou sont conçues pour une seule tâche isolée. IdiomX traite au contraire leur compréhension comme une suite de problèmes liés, de la reconnaissance d’un emploi figuré à la recherche et à l’explication du sens entre plusieurs langues.

La question de conception : une même ressource reproductible peut-elle prendre en charge la détection, la recherche sémantique, l’alignement interlingue et la restitution d’un sens interprétable, plutôt que d’évaluer chaque capacité isolément ?

![Couverture du projet IdiomX illustrant la compréhension multilingue des expressions idiomatiques](https://media.dsti.school/wp-content/uploads/2026/05/25102835/IdiomX_Cover.avif)

> **Figure caption:** IdiomX aborde la compréhension du langage figuré comme un problème multilingue de données, de modélisation et d’évaluation.

## 02 Construire un jeu de données multilingue à grande échelle

La version publique contient plus de 190 000 exemples en contexte couvrant plus de 12 000 expressions idiomatiques. Les expressions anglaises sont reliées à des représentations sémantiques en arabe et en français, avec des étiquettes signalant un usage idiomatique, littéral ou ambigu et des métadonnées linguistiques complémentaires.

≈196K lignes dans le jeu de données complet actuellement publié sur Hugging Face

12K+ expressions idiomatiques distinctes représentées

EN · AR · FR alignement sémantique entre l’anglais, l’arabe et le français

≈1,04 coefficient déclaré de réutilisation des phrases après nettoyage

Le processus de construction combine des ressources lexicales, une génération contrôlée et une validation. Sa structure modulaire compte autant que sa taille : l’objectif est de rendre chaque étape inspectable et reproductible, plutôt que de publier un fichier final opaque.

1

### Collecte

Extraire des expressions idiomatiques candidates à partir de sources incluant des données dérivées de Wiktionary et WordNet, tout en élargissant la couverture avec des expressions contemporaines et des candidates générées.

2

### Nettoyage et normalisation

Filtrer le bruit, normaliser les expressions, supprimer les doublons et préparer des enregistrements cohérents pour l’enrichissement et l’évaluation.

3

### Enrichissement contrôlé par LLM

Utiliser GPT-4.1-mini pour générer des significations, des exemples en contexte et des champs sémantiques alignés en anglais, en arabe et en français.

4

### Validation structurée

Combiner des scores de similarité sémantique, des contrôles fondés sur des règles, la déduplication et des partitions conçues pour éviter les fuites de données, afin de permettre des benchmarks fiables.

![Pipeline de préparation des données IdiomX](https://media.dsti.school/wp-content/uploads/2026/05/25135940/IdiomX_Data_perep_Pipeline_v2.avif)

> **Figure caption:** Le workflow de préparation des données transforme des sources lexicales hétérogènes en exemples normalisés, enrichis et validés.

## 03 Plus qu’un jeu de données : un benchmark progressif

IdiomX est organisé comme une progression. La première tâche demande si un modèle reconnaît un emploi figuré. Les suivantes évaluent s’il peut retrouver une expression idiomatique adaptée à partir du contexte, aligner le sens entre les langues et fournir une explication qu’une personne peut examiner.

![Pipeline complet du jeu de données et du benchmark IdiomX](https://media.dsti.school/wp-content/uploads/2026/05/25140144/IdiomX_full_pipeline_V1.avif)

> **Figure caption:** Le workflow complet réunit la construction du jeu de données, l’entraînement des modèles, l’évaluation de la recherche, l’interprétation multilingue et des artefacts prêts au déploiement.

## 04 Quatre tâches, de la reconnaissance à l’interprétation

Tâche 1

### Détection des expressions idiomatiques

Déterminer si une expression est employée de manière idiomatique ou littérale dans sa phrase.

Méthodes comparées

TF-IDF avec régression logistique, DistilBERT et RoBERTa

Meilleur résultat rapporté

RoBERTa

Capacité

Désambiguïsation contextuelle

Tâche 2

### Recherche d’une expression idiomatique à partir du contexte

À partir d’une phrase en contexte, classer les expressions idiomatiques qui traduisent le mieux son sens figuré sous-jacent.

Méthodes comparées

Recherche dense, lexicale et hybride avec réordonnancement

Meilleur résultat rapporté

Recherche hybride avec un modèle de réordonnancement ayant fait l’objet d’un réglage fin

Capacité

Recherche sémantique

Tâche 3

### Recherche de l’arabe vers l’anglais

À partir d’un contexte en arabe, retrouver l’expression idiomatique anglaise correspondante afin d’évaluer l’alignement sémantique entre les langues.

Méthodes comparées

MiniLM multilingue, E5 multilingue et E5 avec réglage fin

Meilleur résultat rapporté

E5 avec réglage fin

Capacité

Alignement interlingue

Tâche 4

### Interprétation des expressions idiomatiques

Retrouver l’expression idiomatique canonique et expliquer son sens en anglais, en arabe et en français.

Méthodes comparées

Recherche dense et hybride, avec et sans réordonnancement

Meilleur résultat rapporté

Recherche hybride avec réordonnancement

Capacité

Ancrage sémantique explicable

## 05 Ce que révèlent les expériences du benchmark

Le projet indique que les transformeurs contextuels améliorent nettement la détection des expressions idiomatiques, tandis que la recherche hybride, lexicale et dense, surpasse la seule recherche dense. Le réglage fin est particulièrement important pour la tâche arabe-vers-anglais, où les formes de surface fournissent peu d’indices lexicaux directs.

Tâche | Configuration avec le meilleur résultat | Résultat principal

Détection | RoBERTa | Taux de bonnes classifications : 92,6 % · F1 : 0,926

Contexte → expression idiomatique | Recherche hybride + modèle de réordonnancement avec réglage fin | Top-1 : 88,5 %

Arabe → expression idiomatique anglaise | E5 avec réglage fin | Top-1 : 57,8 %

Interprétation | Recherche hybride + réordonnancement | Top-1 : 67,4 %

Ces chiffres ne sont pas interchangeables : chaque tâche teste un espace de recherche et un niveau de difficulté différents. Leur intérêt commun réside dans la progression, de la classification vers une recherche multilingue et une sortie interprétable.

### Une sortie de la tâche 4 est conçue pour être lisible

Entrée Spill the tea

Sens canonique Révéler des ragots ou des secrets personnels

Sortie multilingue Explications en anglais, en arabe et en français

## 06 Pourquoi comprendre le langage figuré est important

Les expressions idiomatiques ne sont pas des cas marginaux cantonnés aux dictionnaires. Elles apparaissent dans les conversations, les demandes d’assistance, les réseaux sociaux, les sous-titres, les supports pédagogiques et les instructions du quotidien. Les systèmes qui les interprètent littéralement peuvent mal comprendre l’intention, même lorsque chaque jeton leur est familier.

IA conversationnelle Des chatbots et assistants qui reconnaissent mieux ce que les utilisateurs veulent réellement dire.

Traduction Des systèmes qui recherchent un sens équivalent plutôt que de traduire mot à mot.

Apprentissage des langues Des outils qui retrouvent des explications, des contextes et des équivalents entre langues.

Recherche sémantique Une recherche fondée sur le sens visé plutôt que sur le chevauchement des formes de surface.

Analyse de contenu Une meilleure prise en compte de l’argot, du langage figuré et des emplois dépendant du contexte.

Interaction humain–robot Des interfaces qui traitent plus fiablement une parole naturelle et située culturellement.

### Ce qui reste difficile

- Certains exemples sont générés par LLM : l’enrichissement contrôlé ne supprime donc pas la nécessité d’un examen critique.
- L’interprétation idiomatique peut légitimement varier selon le contexte, la culture et le registre.
- Des entrées ouvertes peuvent retrouver une expression idiomatique proche plutôt que celle qui était exactement visée.
- La recherche interlingue reste sensiblement plus difficile que la détection monolingue.

## 07 Un projet ouvert : données, code, article scientifique et démonstrations

IdiomX sépare le pipeline de construction du jeu de données du dépôt consacré à la modélisation et au benchmark. La provenance de la ressource est ainsi plus facile à examiner, tandis que les notebooks des tâches, les artefacts entraînés et les démonstrations restent organisés autour de l’évaluation.

AS

### Ayman Ali Sharara

Étudiant DSTI du MSc in Data Science & AI, en mode Online asynchrone. Ses travaux portent sur le TALN multilingue, l’ingénierie des données, les systèmes de recherche d’information et les applications pratiques de l’IA. IdiomX a été développé dans le cadre de son projet Deep Learning with Python.

[MSc in Data Science & AI](https://dsti.school/fr/msc-data-science-ai)[Online asynchrone](https://dsti.school/fr/online-asynchrone)

[LinkedIn](https://www.linkedin.com/in/ayman-sharara/)[GitHub](https://github.com/aymanshar)[Hugging Face](https://huggingface.co/aymansharara)

Article adapté pour le DSTI TechBlog à partir de la contribution originale d’Ayman Sharara à son projet étudiant et de la documentation publique actuelle du projet. La rédaction et la présentation ont été révisées, tout en préservant les méthodes, les affirmations et les résultats rapportés du projet.