# Construir IdiomX: el lenguaje más allá de lo literal

HTML canónico: https://dsti.school/es/techblog/idiomx-comprension-multilingue-modismos

Esta versión Markdown se genera con el mismo build del sitio estático de DSTI que la página HTML canónica. Está pensada para facilitar la lectura automática y la consulta concisa.

[DSTI TechBlog](https://dsti.school/es/techblog)  / Estudiantes

Estudiantes Trabajo estudiantil · contribución pública

"Spill the tea" no es una instrucción relacionada con una bebida. El estudiante de DSTI Ayman Ali Sharara creó IdiomX para evaluar si los sistemas de IA multilingües pueden detectar usos idiomáticos, recuperar expresiones figuradas y explicar su significado en inglés, árabe y francés.

AS Ayman Ali Sharara Estudiante de DSTI · MSc in Data Science & AI · Online asíncrono

26 de mayo de 2026 15 min de lectura Proyecto Deep Learning with Python

idiomx pln-multilingüe lenguaje-figurado recuperación-semántica inglés-árabe-francés proyecto-estudiantil

## Una expresión. Un significado más allá de las palabras.

Expresión observada "Spill the tea"
Interpretación idiomática

EN Reveal gossip or personal secrets.

AR كشف الشائعات أو الأسرار

FR Révéler des ragots ou des secrets personnels.

190K+ ejemplos en contexto

12K+ modismos

3 idiomas alineados

4 tareas del benchmark

Los modismos revelan la brecha entre reconocer palabras y comprender el lenguaje. Sus significados suelen ser no composicionales: conocer cada palabra no basta para deducir lo que significa la expresión en contexto. Un sistema puede analizar perfectamente "break a leg" y aun así confundir un deseo de buena suerte con una lesión.

AS
Un proyecto estudiantil concebido para el escrutinio público IdiomX nació en el curso DSTI Deep Learning with Python , bajo la supervisión de Pr Hanna Abi Akl. Ayman realizó este trabajo como estudiante del [MSc in Data Science & AI](https://dsti.school/es/msc-data-science-ai), cursando la modalidad [Online asíncrono](https://dsti.school/es/online-asincrono). El conjunto de datos, el proceso de construcción, los modelos, los notebooks, el artículo científico y las demostraciones resultantes están disponibles públicamente.

## 01 Cuando el lenguaje deja de ser literal

Las personas distinguen habitualmente las lecturas literales y figuradas a partir del contexto. "She spilled the tea on the table" describe un accidente; "she spilled the tea about the meeting" describe una revelación. Esta distinción sigue siendo difícil para los sistemas de procesamiento del lenguaje natural, porque la coincidencia léxica puede ser casi idéntica mientras el significado cambia por completo.

El proyecto original surgió de una limitación práctica: muchos recursos sobre modismos tienen una escala modesta, una cobertura lingüística limitada o están diseñados alrededor de una sola tarea aislada. IdiomX, en cambio, trata la comprensión de modismos como una secuencia de problemas relacionados, desde reconocer el uso figurado hasta recuperar y explicar el significado entre idiomas.

La pregunta de diseño: ¿puede un mismo recurso reproducible servir de base para la detección, la recuperación semántica, la alineación entre idiomas y la recuperación interpretable del significado, en lugar de evaluar cada capacidad por separado?

![Portada del proyecto IdiomX que ilustra la comprensión multilingüe de modismos](https://media.dsti.school/wp-content/uploads/2026/05/25102835/IdiomX_Cover.avif)

> **Figure caption:** IdiomX plantea la comprensión del lenguaje figurado como un problema multilingüe de datos, modelado y evaluación.

## 02 Construir un conjunto de datos multilingüe a gran escala

La versión pública contiene más de 190,000 ejemplos en contexto que abarcan más de 12,000 modismos. Las expresiones en inglés se vinculan con representaciones semánticas en árabe y francés, junto con etiquetas de uso idiomático, literal y de casos límite, además de metadatos lingüísticos complementarios.

≈196K filas en el conjunto de datos completo actual de Hugging Face

12K+ modismos únicos representados

EN · AR · FR alineación semántica entre inglés, árabe y francés

≈1.04 factor reportado de reutilización de oraciones después de la limpieza

El proceso de construcción combina recursos léxicos, generación controlada y validación. Su estructura modular importa tanto como su tamaño: el objetivo es que cada etapa pueda inspeccionarse y repetirse, en vez de publicar un archivo final opaco.

1

### Recopilación

Extraer modismos candidatos de fuentes que incluyen datos derivados de Wiktionary y WordNet, y ampliar la cobertura con expresiones modernas y generadas.

2

### Limpieza y normalización

Filtrar el ruido, estandarizar las expresiones, eliminar duplicados y preparar registros consistentes para el enriquecimiento y la evaluación.

3

### Enriquecimiento controlado con LLM

Usar GPT-4.1-mini para generar significados, ejemplos en contexto y campos semánticos alineados en inglés, árabe y francés.

4

### Validación estructurada

Combinar puntajes de similitud semántica, verificaciones basadas en reglas, deduplicación y particiones diseñadas para evitar fugas de datos para respaldar benchmarks confiables.

![Flujo de preparación de datos de IdiomX](https://media.dsti.school/wp-content/uploads/2026/05/25135940/IdiomX_Data_perep_Pipeline_v2.avif)

> **Figure caption:** El flujo de preparación de datos transforma fuentes léxicas heterogéneas en ejemplos normalizados, enriquecidos y validados.

## 03 Más que un conjunto de datos: un benchmark progresivo

IdiomX se organiza como una progresión. La primera tarea pregunta si un modelo reconoce el uso figurado. Las tareas posteriores evalúan si puede recuperar un modismo adecuado a partir del contexto, alinear el significado entre idiomas y devolver una explicación que una persona pueda revisar.

![Flujo completo del conjunto de datos y benchmark de IdiomX](https://media.dsti.school/wp-content/uploads/2026/05/25140144/IdiomX_full_pipeline_V1.avif)

> **Figure caption:** El flujo completo reúne la construcción del conjunto de datos, el entrenamiento de modelos, la evaluación de recuperación, la interpretación multilingüe y artefactos listos para el despliegue.

## 04 Cuatro tareas, del reconocimiento a la interpretación

Tarea 1

### Detección de modismos

Determinar si una expresión se usa de forma idiomática o literal dentro de su oración.

Métodos comparados

TF-IDF con regresión logística, DistilBERT y RoBERTa

Mejor resultado reportado

RoBERTa

Capacidad

Desambiguación contextual

Tarea 2

### Recuperación de modismos a partir del contexto

Dada una oración en contexto, ordenar los modismos que mejor expresan su significado figurado subyacente.

Métodos comparados

Recuperación densa, léxica e híbrida con reordenamiento

Mejor resultado reportado

Recuperación híbrida con un modelo de reordenamiento con ajuste fino

Capacidad

Recuperación semántica

Tarea 3

### Recuperación del árabe al inglés

Usar un contexto en árabe para recuperar el modismo correspondiente en inglés y evaluar la alineación semántica entre idiomas.

Métodos comparados

MiniLM multilingüe, E5 multilingüe y E5 con ajuste fino

Mejor resultado reportado

E5 con ajuste fino

Capacidad

Alineación entre idiomas

Tarea 4

### Interpretación de modismos

Recuperar el modismo canónico y explicar su significado en inglés, árabe y francés.

Métodos comparados

Recuperación densa e híbrida, con y sin reordenamiento

Mejor resultado reportado

Recuperación híbrida con reordenamiento

Capacidad

Anclaje semántico explicable

## 05 Lo que mostraron los experimentos del benchmark

El proyecto reporta que los transformadores contextuales mejoran sustancialmente la detección de modismos, mientras que la recuperación híbrida léxica-densa supera a la recuperación densa por sí sola. El ajuste fino es especialmente importante para la tarea árabe-inglés, donde las formas superficiales aportan poca ayuda léxica directa.

Tarea | Configuración con el mejor resultado | Resultado principal

Detección | RoBERTa | Exactitud: 92.6% · F1: 0.926

Contexto → modismo | Recuperación híbrida + modelo de reordenamiento con ajuste fino | Top-1 88.5%

Árabe → modismo en inglés | E5 con ajuste fino | Top-1 57.8%

Interpretación | Recuperación híbrida + reordenamiento | Top-1 67.4%

Las cifras no son intercambiables: cada tarea evalúa un espacio de búsqueda y un nivel de dificultad diferentes. Su valor conjunto está en la progresión desde la clasificación hacia la recuperación multilingüe y una salida interpretable.

### Una salida de la Tarea 4 diseñada para ser legible

Entrada Spill the tea

Significado canónico Revelar chismes o secretos personales

Salida multilingüe Explicaciones en inglés, árabe y francés

## 06 Por qué importa comprender el lenguaje figurado

Los modismos no son casos marginales confinados a los diccionarios. Aparecen en conversaciones, solicitudes de soporte, redes sociales, subtítulos, materiales didácticos e instrucciones cotidianas. Los sistemas que los interpretan literalmente pueden malentender la intención aunque conozcan cada token.

IA conversacional Chatbots y asistentes que reconocen mejor lo que las personas realmente quieren decir.

Traducción Sistemas que buscan un significado equivalente en lugar de traducir palabra por palabra.

Aprendizaje de idiomas Herramientas que recuperan explicaciones, contextos y equivalentes entre idiomas.

Búsqueda semántica Recuperación basada en el significado previsto y no en la coincidencia de formas superficiales.

Análisis de contenido Mejor tratamiento de la jerga, el lenguaje figurado y los usos dependientes del contexto.

Interacción humano–robot Interfaces que responden de forma más confiable al habla natural y situada culturalmente.

### Lo que sigue siendo difícil

- Algunos ejemplos son generados por LLM, por lo que el enriquecimiento controlado no elimina la necesidad de una revisión crítica.
- La interpretación idiomática puede variar legítimamente según el contexto, la cultura y el registro.
- Las entradas abiertas pueden recuperar un modismo relacionado en lugar de la expresión exacta que se pretendía obtener.
- La recuperación entre idiomas sigue siendo considerablemente más difícil que la detección monolingüe.

## 07 El proyecto está abierto: datos, código, artículo científico y demostraciones

IdiomX separa el proceso de construcción del conjunto de datos del repositorio de modelado y benchmark. Esto facilita inspeccionar la procedencia del recurso, a la vez que mantiene los notebooks de las tareas, los artefactos entrenados y las demostraciones organizados alrededor de la evaluación.

AS

### Ayman Ali Sharara

Estudiante de DSTI en el MSc in Data Science & AI, cursado en modalidad Online asíncrono. Su trabajo abarca PLN multilingüe, ingeniería de datos, sistemas de recuperación de información y aplicaciones prácticas de IA. IdiomX se desarrolló como su proyecto de Deep Learning with Python.

[MSc in Data Science & AI](https://dsti.school/es/msc-data-science-ai)[Online asíncrono](https://dsti.school/es/online-asincrono)

[LinkedIn](https://www.linkedin.com/in/ayman-sharara/)[GitHub](https://github.com/aymanshar)[Hugging Face](https://huggingface.co/aymansharara)

Artículo adaptado para el DSTI TechBlog a partir de la contribución original de Ayman Sharara a su proyecto estudiantil y de la documentación pública actual del proyecto. La redacción y la presentación se revisaron, preservando los métodos, las afirmaciones y los resultados reportados del proyecto.