Los modismos revelan la brecha entre reconocer palabras y comprender el lenguaje. Sus significados suelen ser no composicionales: conocer cada palabra no basta para deducir lo que significa la expresión en contexto. Un sistema puede analizar perfectamente "break a leg" y aun así confundir un deseo de buena suerte con una lesión.
01Cuando el lenguaje deja de ser literal
Las personas distinguen habitualmente las lecturas literales y figuradas a partir del contexto. "She spilled the tea on the table" describe un accidente; "she spilled the tea about the meeting" describe una revelación. Esta distinción sigue siendo difícil para los sistemas de procesamiento del lenguaje natural, porque la coincidencia léxica puede ser casi idéntica mientras el significado cambia por completo.
El proyecto original surgió de una limitación práctica: muchos recursos sobre modismos tienen una escala modesta, una cobertura lingüística limitada o están diseñados alrededor de una sola tarea aislada. IdiomX, en cambio, trata la comprensión de modismos como una secuencia de problemas relacionados, desde reconocer el uso figurado hasta recuperar y explicar el significado entre idiomas.

02Construir un conjunto de datos multilingüe a gran escala
La versión pública contiene más de 190,000 ejemplos en contexto que abarcan más de 12,000 modismos. Las expresiones en inglés se vinculan con representaciones semánticas en árabe y francés, junto con etiquetas de uso idiomático, literal y de casos límite, además de metadatos lingüísticos complementarios.
El proceso de construcción combina recursos léxicos, generación controlada y validación. Su estructura modular importa tanto como su tamaño: el objetivo es que cada etapa pueda inspeccionarse y repetirse, en vez de publicar un archivo final opaco.
Recopilación
Extraer modismos candidatos de fuentes que incluyen datos derivados de Wiktionary y WordNet, y ampliar la cobertura con expresiones modernas y generadas.
Limpieza y normalización
Filtrar el ruido, estandarizar las expresiones, eliminar duplicados y preparar registros consistentes para el enriquecimiento y la evaluación.
Enriquecimiento controlado con LLM
Usar GPT-4.1-mini para generar significados, ejemplos en contexto y campos semánticos alineados en inglés, árabe y francés.
Validación estructurada
Combinar puntajes de similitud semántica, verificaciones basadas en reglas, deduplicación y particiones diseñadas para evitar fugas de datos para respaldar benchmarks confiables.

03Más que un conjunto de datos: un benchmark progresivo
IdiomX se organiza como una progresión. La primera tarea pregunta si un modelo reconoce el uso figurado. Las tareas posteriores evalúan si puede recuperar un modismo adecuado a partir del contexto, alinear el significado entre idiomas y devolver una explicación que una persona pueda revisar.

04Cuatro tareas, del reconocimiento a la interpretación
Detección de modismos
Determinar si una expresión se usa de forma idiomática o literal dentro de su oración.
- Métodos comparados
- TF-IDF con regresión logística, DistilBERT y RoBERTa
- Mejor resultado reportado
- RoBERTa
- Capacidad
- Desambiguación contextual
Recuperación de modismos a partir del contexto
Dada una oración en contexto, ordenar los modismos que mejor expresan su significado figurado subyacente.
- Métodos comparados
- Recuperación densa, léxica e híbrida con reordenamiento
- Mejor resultado reportado
- Recuperación híbrida con un modelo de reordenamiento con ajuste fino
- Capacidad
- Recuperación semántica
Recuperación del árabe al inglés
Usar un contexto en árabe para recuperar el modismo correspondiente en inglés y evaluar la alineación semántica entre idiomas.
- Métodos comparados
- MiniLM multilingüe, E5 multilingüe y E5 con ajuste fino
- Mejor resultado reportado
- E5 con ajuste fino
- Capacidad
- Alineación entre idiomas
Interpretación de modismos
Recuperar el modismo canónico y explicar su significado en inglés, árabe y francés.
- Métodos comparados
- Recuperación densa e híbrida, con y sin reordenamiento
- Mejor resultado reportado
- Recuperación híbrida con reordenamiento
- Capacidad
- Anclaje semántico explicable
05Lo que mostraron los experimentos del benchmark
El proyecto reporta que los transformadores contextuales mejoran sustancialmente la detección de modismos, mientras que la recuperación híbrida léxica-densa supera a la recuperación densa por sí sola. El ajuste fino es especialmente importante para la tarea árabe-inglés, donde las formas superficiales aportan poca ayuda léxica directa.
| Tarea | Configuración con el mejor resultado | Resultado principal |
|---|---|---|
| Detección | RoBERTa | Exactitud: 92.6% · F1: 0.926 |
| Contexto → modismo | Recuperación híbrida + modelo de reordenamiento con ajuste fino | Top-1 88.5% |
| Árabe → modismo en inglés | E5 con ajuste fino | Top-1 57.8% |
| Interpretación | Recuperación híbrida + reordenamiento | Top-1 67.4% |
Las cifras no son intercambiables: cada tarea evalúa un espacio de búsqueda y un nivel de dificultad diferentes. Su valor conjunto está en la progresión desde la clasificación hacia la recuperación multilingüe y una salida interpretable.
Una salida de la Tarea 4 diseñada para ser legible
06Por qué importa comprender el lenguaje figurado
Los modismos no son casos marginales confinados a los diccionarios. Aparecen en conversaciones, solicitudes de soporte, redes sociales, subtítulos, materiales didácticos e instrucciones cotidianas. Los sistemas que los interpretan literalmente pueden malentender la intención aunque conozcan cada token.
07El proyecto está abierto: datos, código, artículo científico y demostraciones
IdiomX separa el proceso de construcción del conjunto de datos del repositorio de modelado y benchmark. Esto facilita inspeccionar la procedencia del recurso, a la vez que mantiene los notebooks de las tareas, los artefactos entrenados y las demostraciones organizados alrededor de la evaluación.
Ayman Ali Sharara
Estudiante de DSTI en el MSc in Data Science & AI, cursado en modalidad Online asíncrono. Su trabajo abarca PLN multilingüe, ingeniería de datos, sistemas de recuperación de información y aplicaciones prácticas de IA. IdiomX se desarrolló como su proyecto de Deep Learning with Python.
Artículo adaptado para el DSTI TechBlog a partir de la contribución original de Ayman Sharara a su proyecto estudiantil y de la documentación pública actual del proyecto. La redacción y la presentación se revisaron, preservando los métodos, las afirmaciones y los resultados reportados del proyecto.