EstudiantesProyectos, experimentos y contribuciones públicas
En esta página
ResumenCuando el lenguaje deja de ser literalConstruir un conjunto de datos multilingüe a gran escalaMás que un conjunto de datos: un benchmark progresivoCuatro tareas, del reconocimiento a la interpretaciónLo que mostraron los experimentos del benchmarkPor qué importa comprender el lenguaje figuradoEl proyecto está abierto: datos, código, artículo científico y demostraciones
DSTI TechBlog  / Estudiantes
EstudiantesTrabajo estudiantil · contribución pública

Construir IdiomX: el lenguaje más allá de lo literal

"Spill the tea" no es una instrucción relacionada con una bebida. El estudiante de DSTI Ayman Ali Sharara creó IdiomX para evaluar si los sistemas de IA multilingües pueden detectar usos idiomáticos, recuperar expresiones figuradas y explicar su significado en inglés, árabe y francés.

idiomxpln-multilingüelenguaje-figuradorecuperación-semánticainglés-árabe-francésproyecto-estudiantil

Los modismos revelan la brecha entre reconocer palabras y comprender el lenguaje. Sus significados suelen ser no composicionales: conocer cada palabra no basta para deducir lo que significa la expresión en contexto. Un sistema puede analizar perfectamente "break a leg" y aun así confundir un deseo de buena suerte con una lesión.

01Cuando el lenguaje deja de ser literal

Las personas distinguen habitualmente las lecturas literales y figuradas a partir del contexto. "She spilled the tea on the table" describe un accidente; "she spilled the tea about the meeting" describe una revelación. Esta distinción sigue siendo difícil para los sistemas de procesamiento del lenguaje natural, porque la coincidencia léxica puede ser casi idéntica mientras el significado cambia por completo.

El proyecto original surgió de una limitación práctica: muchos recursos sobre modismos tienen una escala modesta, una cobertura lingüística limitada o están diseñados alrededor de una sola tarea aislada. IdiomX, en cambio, trata la comprensión de modismos como una secuencia de problemas relacionados, desde reconocer el uso figurado hasta recuperar y explicar el significado entre idiomas.

La pregunta de diseño: ¿puede un mismo recurso reproducible servir de base para la detección, la recuperación semántica, la alineación entre idiomas y la recuperación interpretable del significado, en lugar de evaluar cada capacidad por separado?
Portada del proyecto IdiomX que ilustra la comprensión multilingüe de modismos
IdiomX plantea la comprensión del lenguaje figurado como un problema multilingüe de datos, modelado y evaluación.

02Construir un conjunto de datos multilingüe a gran escala

La versión pública contiene más de 190,000 ejemplos en contexto que abarcan más de 12,000 modismos. Las expresiones en inglés se vinculan con representaciones semánticas en árabe y francés, junto con etiquetas de uso idiomático, literal y de casos límite, además de metadatos lingüísticos complementarios.

≈196Kfilas en el conjunto de datos completo actual de Hugging Face
12K+modismos únicos representados
EN · AR · FRalineación semántica entre inglés, árabe y francés
≈1.04factor reportado de reutilización de oraciones después de la limpieza

El proceso de construcción combina recursos léxicos, generación controlada y validación. Su estructura modular importa tanto como su tamaño: el objetivo es que cada etapa pueda inspeccionarse y repetirse, en vez de publicar un archivo final opaco.

1

Recopilación

Extraer modismos candidatos de fuentes que incluyen datos derivados de Wiktionary y WordNet, y ampliar la cobertura con expresiones modernas y generadas.

2

Limpieza y normalización

Filtrar el ruido, estandarizar las expresiones, eliminar duplicados y preparar registros consistentes para el enriquecimiento y la evaluación.

3

Enriquecimiento controlado con LLM

Usar GPT-4.1-mini para generar significados, ejemplos en contexto y campos semánticos alineados en inglés, árabe y francés.

4

Validación estructurada

Combinar puntajes de similitud semántica, verificaciones basadas en reglas, deduplicación y particiones diseñadas para evitar fugas de datos para respaldar benchmarks confiables.

Flujo de preparación de datos de IdiomX
El flujo de preparación de datos transforma fuentes léxicas heterogéneas en ejemplos normalizados, enriquecidos y validados.

03Más que un conjunto de datos: un benchmark progresivo

IdiomX se organiza como una progresión. La primera tarea pregunta si un modelo reconoce el uso figurado. Las tareas posteriores evalúan si puede recuperar un modismo adecuado a partir del contexto, alinear el significado entre idiomas y devolver una explicación que una persona pueda revisar.

Flujo completo del conjunto de datos y benchmark de IdiomX
El flujo completo reúne la construcción del conjunto de datos, el entrenamiento de modelos, la evaluación de recuperación, la interpretación multilingüe y artefactos listos para el despliegue.

04Cuatro tareas, del reconocimiento a la interpretación

Tarea 1

Detección de modismos

Determinar si una expresión se usa de forma idiomática o literal dentro de su oración.

Métodos comparados
TF-IDF con regresión logística, DistilBERT y RoBERTa
Mejor resultado reportado
RoBERTa
Capacidad
Desambiguación contextual
Tarea 2

Recuperación de modismos a partir del contexto

Dada una oración en contexto, ordenar los modismos que mejor expresan su significado figurado subyacente.

Métodos comparados
Recuperación densa, léxica e híbrida con reordenamiento
Mejor resultado reportado
Recuperación híbrida con un modelo de reordenamiento con ajuste fino
Capacidad
Recuperación semántica
Tarea 3

Recuperación del árabe al inglés

Usar un contexto en árabe para recuperar el modismo correspondiente en inglés y evaluar la alineación semántica entre idiomas.

Métodos comparados
MiniLM multilingüe, E5 multilingüe y E5 con ajuste fino
Mejor resultado reportado
E5 con ajuste fino
Capacidad
Alineación entre idiomas
Tarea 4

Interpretación de modismos

Recuperar el modismo canónico y explicar su significado en inglés, árabe y francés.

Métodos comparados
Recuperación densa e híbrida, con y sin reordenamiento
Mejor resultado reportado
Recuperación híbrida con reordenamiento
Capacidad
Anclaje semántico explicable

05Lo que mostraron los experimentos del benchmark

El proyecto reporta que los transformadores contextuales mejoran sustancialmente la detección de modismos, mientras que la recuperación híbrida léxica-densa supera a la recuperación densa por sí sola. El ajuste fino es especialmente importante para la tarea árabe-inglés, donde las formas superficiales aportan poca ayuda léxica directa.

TareaConfiguración con el mejor resultadoResultado principal
DetecciónRoBERTaExactitud: 92.6% · F1: 0.926
Contexto → modismoRecuperación híbrida + modelo de reordenamiento con ajuste finoTop-1 88.5%
Árabe → modismo en inglésE5 con ajuste finoTop-1 57.8%
InterpretaciónRecuperación híbrida + reordenamientoTop-1 67.4%

Las cifras no son intercambiables: cada tarea evalúa un espacio de búsqueda y un nivel de dificultad diferentes. Su valor conjunto está en la progresión desde la clasificación hacia la recuperación multilingüe y una salida interpretable.

Una salida de la Tarea 4 diseñada para ser legible

EntradaSpill the tea
Significado canónicoRevelar chismes o secretos personales
Salida multilingüeExplicaciones en inglés, árabe y francés

06Por qué importa comprender el lenguaje figurado

Los modismos no son casos marginales confinados a los diccionarios. Aparecen en conversaciones, solicitudes de soporte, redes sociales, subtítulos, materiales didácticos e instrucciones cotidianas. Los sistemas que los interpretan literalmente pueden malentender la intención aunque conozcan cada token.

IA conversacionalChatbots y asistentes que reconocen mejor lo que las personas realmente quieren decir.
TraducciónSistemas que buscan un significado equivalente en lugar de traducir palabra por palabra.
Aprendizaje de idiomasHerramientas que recuperan explicaciones, contextos y equivalentes entre idiomas.
Búsqueda semánticaRecuperación basada en el significado previsto y no en la coincidencia de formas superficiales.
Análisis de contenidoMejor tratamiento de la jerga, el lenguaje figurado y los usos dependientes del contexto.
Interacción humano–robotInterfaces que responden de forma más confiable al habla natural y situada culturalmente.

07El proyecto está abierto: datos, código, artículo científico y demostraciones

IdiomX separa el proceso de construcción del conjunto de datos del repositorio de modelado y benchmark. Esto facilita inspeccionar la procedencia del recurso, a la vez que mantiene los notebooks de las tareas, los artefactos entrenados y las demostraciones organizados alrededor de la evaluación.

Ayman Ali Sharara

Estudiante de DSTI en el MSc in Data Science & AI, cursado en modalidad Online asíncrono. Su trabajo abarca PLN multilingüe, ingeniería de datos, sistemas de recuperación de información y aplicaciones prácticas de IA. IdiomX se desarrolló como su proyecto de Deep Learning with Python.

Artículo adaptado para el DSTI TechBlog a partir de la contribución original de Ayman Sharara a su proyecto estudiantil y de la documentación pública actual del proyecto. La redacción y la presentación se revisaron, preservando los métodos, las afirmaciones y los resultados reportados del proyecto.