El lenguaje relacionado con la salud mental puede cambiar con el tiempo. La IEEE Big Data Cup 2025 pidió a los participantes trabajar con datos anonimizados de Reddit y predecir el nivel ordinal de riesgo suicida de la siguiente publicación de un usuario a partir de las cinco anteriores y sus marcas de tiempo. La solución de Jannic combinó clasificación con modelos de lenguaje de gran escala basada en prompts y una agregación temporal sencilla. Obtuvo el primer lugar y un premio de 1,000 dólares estadounidenses.
Tema y alcanceEste artículo aborda investigación sobre la predicción del riesgo suicida. Los modelos descritos producen estimaciones estadísticas, no diagnósticos clínicos, y el trabajo exige explícitamente protección de la privacidad, supervisión humana calificada y una evaluación cuidadosa antes de cualquier uso operativo.
01El reto: predecir el siguiente estado
La IEEE International Conference on Big Data reúne investigaciones sobre procesamiento de datos a gran escala, aprendizaje automático y aplicaciones reales. Su Big Data Cup 2025, patrocinada por Hong Kong Polytechnic University, se centró en predecir el riesgo suicida a partir de publicaciones en redes sociales.
Para cada secuencia, el modelo recibe las cinco publicaciones más recientes de un usuario y sus marcas de tiempo. Debe predecir el nivel de riesgo de una sexta publicación que todavía no se ha escrito. Esa diferencia importa. Clasificar lenguaje visible plantea la pregunta: “¿Qué expresa este texto?”. Predecir plantea otra: “Dada la trayectoria reciente, ¿qué es probable que ocurra después?”.
Casi la mitad de todas las publicaciones etiquetadas pertenece a la categoría de ideación, mientras que las publicaciones de nivel «intento» son escasas. Por ello, el modelo debe aprender un objetivo ordenado y desbalanceado, no cuatro clases intercambiables.

02Cuatro niveles ordenados, no cuatro etiquetas independientes
A cada publicación se le asigna uno de cuatro niveles de riesgo. El orden tiene significado: una predicción que se desvía un nivel no equivale a otra situada en el extremo opuesto de la escala.
Señales generales de alerta.
Pensamientos suicidas explícitos.
Intención de actuar.
Referencia a acciones suicidas.
Por eso la investigación reporta tanto la puntuación F1 ponderada como el error absoluto medio. F1 refleja la calidad de la clasificación en una distribución desbalanceada de etiquetas. El error absoluto medio refleja la distancia entre las posiciones predicha y real en la escala ordinal.
03Un método de dos etapas: comprender cada publicación y luego modelar la trayectoria
La arquitectura base separa la interpretación semántica del pronóstico temporal. Los modelos de lenguaje de gran escala clasifican cada publicación. Una segunda etapa ligera combina esas clasificaciones a lo largo del tiempo.
Clasificación por publicación
Los modelos GPT-5, GPT-4o y GPT-5-mini, utilizados mediante prompts, asignan un nivel ordinal de riesgo a cada publicación observada. El enfoque es zero-shot, sin ajuste fino específico.
Agregación temporal
La secuencia de predicciones por publicación y marcas de tiempo se combina para predecir el nivel de riesgo de la siguiente publicación aún no observada.
La primera etapa utiliza prompts validados en investigaciones previas de PLN aplicado a la salud mental. La segunda determina cuánto peso asignar a cada observación anterior, especialmente cuando las publicaciones aparecen a intervalos irregulares.
Uno de los hallazgos más claros es que la elección de la agregación importa mucho menos que la calidad de las clasificaciones por publicación. El desempeño de las cinco estrategias difiere en menos de 0.4%. Una vez que las publicaciones individuales están bien clasificadas, incluso un promedio simple resulta competitivo.

04Predicciones de los LLM frente a modelos neuronales compactos
La investigación también evalúa tres métodos neuronales que aprenden directamente de secuencias de publicaciones sin llamar a modelos externos.
| Enfoque | Representación y lógica temporal | Característica operativa |
|---|---|---|
| MiniLM | Embeddings compactos de oraciones, pooling ponderado por tiempo y una cabeza de regresión ordinal. | Modelo local pequeño, pero con el peor desempeño en la observación final no vista. |
| GRU | Procesamiento secuencial que aprende las interacciones entre las señales lingüísticas y el ritmo de publicación. | Mejor modelo neuronal de referencia; precisión general a menos de 0.02% de GPT-5. |
| DistilBERT + LoRA | Adaptación eficiente en parámetros del transformador, mientras la mayoría de los pesos del modelo permanecen congelados. | Despliegue local sin depender de una API externa. |
| GPT + agregación | Clasificación de publicaciones basada en prompts, seguida de una agregación temporal interpretable. | Mejor desempeño en secuencias de observación final y bajo costo de almacenamiento en caché. |
Las puntuaciones generales son cercanas. La diferencia importante aparece en el subconjunto más difícil: las secuencias donde el modelo debe predecir la publicación final no observada. En este caso, el conocimiento semántico preentrenado del enfoque con LLM generaliza mejor que los modelos entrenados únicamente con los datos limitados del reto.
F1 en secuencias de observación final
05Lo que logró la mejor configuración
GPT-5, combinado con un promedio ponderado lineal, produjo el mejor resultado general.
Un MAE de 0.30 significa que los errores suelen ser locales en la escala ordinal: es más probable que el modelo confunda categorías adyacentes a que salte de un indicador general a una predicción de nivel «intento».
LLMModelos semánticos alojados
- Mejor desempeño en observaciones finales no vistas.
- Las clasificaciones de las publicaciones pueden almacenarse en caché y reutilizarse.
- Una agregación sencilla limita el ajuste y la sobrecarga computacional.
- El procesamiento externo exige un manejo cuidadoso de los datos sensibles.
LocalModelos neuronales secuenciales
- Sin dependencia de llamadas a API externas.
- Puede ser preferible cuando los datos deben permanecer dentro de un entorno controlado.
- El desempeño general sigue siendo competitivo.
- La generalización es más débil en el subconjunto de observaciones finales, que constituye la verdadera prueba de predicción.
06La ética antes de la automatización
La predicción del riesgo suicida no es un problema convencional de ordenamiento o recomendación. El artículo aborda el despliegue como una responsabilidad sociotécnica, no como un simple umbral de precisión.
Cuatro límites no negociables
Los resultados son estimaciones estadísticas y no pueden sustituir la evaluación de profesionales calificados de la salud mental.
Un uso operativo exigiría manejo seguro, cumplimiento de las políticas de las plataformas y salvaguardas sólidas de protección de datos.
Los falsos positivos pueden causar angustia o una intervención innecesaria; los falsos negativos pueden no detectar a personas que podrían beneficiarse de apoyo.
Las estimaciones de incertidumbre, el monitoreo de sesgos y la revisión con intervención humana son componentes necesarios de cualquier sistema responsable.
Con el tiempo, la tecnología podría apoyar intervenciones más tempranas al identificar cambios de tendencia a gran escala. Debe complementar el acceso a profesionales calificados, nunca sustituir la conexión humana que está en el centro de la atención de la salud mental.
07Investigación, replicación y el egresado detrás del trabajo
El enfoque se publicó como Time-Aware Ordinal Modelling of Sequential Text Data en las actas de la IEEE International Conference on Big Data 2025. El repositorio público contiene la solución del reto y una copia del artículo científico.
Jannic Alexander Cutura
Egresado de DSTI, investigador y docente en DSTI School of Engineering, y Staff Data Engineer en el Banco Central Europeo. Sus intereses de investigación incluyen el procesamiento del lenguaje natural, el aprendizaje automático y las aplicaciones de la IA en ámbitos de impacto social.
Descargo de responsabilidad del autor: las opiniones presentadas en este trabajo pertenecen exclusivamente al autor y no representan las del Banco Central Europeo ni las del Eurosistema de bancos centrales. El artículo fue adaptado para el DSTI TechBlog a partir de la contribución original del autor en WordPress; la redacción y la presentación se revisaron sin modificar las afirmaciones de la investigación, los métodos ni los resultados reportados.