# Predecir el riesgo de salud mental a través de redes sociales

HTML canónico: https://dsti.school/es/techblog/prediccion-riesgo-salud-mental-redes-sociales

Esta versión Markdown se genera con el mismo build del sitio estático de DSTI que la página HTML canónica. Está pensada para facilitar la lectura automática y la consulta concisa.

[DSTI TechBlog](https://dsti.school/es/techblog)  /  Alumni

Alumni La investigación de nuestros alumni en acción

La dificultad no está en la publicación que ya aparece en pantalla. Está en el nivel de riesgo de la siguiente publicación, una que todavía no se ha escrito. Jannic Alexander Cutura, egresado de DSTI, explica el enfoque de dos etapas con LLM y modelado temporal que obtuvo el primer lugar en la IEEE Big Data Cup 2025.

JC Jannic Alexander Cutura Egresado de DSTI · Investigador y docente · Procesamiento del lenguaje natural e ingeniería de datos

30 de marzo de 2026 12 min de lectura IEEE Big Data Cup 2025 · 1.er lugar

ia-salud-mental clasificacion-ordinal modelado-temporal LLMs PLN ia-responsable

## Cinco publicaciones observadas. Un objetivo no observado.

Publicaciones observadas

P1 t−5

P2 t−4

P3 t−3

P4 t−2

P5 t−1
Objetivo futuro Publicación aún no escrita

t

La pregunta de modelado ¿Es posible combinar la comprensión semántica de cada publicación con un modelo ligero de cómo cambia el riesgo con el tiempo?

1.er IEEE Big Data Cup 2025

7,000+ secuencias de publicaciones etiquetadas

395 usuarios únicos de Reddit

4 niveles de riesgo ordenados

El lenguaje relacionado con la salud mental puede cambiar con el tiempo. La IEEE Big Data Cup 2025 pidió a los participantes trabajar con datos anonimizados de Reddit y predecir el nivel ordinal de riesgo suicida de la siguiente publicación de un usuario a partir de las cinco anteriores y sus marcas de tiempo. La solución de Jannic combinó clasificación con modelos de lenguaje de gran escala basada en prompts y una agregación temporal sencilla. Obtuvo el primer lugar y un premio de 1,000 dólares estadounidenses.

!
Tema y alcance Este artículo aborda investigación sobre la predicción del riesgo suicida. Los modelos descritos producen estimaciones estadísticas, no diagnósticos clínicos, y el trabajo exige explícitamente protección de la privacidad, supervisión humana calificada y una evaluación cuidadosa antes de cualquier uso operativo.

No se trata de una clasificación de texto convencional. El texto objetivo no está disponible. El sistema debe inferir un estado ordinal futuro a partir de una secuencia breve e irregular de observaciones previas.

## 01 El reto: predecir el siguiente estado

La IEEE International Conference on Big Data reúne investigaciones sobre procesamiento de datos a gran escala, aprendizaje automático y aplicaciones reales. Su Big Data Cup 2025, patrocinada por Hong Kong Polytechnic University, se centró en predecir el riesgo suicida a partir de publicaciones en redes sociales.

Para cada secuencia, el modelo recibe las cinco publicaciones más recientes de un usuario y sus marcas de tiempo. Debe predecir el nivel de riesgo de una sexta publicación que todavía no se ha escrito. Esa diferencia importa. Clasificar lenguaje visible plantea la pregunta: “¿Qué expresa este texto?”. Predecir plantea otra: “Dada la trayectoria reciente, ¿qué es probable que ocurra después?”.

7,000+ secuencias de publicaciones en el conjunto de datos de investigación

395 usuarios únicos representados en los datos anonimizados de Reddit

<5% publicaciones de nivel «intento», lo que genera una tarea fuertemente desbalanceada

Casi la mitad de todas las publicaciones etiquetadas pertenece a la categoría de ideación, mientras que las publicaciones de nivel «intento» son escasas. Por ello, el modelo debe aprender un objetivo ordenado y desbalanceado, no cuatro clases intercambiables.

![Nube de palabras generada a partir del lenguaje del conjunto de datos anonimizados de investigación en redes sociales](https://media.dsti.school/wp-content/uploads/2026/03/26095244/wordcloud.avif)

> **Figure caption:** Lenguaje representado en los datos del proyecto. La investigación utiliza publicaciones anonimizadas de Reddit etiquetadas según un riesgo suicida ordinal.

## 02 Cuatro niveles ordenados, no cuatro etiquetas independientes

A cada publicación se le asigna uno de cuatro niveles de riesgo. El orden tiene significado: una predicción que se desvía un nivel no equivale a otra situada en el extremo opuesto de la escala.

Nivel 1 Indicador
Señales generales de alerta.

Nivel 2 Ideación
Pensamientos suicidas explícitos.

Nivel 3 Conducta
Intención de actuar.

Nivel 4 Intento
Referencia a acciones suicidas.

Por eso la investigación reporta tanto la puntuación F1 ponderada como el error absoluto medio. F1 refleja la calidad de la clasificación en una distribución desbalanceada de etiquetas. El error absoluto medio refleja la distancia entre las posiciones predicha y real en la escala ordinal.

## 03 Un método de dos etapas: comprender cada publicación y luego modelar la trayectoria

La arquitectura base separa la interpretación semántica del pronóstico temporal. Los modelos de lenguaje de gran escala clasifican cada publicación. Una segunda etapa ligera combina esas clasificaciones a lo largo del tiempo.

1

### Clasificación por publicación

Los modelos GPT-5, GPT-4o y GPT-5-mini, utilizados mediante prompts, asignan un nivel ordinal de riesgo a cada publicación observada. El enfoque es zero-shot, sin ajuste fino específico.
2

### Agregación temporal

La secuencia de predicciones por publicación y marcas de tiempo se combina para predecir el nivel de riesgo de la siguiente publicación aún no observada.

La primera etapa utiliza prompts validados en investigaciones previas de PLN aplicado a la salud mental. La segunda determina cuánto peso asignar a cada observación anterior, especialmente cuando las publicaciones aparecen a intervalos irregulares.

Promedio simple Ponderación lineal que favorece lo reciente Decaimiento exponencial Ponderación por distancia temporal Pronóstico ARIMA

Uno de los hallazgos más claros es que la elección de la agregación importa mucho menos que la calidad de las clasificaciones por publicación. El desempeño de las cinco estrategias difiere en menos de 0.4%. Una vez que las publicaciones individuales están bien clasificadas, incluso un promedio simple resulta competitivo.

![Resumen del marco de dos etapas que combina clasificación por publicación con agregación temporal](https://media.dsti.school/wp-content/uploads/2026/03/26100936/verview-of-the-two-stage-modeling-framework-scaled.avif)

> **Figure caption:** El marco de modelado de dos etapas: clasificación semántica de las publicaciones observadas, seguida de un pronóstico temporal ligero del objetivo no observado.

## 04 Predicciones de los LLM frente a modelos neuronales compactos

La investigación también evalúa tres métodos neuronales que aprenden directamente de secuencias de publicaciones sin llamar a modelos externos.

Enfoque | Representación y lógica temporal | Característica operativa

MiniLM | Embeddings compactos de oraciones, pooling ponderado por tiempo y una cabeza de regresión ordinal. | Modelo local pequeño, pero con el peor desempeño en la observación final no vista.

GRU | Procesamiento secuencial que aprende las interacciones entre las señales lingüísticas y el ritmo de publicación. | Mejor modelo neuronal de referencia; precisión general a menos de 0.02% de GPT-5.

DistilBERT + LoRA | Adaptación eficiente en parámetros del transformador, mientras la mayoría de los pesos del modelo permanecen congelados. | Despliegue local sin depender de una API externa.

GPT + agregación | Clasificación de publicaciones basada en prompts, seguida de una agregación temporal interpretable. | Mejor desempeño en secuencias de observación final y bajo costo de almacenamiento en caché.

Las puntuaciones generales son cercanas. La diferencia importante aparece en el subconjunto más difícil: las secuencias donde el modelo debe predecir la publicación final no observada. En este caso, el conocimiento semántico preentrenado del enfoque con LLM generaliza mejor que los modelos entrenados únicamente con los datos limitados del reto.

### F1 en secuencias de observación final

GPT-5

0.46

GRU

0.38

MiniLM

0.25

## 05 Lo que logró la mejor configuración

GPT-5, combinado con un promedio ponderado lineal, produjo el mejor resultado general.

0.72 puntuación F1 ponderada general

0.30 error absoluto medio en la escala ordinal de cuatro niveles

≈ US$25 costo único de clasificar las publicaciones de entrenamiento con GPT-5

<1 ms agregación temporal una vez almacenadas en caché las predicciones por publicación

Un MAE de 0.30 significa que los errores suelen ser locales en la escala ordinal: es más probable que el modelo confunda categorías adyacentes a que salte de un indicador general a una predicción de nivel «intento».

### LLM Modelos semánticos alojados

- Mejor desempeño en observaciones finales no vistas.
- Las clasificaciones de las publicaciones pueden almacenarse en caché y reutilizarse.
- Una agregación sencilla limita el ajuste y la sobrecarga computacional.
- El procesamiento externo exige un manejo cuidadoso de los datos sensibles.

### Local Modelos neuronales secuenciales

- Sin dependencia de llamadas a API externas.
- Puede ser preferible cuando los datos deben permanecer dentro de un entorno controlado.
- El desempeño general sigue siendo competitivo.
- La generalización es más débil en el subconjunto de observaciones finales, que constituye la verdadera prueba de predicción.

## 06 La ética antes de la automatización

La predicción del riesgo suicida no es un problema convencional de ordenamiento o recomendación. El artículo aborda el despliegue como una responsabilidad sociotécnica, no como un simple umbral de precisión.

### Cuatro límites no negociables

No es un diagnóstico
Los resultados son estimaciones estadísticas y no pueden sustituir la evaluación de profesionales calificados de la salud mental.

Privacidad desde el diseño
Un uso operativo exigiría manejo seguro, cumplimiento de las políticas de las plataformas y salvaguardas sólidas de protección de datos.

Importan ambos tipos de error
Los falsos positivos pueden causar angustia o una intervención innecesaria; los falsos negativos pueden no detectar a personas que podrían beneficiarse de apoyo.

Supervisión humana
Las estimaciones de incertidumbre, el monitoreo de sesgos y la revisión con intervención humana son componentes necesarios de cualquier sistema responsable.

Con el tiempo, la tecnología podría apoyar intervenciones más tempranas al identificar cambios de tendencia a gran escala. Debe complementar el acceso a profesionales calificados, nunca sustituir la conexión humana que está en el centro de la atención de la salud mental.

## 07 Investigación, replicación y el egresado detrás del trabajo

El enfoque se publicó como Time-Aware Ordinal Modelling of Sequential Text Data en las actas de la IEEE International Conference on Big Data 2025. El repositorio público contiene la solución del reto y una copia del artículo científico.

JC

### Jannic Alexander Cutura

Egresado de DSTI, investigador y docente en DSTI School of Engineering, y Staff Data Engineer en el Banco Central Europeo. Sus intereses de investigación incluyen el procesamiento del lenguaje natural, el aprendizaje automático y las aplicaciones de la IA en ámbitos de impacto social.

[LinkedIn](https://www.linkedin.com/in/jannic-cutura/)[GitHub](https://github.com/JannicCutura)[Sitio web](https://www.janniccutura.net/)

Descargo de responsabilidad del autor: las opiniones presentadas en este trabajo pertenecen exclusivamente al autor y no representan las del Banco Central Europeo ni las del Eurosistema de bancos centrales. El artículo fue adaptado para el DSTI TechBlog a partir de la contribución original del autor en WordPress; la redacción y la presentación se revisaron sin modificar las afirmaciones de la investigación, los métodos ni los resultados reportados.