Predecir el riesgo de salud mental a través de redes sociales

El lenguaje relacionado con la salud mental puede cambiar con el tiempo. La IEEE Big Data Cup 2025 pidió a los participantes trabajar con datos anonimizados de Reddit y predecir el nivel ordinal de riesgo suicida de la siguiente publicación de un usuario a partir de las cinco anteriores y sus marcas de tiempo. La solución de Jannic combinó clasificación con modelos de lenguaje de gran escala basada en prompts y una agregación temporal sencilla. Obtuvo el primer lugar y un premio de 1,000 dólares estadounidenses.

Tema y alcanceEste artículo aborda investigación sobre la predicción del riesgo suicida. Los modelos descritos producen estimaciones estadísticas, no diagnósticos clínicos, y el trabajo exige explícitamente protección de la privacidad, supervisión humana calificada y una evaluación cuidadosa antes de cualquier uso operativo.

No se trata de una clasificación de texto convencional. El texto objetivo no está disponible. El sistema debe inferir un estado ordinal futuro a partir de una secuencia breve e irregular de observaciones previas.

01El reto: predecir el siguiente estado

La IEEE International Conference on Big Data reúne investigaciones sobre procesamiento de datos a gran escala, aprendizaje automático y aplicaciones reales. Su Big Data Cup 2025, patrocinada por Hong Kong Polytechnic University, se centró en predecir el riesgo suicida a partir de publicaciones en redes sociales.

Para cada secuencia, el modelo recibe las cinco publicaciones más recientes de un usuario y sus marcas de tiempo. Debe predecir el nivel de riesgo de una sexta publicación que todavía no se ha escrito. Esa diferencia importa. Clasificar lenguaje visible plantea la pregunta: “¿Qué expresa este texto?”. Predecir plantea otra: “Dada la trayectoria reciente, ¿qué es probable que ocurra después?”.

7,000+secuencias de publicaciones en el conjunto de datos de investigación

395usuarios únicos representados en los datos anonimizados de Reddit

<5%publicaciones de nivel «intento», lo que genera una tarea fuertemente desbalanceada

Casi la mitad de todas las publicaciones etiquetadas pertenece a la categoría de ideación, mientras que las publicaciones de nivel «intento» son escasas. Por ello, el modelo debe aprender un objetivo ordenado y desbalanceado, no cuatro clases intercambiables.

Nube de palabras generada a partir del lenguaje del conjunto de datos anonimizados de investigación en redes sociales — Lenguaje representado en los datos del proyecto. La investigación utiliza publicaciones anonimizadas de Reddit etiquetadas según un riesgo suicida ordinal.

02Cuatro niveles ordenados, no cuatro etiquetas independientes

A cada publicación se le asigna uno de cuatro niveles de riesgo. El orden tiene significado: una predicción que se desvía un nivel no equivale a otra situada en el extremo opuesto de la escala.

Nivel 1Indicador

Señales generales de alerta.

Nivel 2Ideación

Pensamientos suicidas explícitos.

Nivel 3Conducta

Intención de actuar.

Nivel 4Intento

Referencia a acciones suicidas.

Por eso la investigación reporta tanto la puntuación F1 ponderada como el error absoluto medio. F1 refleja la calidad de la clasificación en una distribución desbalanceada de etiquetas. El error absoluto medio refleja la distancia entre las posiciones predicha y real en la escala ordinal.

03Un método de dos etapas: comprender cada publicación y luego modelar la trayectoria

La arquitectura base separa la interpretación semántica del pronóstico temporal. Los modelos de lenguaje de gran escala clasifican cada publicación. Una segunda etapa ligera combina esas clasificaciones a lo largo del tiempo.

Clasificación por publicación

Los modelos GPT-5, GPT-4o y GPT-5-mini, utilizados mediante prompts, asignan un nivel ordinal de riesgo a cada publicación observada. El enfoque es zero-shot, sin ajuste fino específico.

Agregación temporal

La secuencia de predicciones por publicación y marcas de tiempo se combina para predecir el nivel de riesgo de la siguiente publicación aún no observada.

La primera etapa utiliza prompts validados en investigaciones previas de PLN aplicado a la salud mental. La segunda determina cuánto peso asignar a cada observación anterior, especialmente cuando las publicaciones aparecen a intervalos irregulares.

Promedio simplePonderación lineal que favorece lo recienteDecaimiento exponencialPonderación por distancia temporalPronóstico ARIMA

Uno de los hallazgos más claros es que la elección de la agregación importa mucho menos que la calidad de las clasificaciones por publicación. El desempeño de las cinco estrategias difiere en menos de 0.4%. Una vez que las publicaciones individuales están bien clasificadas, incluso un promedio simple resulta competitivo.

Resumen del marco de dos etapas que combina clasificación por publicación con agregación temporal — El marco de modelado de dos etapas: clasificación semántica de las publicaciones observadas, seguida de un pronóstico temporal ligero del objetivo no observado.

04Predicciones de los LLM frente a modelos neuronales compactos

La investigación también evalúa tres métodos neuronales que aprenden directamente de secuencias de publicaciones sin llamar a modelos externos.

Enfoque	Representación y lógica temporal	Característica operativa
MiniLM	Embeddings compactos de oraciones, pooling ponderado por tiempo y una cabeza de regresión ordinal.	Modelo local pequeño, pero con el peor desempeño en la observación final no vista.
GRU	Procesamiento secuencial que aprende las interacciones entre las señales lingüísticas y el ritmo de publicación.	Mejor modelo neuronal de referencia; precisión general a menos de 0.02% de GPT-5.
DistilBERT + LoRA	Adaptación eficiente en parámetros del transformador, mientras la mayoría de los pesos del modelo permanecen congelados.	Despliegue local sin depender de una API externa.
GPT + agregación	Clasificación de publicaciones basada en prompts, seguida de una agregación temporal interpretable.	Mejor desempeño en secuencias de observación final y bajo costo de almacenamiento en caché.

Las puntuaciones generales son cercanas. La diferencia importante aparece en el subconjunto más difícil: las secuencias donde el modelo debe predecir la publicación final no observada. En este caso, el conocimiento semántico preentrenado del enfoque con LLM generaliza mejor que los modelos entrenados únicamente con los datos limitados del reto.

F1 en secuencias de observación final

GPT-5

0.46

GRU

0.38

MiniLM

0.25

05Lo que logró la mejor configuración

GPT-5, combinado con un promedio ponderado lineal, produjo el mejor resultado general.

0.72puntuación F1 ponderada general

0.30error absoluto medio en la escala ordinal de cuatro niveles

≈ US$25costo único de clasificar las publicaciones de entrenamiento con GPT-5

<1 msagregación temporal una vez almacenadas en caché las predicciones por publicación

Un MAE de 0.30 significa que los errores suelen ser locales en la escala ordinal: es más probable que el modelo confunda categorías adyacentes a que salte de un indicador general a una predicción de nivel «intento».

LLMModelos semánticos alojados

Mejor desempeño en observaciones finales no vistas.
Las clasificaciones de las publicaciones pueden almacenarse en caché y reutilizarse.
Una agregación sencilla limita el ajuste y la sobrecarga computacional.
El procesamiento externo exige un manejo cuidadoso de los datos sensibles.

LocalModelos neuronales secuenciales

Sin dependencia de llamadas a API externas.
Puede ser preferible cuando los datos deben permanecer dentro de un entorno controlado.
El desempeño general sigue siendo competitivo.
La generalización es más débil en el subconjunto de observaciones finales, que constituye la verdadera prueba de predicción.

06La ética antes de la automatización

La predicción del riesgo suicida no es un problema convencional de ordenamiento o recomendación. El artículo aborda el despliegue como una responsabilidad sociotécnica, no como un simple umbral de precisión.

Cuatro límites no negociables

No es un diagnóstico

Los resultados son estimaciones estadísticas y no pueden sustituir la evaluación de profesionales calificados de la salud mental.

Privacidad desde el diseño

Un uso operativo exigiría manejo seguro, cumplimiento de las políticas de las plataformas y salvaguardas sólidas de protección de datos.

Importan ambos tipos de error

Los falsos positivos pueden causar angustia o una intervención innecesaria; los falsos negativos pueden no detectar a personas que podrían beneficiarse de apoyo.

Supervisión humana

Las estimaciones de incertidumbre, el monitoreo de sesgos y la revisión con intervención humana son componentes necesarios de cualquier sistema responsable.

Con el tiempo, la tecnología podría apoyar intervenciones más tempranas al identificar cambios de tendencia a gran escala. Debe complementar el acceso a profesionales calificados, nunca sustituir la conexión humana que está en el centro de la atención de la salud mental.

07Investigación, replicación y el egresado detrás del trabajo

El enfoque se publicó como Time-Aware Ordinal Modelling of Sequential Text Data en las actas de la IEEE International Conference on Big Data 2025. El repositorio público contiene la solución del reto y una copia del artículo científico.

Jannic Alexander Cutura

Egresado de DSTI, investigador y docente en DSTI School of Engineering, y Staff Data Engineer en el Banco Central Europeo. Sus intereses de investigación incluyen el procesamiento del lenguaje natural, el aprendizaje automático y las aplicaciones de la IA en ámbitos de impacto social.

LinkedIn GitHub Sitio web

Descargo de responsabilidad del autor: las opiniones presentadas en este trabajo pertenecen exclusivamente al autor y no representan las del Banco Central Europeo ni las del Eurosistema de bancos centrales. El artículo fue adaptado para el DSTI TechBlog a partir de la contribución original del autor en WordPress; la redacción y la presentación se revisaron sin modificar las afirmaciones de la investigación, los métodos ni los resultados reportados.