Prédire le risque pour la santé mentale à partir des réseaux sociaux

Les formulations liées à la santé mentale peuvent évoluer dans le temps. Pour l’IEEE Big Data Cup 2025, les participants devaient travailler sur des données Reddit anonymisées et prédire le niveau ordinal de risque suicidaire de la prochaine publication d’un utilisateur à partir des cinq précédentes et de leurs horodatages. La solution de Jannic combinait une classification par grands modèles de langage fondée sur des prompts et une agrégation temporelle simple. Elle a remporté la première place et un prix de 1 000 dollars américains.

Sujet et périmètreCet article présente des travaux de recherche sur la prédiction du risque suicidaire. Les modèles décrits produisent des estimations statistiques, et non des diagnostics cliniques. Leur utilisation opérationnelle exigerait explicitement une protection de la vie privée, une supervision humaine qualifiée et une évaluation rigoureuse.

Il ne s’agit pas d’une classification de texte ordinaire. Le texte cible est absent. Le système doit inférer un état ordinal futur à partir d’une courte séquence irrégulière d’observations antérieures.

01Le défi : prévoir l’état suivant

L’IEEE International Conference on Big Data réunit des travaux sur le traitement des données à grande échelle, l’apprentissage automatique et les applications concrètes. L’édition 2025 de sa Big Data Cup, parrainée par Hong Kong Polytechnic University, portait sur la prédiction du risque suicidaire à partir de publications sur les réseaux sociaux.

Pour chaque séquence, le modèle reçoit les cinq publications les plus récentes d’un utilisateur et leurs horodatages. Il doit prédire le niveau de risque d’une sixième publication qui n’a pas encore été écrite. Cette distinction est essentielle. Classer un texte visible revient à demander : « Qu’exprime ce texte ? » Prévoir consiste à demander : « Compte tenu de la trajectoire récente, que va-t-il probablement se passer ensuite ? »

7 000+séquences de publications dans le jeu de données de recherche

395utilisateurs uniques représentés dans les données Reddit anonymisées

<5%publications de niveau « tentative », ce qui crée une tâche fortement déséquilibrée

Près de la moitié des publications étiquetées relèvent de la catégorie « idéation », tandis que les publications de niveau « tentative » sont rares. Le modèle doit donc apprendre une cible ordonnée et déséquilibrée, plutôt que quatre classes interchangeables.

Nuage de mots produit à partir du langage du jeu de données anonymisé de recherche sur les réseaux sociaux — Langage représenté dans les données du projet. La recherche utilise des publications Reddit anonymisées, étiquetées selon un risque suicidaire ordinal.

02Quatre niveaux ordonnés, pas quatre étiquettes indépendantes

Chaque publication reçoit l’un des quatre niveaux de risque. Leur ordre a un sens : une prédiction décalée d’un seul niveau n’est pas équivalente à une prédiction située à l’autre extrémité de l’échelle.

Niveau 1Indicateur

Signes généraux d’alerte.

Niveau 2Idéation

Pensées suicidaires explicites.

Niveau 3Comportement

Intention de passer à l’acte.

Niveau 4Tentative

Référence à des actes suicidaires.

C’est pourquoi la recherche présente à la fois le score F1 pondéré et l’erreur absolue moyenne. Le score F1 mesure la qualité de la classification sur une distribution d’étiquettes déséquilibrée. L’erreur absolue moyenne mesure l’écart entre les positions prédite et réelle sur l’échelle ordinale.

03Une méthode en deux étapes : comprendre chaque publication, puis modéliser la trajectoire

L’architecture de base sépare l’interprétation sémantique de la prévision temporelle. Les grands modèles de langage classent chaque publication. Une seconde étape légère combine ensuite ces classifications dans le temps.

Classification au niveau de la publication

Les modèles GPT-5, GPT-4o et GPT-5-mini, utilisés à partir de prompts, attribuent un niveau ordinal de risque à chaque publication observée. L’approche repose sur le zero-shot, sans ajustement spécifique du modèle.

Agrégation temporelle

Les prédictions au niveau des publications et leurs horodatages sont combinés pour prévoir le niveau de risque de la publication suivante, encore non observée.

La première étape utilise des prompts validés par des recherches antérieures en TALN appliqué à la santé mentale. La seconde détermine le poids à accorder à chaque observation précédente, notamment lorsque les publications sont espacées de manière irrégulière.

Moyenne simplePondération linéaire selon la récenceDécroissance exponentiellePondération selon l’écart temporelPrévision ARIMA

L’un des résultats les plus nets est que le choix de l’agrégation compte beaucoup moins que la qualité des classifications au niveau des publications. Les performances des cinq stratégies se situent à moins de 0,4 % les unes des autres. Lorsque chaque publication est correctement classée, même une simple moyenne reste compétitive.

Vue d’ensemble du cadre en deux étapes combinant classification au niveau des publications et agrégation temporelle — Le cadre de modélisation en deux étapes : classification sémantique des publications observées, suivie d’une prévision temporelle légère de la cible non observée.

04Prédictions des LLM face à des modèles neuronaux compacts

La recherche évalue également trois méthodes neuronales qui apprennent directement à partir des séquences de publications, sans appel à un modèle externe.

Approche	Représentation et logique temporelle	Caractéristique opérationnelle
MiniLM	Représentations vectorielles compactes de phrases, pooling pondéré dans le temps et tête de régression ordinale.	Petit modèle local, mais le moins performant sur l’observation finale non vue.
GRU	Traitement séquentiel qui apprend les interactions entre les indices linguistiques et le rythme de publication.	Meilleur modèle neuronal de référence ; précision globale à moins de 0,02 % de GPT-5.
DistilBERT + LoRA	Adaptation efficace en paramètres du transformeur, tandis que la plupart des poids du modèle restent gelés.	Déploiement local sans dépendance à une API externe.
GPT + agrégation	Classification des publications guidée par prompts, suivie d’une agrégation temporelle interprétable.	Meilleures performances sur les séquences d’observation finale et faible coût de mise en cache.

Les scores globaux sont proches. L’écart significatif apparaît sur le sous-ensemble le plus difficile : les séquences où le modèle doit prédire la publication finale non observée. Dans ce cas, les connaissances sémantiques préentraînées de l’approche par LLM se généralisent mieux que les modèles entraînés uniquement sur les données limitées du challenge.

F1 sur les séquences d’observation finale

GPT-5

0,46

GRU

0,38

MiniLM

0,25

05Les résultats de la meilleure configuration

GPT-5, combiné à une moyenne pondérée linéaire, a produit le meilleur résultat global.

0,72score F1 pondéré global

0,30erreur absolue moyenne sur l’échelle ordinale à quatre niveaux

≈ 25 $UScoût unique pour classer les publications d’entraînement avec GPT-5

<1 msagrégation temporelle après mise en cache des prédictions au niveau des publications

Une MAE de 0,30 signifie que les erreurs restent généralement locales sur l’échelle ordinale : le modèle est plus susceptible de confondre des catégories adjacentes que de passer d’un indicateur général à une prédiction de niveau « tentative ».

LLMModèles sémantiques hébergés

Meilleures performances sur les observations finales non vues.
Les classifications des publications peuvent être mises en cache et réutilisées.
Une agrégation simple limite le réglage et le surcoût de calcul.
Le traitement externe exige une gestion rigoureuse des données sensibles.

LocalModèles neuronaux séquentiels

Aucune dépendance à des appels d’API externes.
Peut être préférable lorsque les données doivent rester dans un environnement contrôlé.
Les performances globales restent compétitives.
La généralisation est moins bonne sur le sous-ensemble des observations finales, qui constitue le véritable test de prédiction.

06L’éthique avant l’automatisation

La prédiction du risque suicidaire n’est pas un problème ordinaire de classement ou de recommandation. L’article considère le déploiement comme une responsabilité sociotechnique, et non comme un simple seuil de précision.

Quatre limites non négociables

Pas un diagnostic

Les résultats sont des estimations statistiques et ne peuvent remplacer l’évaluation de professionnels qualifiés de la santé mentale.

Protection de la vie privée dès la conception

Une utilisation opérationnelle exigerait un traitement sécurisé, le respect des règles des plateformes et de solides garanties de protection des données.

Les deux types d’erreur comptent

Les faux positifs peuvent provoquer de la détresse ou une intervention inutile ; les faux négatifs peuvent ne pas repérer des personnes qui bénéficieraient d’un accompagnement.

Supervision humaine

L’estimation de l’incertitude, le suivi des biais et une validation avec intervention humaine sont indispensables à tout système responsable.

Cette technologie pourrait à terme favoriser une intervention plus précoce en repérant à grande échelle l’évolution de certaines tendances. Elle doit compléter l’accès à des professionnels qualifiés, jamais remplacer la relation humaine au cœur des soins en santé mentale.

07Recherche, réplication et parcours de l’alumnus

L’approche a été publiée sous le titre Time-Aware Ordinal Modelling of Sequential Text Data dans les actes de l’IEEE International Conference on Big Data 2025. Le dépôt public contient la solution du challenge et une copie de l’article scientifique.

Jannic Alexander Cutura

Alumnus de DSTI, chercheur et enseignant à DSTI School of Engineering, et Staff Data Engineer à la Banque centrale européenne. Ses travaux portent notamment sur le traitement automatique du langage naturel, l’apprentissage automatique et les applications de l’IA dans des domaines d’intérêt général.

LinkedIn GitHub Site web

Avertissement de l’auteur : les opinions exprimées dans ce travail n’engagent que l’auteur et ne représentent pas celles de la Banque centrale européenne ni de l’Eurosystème des banques centrales. Article adapté pour le DSTI TechBlog à partir de la contribution WordPress originale de l’auteur ; la formulation et la présentation ont été révisées sans modifier les affirmations scientifiques, les méthodes ni les résultats rapportés.