Les formulations liées à la santé mentale peuvent évoluer dans le temps. Pour l’IEEE Big Data Cup 2025, les participants devaient travailler sur des données Reddit anonymisées et prédire le niveau ordinal de risque suicidaire de la prochaine publication d’un utilisateur à partir des cinq précédentes et de leurs horodatages. La solution de Jannic combinait une classification par grands modèles de langage fondée sur des prompts et une agrégation temporelle simple. Elle a remporté la première place et un prix de 1 000 dollars américains.
Sujet et périmètreCet article présente des travaux de recherche sur la prédiction du risque suicidaire. Les modèles décrits produisent des estimations statistiques, et non des diagnostics cliniques. Leur utilisation opérationnelle exigerait explicitement une protection de la vie privée, une supervision humaine qualifiée et une évaluation rigoureuse.
01Le défi : prévoir l’état suivant
L’IEEE International Conference on Big Data réunit des travaux sur le traitement des données à grande échelle, l’apprentissage automatique et les applications concrètes. L’édition 2025 de sa Big Data Cup, parrainée par Hong Kong Polytechnic University, portait sur la prédiction du risque suicidaire à partir de publications sur les réseaux sociaux.
Pour chaque séquence, le modèle reçoit les cinq publications les plus récentes d’un utilisateur et leurs horodatages. Il doit prédire le niveau de risque d’une sixième publication qui n’a pas encore été écrite. Cette distinction est essentielle. Classer un texte visible revient à demander : « Qu’exprime ce texte ? » Prévoir consiste à demander : « Compte tenu de la trajectoire récente, que va-t-il probablement se passer ensuite ? »
Près de la moitié des publications étiquetées relèvent de la catégorie « idéation », tandis que les publications de niveau « tentative » sont rares. Le modèle doit donc apprendre une cible ordonnée et déséquilibrée, plutôt que quatre classes interchangeables.

02Quatre niveaux ordonnés, pas quatre étiquettes indépendantes
Chaque publication reçoit l’un des quatre niveaux de risque. Leur ordre a un sens : une prédiction décalée d’un seul niveau n’est pas équivalente à une prédiction située à l’autre extrémité de l’échelle.
Signes généraux d’alerte.
Pensées suicidaires explicites.
Intention de passer à l’acte.
Référence à des actes suicidaires.
C’est pourquoi la recherche présente à la fois le score F1 pondéré et l’erreur absolue moyenne. Le score F1 mesure la qualité de la classification sur une distribution d’étiquettes déséquilibrée. L’erreur absolue moyenne mesure l’écart entre les positions prédite et réelle sur l’échelle ordinale.
03Une méthode en deux étapes : comprendre chaque publication, puis modéliser la trajectoire
L’architecture de base sépare l’interprétation sémantique de la prévision temporelle. Les grands modèles de langage classent chaque publication. Une seconde étape légère combine ensuite ces classifications dans le temps.
Classification au niveau de la publication
Les modèles GPT-5, GPT-4o et GPT-5-mini, utilisés à partir de prompts, attribuent un niveau ordinal de risque à chaque publication observée. L’approche repose sur le zero-shot, sans ajustement spécifique du modèle.
Agrégation temporelle
Les prédictions au niveau des publications et leurs horodatages sont combinés pour prévoir le niveau de risque de la publication suivante, encore non observée.
La première étape utilise des prompts validés par des recherches antérieures en TALN appliqué à la santé mentale. La seconde détermine le poids à accorder à chaque observation précédente, notamment lorsque les publications sont espacées de manière irrégulière.
L’un des résultats les plus nets est que le choix de l’agrégation compte beaucoup moins que la qualité des classifications au niveau des publications. Les performances des cinq stratégies se situent à moins de 0,4 % les unes des autres. Lorsque chaque publication est correctement classée, même une simple moyenne reste compétitive.

04Prédictions des LLM face à des modèles neuronaux compacts
La recherche évalue également trois méthodes neuronales qui apprennent directement à partir des séquences de publications, sans appel à un modèle externe.
| Approche | Représentation et logique temporelle | Caractéristique opérationnelle |
|---|---|---|
| MiniLM | Représentations vectorielles compactes de phrases, pooling pondéré dans le temps et tête de régression ordinale. | Petit modèle local, mais le moins performant sur l’observation finale non vue. |
| GRU | Traitement séquentiel qui apprend les interactions entre les indices linguistiques et le rythme de publication. | Meilleur modèle neuronal de référence ; précision globale à moins de 0,02 % de GPT-5. |
| DistilBERT + LoRA | Adaptation efficace en paramètres du transformeur, tandis que la plupart des poids du modèle restent gelés. | Déploiement local sans dépendance à une API externe. |
| GPT + agrégation | Classification des publications guidée par prompts, suivie d’une agrégation temporelle interprétable. | Meilleures performances sur les séquences d’observation finale et faible coût de mise en cache. |
Les scores globaux sont proches. L’écart significatif apparaît sur le sous-ensemble le plus difficile : les séquences où le modèle doit prédire la publication finale non observée. Dans ce cas, les connaissances sémantiques préentraînées de l’approche par LLM se généralisent mieux que les modèles entraînés uniquement sur les données limitées du challenge.
F1 sur les séquences d’observation finale
05Les résultats de la meilleure configuration
GPT-5, combiné à une moyenne pondérée linéaire, a produit le meilleur résultat global.
Une MAE de 0,30 signifie que les erreurs restent généralement locales sur l’échelle ordinale : le modèle est plus susceptible de confondre des catégories adjacentes que de passer d’un indicateur général à une prédiction de niveau « tentative ».
LLMModèles sémantiques hébergés
- Meilleures performances sur les observations finales non vues.
- Les classifications des publications peuvent être mises en cache et réutilisées.
- Une agrégation simple limite le réglage et le surcoût de calcul.
- Le traitement externe exige une gestion rigoureuse des données sensibles.
LocalModèles neuronaux séquentiels
- Aucune dépendance à des appels d’API externes.
- Peut être préférable lorsque les données doivent rester dans un environnement contrôlé.
- Les performances globales restent compétitives.
- La généralisation est moins bonne sur le sous-ensemble des observations finales, qui constitue le véritable test de prédiction.
06L’éthique avant l’automatisation
La prédiction du risque suicidaire n’est pas un problème ordinaire de classement ou de recommandation. L’article considère le déploiement comme une responsabilité sociotechnique, et non comme un simple seuil de précision.
Quatre limites non négociables
Les résultats sont des estimations statistiques et ne peuvent remplacer l’évaluation de professionnels qualifiés de la santé mentale.
Une utilisation opérationnelle exigerait un traitement sécurisé, le respect des règles des plateformes et de solides garanties de protection des données.
Les faux positifs peuvent provoquer de la détresse ou une intervention inutile ; les faux négatifs peuvent ne pas repérer des personnes qui bénéficieraient d’un accompagnement.
L’estimation de l’incertitude, le suivi des biais et une validation avec intervention humaine sont indispensables à tout système responsable.
Cette technologie pourrait à terme favoriser une intervention plus précoce en repérant à grande échelle l’évolution de certaines tendances. Elle doit compléter l’accès à des professionnels qualifiés, jamais remplacer la relation humaine au cœur des soins en santé mentale.
07Recherche, réplication et parcours de l’alumnus
L’approche a été publiée sous le titre Time-Aware Ordinal Modelling of Sequential Text Data dans les actes de l’IEEE International Conference on Big Data 2025. Le dépôt public contient la solution du challenge et une copie de l’article scientifique.
Jannic Alexander Cutura
Alumnus de DSTI, chercheur et enseignant à DSTI School of Engineering, et Staff Data Engineer à la Banque centrale européenne. Ses travaux portent notamment sur le traitement automatique du langage naturel, l’apprentissage automatique et les applications de l’IA dans des domaines d’intérêt général.
Avertissement de l’auteur : les opinions exprimées dans ce travail n’engagent que l’auteur et ne représentent pas celles de la Banque centrale européenne ni de l’Eurosystème des banques centrales. Article adapté pour le DSTI TechBlog à partir de la contribution WordPress originale de l’auteur ; la formulation et la présentation ont été révisées sans modifier les affirmations scientifiques, les méthodes ni les résultats rapportés.