Corps enseignant · L'IA, c'est de la modélisationSimulation guidée par les preuves et populations synthétiques
Sur cette page
Vue d'ensemblePourquoi ce cours existeDr Georgiy BobashevCe qu'est un ABMBâtir à partir de preuvesQuel modèle, quelle échellePourquoi faire confianceCalcul & reproductibilitéQuand les enjeux sont humainsLe cours à DSTIConclusionRéférences
DSTI TechBlog / Corps enseignant
Corps enseignantL'IA, c'est de la modélisation

Quand les données n'existent pas

La modélisation à base d'agents, les populations synthétiques et la discipline qui consiste à bâtir, à partir de preuves, des mondes à la hauteur d'une décision

agent-based-modellingsynthetic-populationssystems-sciencenetlogoodd-protocolsimulationvalidationepidemiology
Illustration of agents, networks and synthetic data flows for agent-based modelling
Modélisation à base d'agents, populations synthétiques et simulation guidée par les preuves.

Il existe un problème que tout data scientist finit par rencontrer, et c'est l'inverse de celui auquel on le forme. Non pas trop de données — aucune. Le jeu de données qui répondrait à la question n'existe pas, ne peut pas être recueilli à temps, ou se trouve derrière des murs qui ne tomberont pas. Cet article porte sur ce que fait alors un modélisateur sérieux, sur le cours que DSTI a bâti autour de cette question, et sur le chercheur qui l'enseigne.

Pourquoi ce cours existe : les données qui ne sont pas là

On enseigne la data science moderne comme si les données étaient la partie facile et la méthode la partie difficile. En pratique, l'ordre est fréquemment inversé. Les données utiles sont fragmentées entre des systèmes qui n'ont jamais été conçus pour se parler, verrouillées par des politiques légitimes de sécurité et de confidentialité, coûteuses à assembler, ou tout simplement jamais enregistrées.

Le constat est constant dans tout le secteur. IBM relève que la plupart des environnements de données d'entreprise restent trop fragmentés pour soutenir l'IA à grande échelle, et rapporte pour 2025 des chiffres où la grande majorité des organisations comptent déployer une IA avancée dans l'année tout en concédant, pour la plupart, qu'elles manquent d'une fondation de données bien définie (IBM, What is data fragmentation?). Les analyses d'IDC posent le goulet d'étranglement sans détour : moins de la moitié des projets pilotes d'IA atteignent la production, et la contrainte déterminante tient à l'accessibilité et à la mise en production des données dans des environnements hétérogènes, plutôt qu'à la puissance de calcul ou à l'architecture des modèles. Forrester a estimé que les travailleurs du savoir perdent de l'ordre d'une journée de travail par semaine rien qu'à localiser des données dispersées dans des systèmes déconnectés ; enquête après enquête, on constate que les data scientists passent près de la moitié de leur temps à trouver, nettoyer et préparer les données avant toute modélisation ; et l'enquête 2024 de DATAVERSITY auprès des responsables a trouvé que les silos de données sont cités comme la préoccupation première par environ deux tiers des organisations.

Il vaut la peine d'être précis sur pourquoi les données sont indisponibles, car on confond souvent deux mécanismes distincts. Certains obstacles sont accidentels — silos, formats incompatibles, traçabilité perdue. D'autres sont délibérés et parfaitement légitimes : le contrôle d'accès basé sur les rôles, la politique informatique de l'entreprise, la confidentialité médicale et le droit de la protection des données existent précisément pour restreindre qui peut voir quoi. Un modèle qui a besoin de comportements à l'échelle de l'individu pour répondre à une question d'intérêt public se heurte fréquemment au second type de mur, et aucune ingénierie ne le fait disparaître. Comme Bobashev le dit à ses étudiants, les données de réseaux sociaux sur la manière dont les gens s'influencent réellement les uns les autres — précisément ce dont on aurait besoin pour modéliser, par exemple, comment débute l'usage de drogue — ne sont presque jamais collectables.

La réponse du secteur porte un nom. Gartner a prévu que la majorité des données utilisées dans les projets d'IA seraient générées de façon synthétique d'ici quelques années, et que d'ici 2030 les données synthétiques l'emporteront sur les données réelles dans une large gamme de modèles d'IA — une affirmation frappante de la part d'un cabinet qui n'a pas pour habitude de verser dans l'hyperbole (Gartner, Top Data & Analytics Predictions ; MIT Sloan, What is synthetic data?). Le même travail de Gartner avertit, dans la foulée, que la plupart des organisations les géreront mal. Les deux moitiés de cette phrase comptent, et la seconde résume l'essentiel de ce cours.

Les données synthétiques ne sont pas une chose unique. À une extrémité se trouve un modèle génératif ajusté sur un jeu de données réel, qui produit des enregistrements statistiquement similaires ne contenant aucun des originaux — l'approche derrière le Synthetic Data Vault du MIT, où des data scientists indépendants, construisant des modèles prédictifs sur des versions synthétiques de cinq jeux de données publics, n'ont montré aucune différence significative par rapport à ceux construits sur les données réelles (MIT Sloan). À l'autre extrémité — celle qu'enseigne ce cours — se trouve quelque chose de plus ancien et de plus exigeant : on construit un mécanisme, une population d'acteurs en interaction qui suivent des règles tirées de ce que l'on sait réellement, et on le laisse générer les données que le monde aurait produites si l'on avait pu l'observer.

Un aveu à l'origine

L'intérêt de DSTI pour ce sujet n'est pas abstrait. Lorsque l'école a vu le jour en 2015 avec un seul programme — ce qui est aujourd'hui le MSc in Data Science & AI —, son co-fondateur, Sébastien Corniglion, voulait que les étudiants soient exposés tôt à la modélisation multi-agents et, plus largement, à l'art de simuler des populations synthétiques. La motivation était personnelle. Son propre travail doctoral, avec Nadine Tournois, s'était heurté de plein fouet au mur évoqué ci-dessus : Towards a Numerical, Agent-Based, Behaviour Analysis: The Case of Tourism (Corniglion & Tournois, 2012).

Le problème y était structurel. Aucune partie unique ne détient une vue d'ensemble de la façon dont les touristes dépensent réellement à travers une destination — les données sont éparpillées entre des commerces indépendants, des hôtels, des organismes publics et des coentreprises, et les assembler aurait exigé des partenariats et un écheveau de travail juridique et de confidentialité. Aussi, plutôt que d'attendre un jeu de données qui n'allait jamais arriver, le travail a généré des données de ventes artificielles à l'aide d'une simulation à base d'agents dans NetLogo, combinant des règles d'automate cellulaire et des processus stochastiques, et étalonnée non pas à partir d'une base de données maîtresse mais à partir de régularités observables et de l'expertise du terrain — des dépenses plausibles par profil de visiteur, des ratios réalistes d'hôtels, de bars et de restaurants observés à travers la région. La contribution était délibérément modeste et exploratoire, et son résultat le plus intéressant allait à l'encontre de la pratique reçue : la nationalité, la variable que l'industrie touristique segmente par réflexe, s'est révélée un piètre discriminant des comportements, tandis que les schémas de dépense révélaient des groupes cohérents et un effet récurrent de « meneur de groupe » concentré sur les trois à cinq premiers jours d'un séjour.

Corniglion reconnaît franchement ne s'être jamais senti assez légitime pour enseigner le sujet. Ce qui a changé, c'est une réunion du Conseil scientifique. Le Dr Gregory Piatetsky-Shapiro — fondateur de KDnuggets, pionnier de la découverte de connaissances et du data mining, et membre honoraire du conseil de DSTI — était au courant de cette intention, et a présenté à l'école un chercheur qui avait passé toute une carrière à faire exactement cela, rigoureusement, là où les enjeux étaient humains. Ce chercheur, le Dr Georgiy Bobashev, enseigne Agent-Based Modelling à DSTI depuis lors.


01 Ce qu'est un modèle à base d'agents, et la question à laquelle il répond

Un modèle à base d'agents (ABM) est une description ascendante d'un système. Plutôt que d'écrire des équations pour la population dans son ensemble, on spécifie les individus — les agents —, on donne à chacun un petit ensemble d'attributs et de règles, on les place dans un environnement et, éventuellement, dans un réseau, et on les laisse interagir. Une structure que personne n'a programmée directement — grappes, vagues, points de bascule, ségrégation, contagion — émerge des interactions locales. La filiation intellectuelle passe par Growing Artificial Societies d'Epstein et Axtell, qui a défendu l'idée que des classes entières de phénomènes sociaux se comprennent mieux en les faisant émerger de bas en haut qu'en les postulant d'en haut.

Les démonstrations classiques sont délibérément simples. Le modèle de ségrégation de Schelling, où une simple préférence individuelle modérée pour ne pas être en minorité locale produit des quartiers nettement clivés ; un modèle de distribution des richesses dont les règles d'échange presque triviales convergent vers une courbe de Pareto ; le problème du bar El Farol, la prédation loup–mouton, une nuée d'oiseaux — chacun un cas de macro-structure qu'aucun agent isolé n'a voulue ni ne pouvait voir. Bobashev illustre le contraste de façon mémorable : un modèle de dynamique des systèmes est un orchestre classique, où chaque musicien suit une même partition globale ; un modèle à base d'agents est un groupe de jazz, où la musique est ce qui émerge de musiciens qui réagissent les uns aux autres, localement et dans l'instant.

Le cours ne commence pourtant pas par les agents. Il commence par une question plus exigeante : pourquoi modéliser, au juste, et quel type de modèle ? Bobashev aborde la modélisation par la science des systèmes, et insiste pour que le choix de l'outil suive l'objectif. Il y a, dans le cadre du cours, quatre raisons de construire un modèle — prédire un nombre, prendre une décision, comprendre une relation ou estimer un risque — et tout un éventail de familles de modèles parmi lesquelles choisir, ordonnées selon la quantité de structure qu'elles admettent : modèles statistiques, modèles de Markov, modèles de dynamique des systèmes, microsimulations, et — à l'extrémité du spectre, là où les agents cessent d'être passifs et commencent à interagir — modèles à base d'agents. Un ABM n'est le bon instrument que pour certains objectifs, et une part substantielle de l'enseignement consiste à apprendre à distinguer lesquels. L'ouvrage de référence en la matière est celui de Railsback et Grimm, Agent-Based and Individual-Based Modeling: A Practical Introduction, et l'outil de laboratoire est NetLogo.

Lien avec le cursus. Bobashev enseigne → Agent-Based Modelling (MSc in Data Science & AI et, depuis 2025, le MSc in Data Analytics with AI), qui s'appuie sur → Foundations of Statistical Analysis, Parts 1 & 2 — la fondation « FSML » de l'école, enseignée par le Dr Christophe Bécavin et la Dre Christine Malot. La modélisation repose sur le raisonnement statistique ; le prérequis n'est pas décoratif.

02 Bâtir un monde à partir de preuves, et non de rien

La discipline cruciale — et la réponse à quiconque soupçonne que les données synthétiques ne sont que de l'« invention » — est qu'on n'invente pas les données de façon arbitraire. On encode ce que l'on sait réellement dans le mécanisme, et on laisse le mécanisme, et non ses souhaits, produire le résultat.

Les touristes de Corniglion n'ont jamais existé, mais les règles qu'ils suivaient n'étaient pas de la fiction : déplacement piéton, probabilité bornée d'entrer dans un commerce, dépenses tirées de distributions ancrées à des estimations d'experts, contraintes structurelles sur la composition des commerces issues de l'observation directe. Les données artificielles étaient la conséquence de ces règles fondées sur des preuves, ce qui explique précisément pourquoi leurs conclusions étaient intéressantes plutôt que circulaires — le résultat surprenant sur la nationalité n'était pas supposé, il est sorti de la simulation.

Le travail épidémiologique de Bobashev opère le même geste à un degré de rigueur bien supérieur. Pour modéliser la propagation d'une infection dans une ville, il faut une population qui ne se présente pas en file indienne : des personnes regroupées en foyers, écoles, lieux de travail et groupes sociaux, qui se mélangent à des rythmes différents. Cette population structurée est synthétique — et chez RTI il s'agit d'un artefact concret, non d'une métaphore : un jeu de données de personnes et de foyers synthétiques anonymes, situés géographiquement et calés sur les distributions du recensement des États-Unis et de l'American Community Survey jusqu'à l'échelle de l'îlot, avec les logements collectifs (résidences universitaires, maisons de retraite, prisons, bases militaires) et des affectations aux écoles et aux lieux de travail qui encodent le réseau de contacts lui-même (RTI Synthetic Population viewer). Aucune personne réelle ne s'y trouve ; la structure qui anime la maladie, si. La dynamique de la maladie n'est alors que la conséquence de qui rencontre plausiblement qui — la myriade d'enquêtes de référence qu'aucune base de données unique ne réunit devenant, en agrégat, suffisante pour contraindre un modèle crédible. C'est le même réflexe qui anime les données synthétiques préservant la vie privée dans les contextes réglementés : reproduire la population, et non les individus, de sorte qu'aucune personne réelle ne soit exposée tandis que la structure qui compte est préservée.

Le cadrage honnête est le suivant : un jeu de données synthétique ne vaut que ce que valent les preuves et le mécanisme qui le sous-tendent. Construit sans soin, il blanchit des hypothèses en conclusions. Construit avec soin, c'est une manière de raisonner rigoureusement sur un système que l'on ne peut pas observer pleinement.

03 Quel modèle, et à quelle échelle : l'intuition hybride

L'une des contributions méthodologiques les plus citées de Bobashev montre à quoi ressemble la maturité dans ce domaine. Avec Joshua Epstein et des collègues, il s'est attaqué à une véritable tension de la modélisation épidémique : les modèles à base d'agents capturent l'interaction locale et la variation individuelle qui comptent énormément au début d'une épidémie, lorsqu'une poignée de cas soit s'éteint soit s'embrase — mais ils sont lourds en calcul. Les modèles à base d'équations (compartimentaux) sont traitables et même analytiquement transparents, mais ils supposent des moyennes bien mélangées qui dénaturent précisément cette phase initiale et structurée (A Hybrid Epidemic Model: Combining the Advantages of Agent-Based and Equation-Based Approaches, Bobashev, Goedecke, Yu & Epstein, Proceedings of the 2007 Winter Simulation Conference, p. 1532–1537).

Leur réponse n'a pas été de choisir un camp mais de basculer : faire tourner le modèle agent par agent tant que le nombre d'infectés est faible et que la variation individuelle domine, puis, une fois le décompte assez grand pour que la loi des grands nombres s'applique, passer la main à une description à base d'équations bien moins coûteuse — et rebasculer si les nombres redescendent. L'hybride économise du calcul et, plus fondamentalement, permet d'analyser mathématiquement la structure émergente produite par les agents. Ils traitent l'ABM complet comme l'« étalon-or », celui qui a le plus de micro-détail, et demandent précisément à quel moment une description plus grossière est sans danger.

Il y a à cela une raison mathématique précise, et Bobashev l'enseigne directement. Lorsque la réponse d'un système est non linéaire, la moyenne des résultats n'est pas le résultat de la moyenne — un fait connu sous le nom d'inégalité de Jensen. Un modèle statistique ou de dynamique des systèmes moyenne d'abord, puis applique la règle ; un modèle à base d'agents applique la règle à chaque individu, puis moyenne. Pour une réponse courbe (convexe ou concave), ces deux ordres donnent des réponses systématiquement différentes, et l'écart est maximal là où la variation individuelle est la plus grande et où la règle s'incurve le plus brusquement — c'est-à-dire à la phase initiale et structurée d'une épidémie. C'est le biais que les agents préservent et que l'agrégat efface. Vu ainsi, le modèle hybride est un énoncé discipliné du moment où cette distinction a cessé d'importer et où une moyenne moins coûteuse est devenue sûre.

C'est la leçon transférable, et elle se généralise bien au-delà des épidémies : la rigueur n'est pas la fidélité à une méthode préférée. C'est l'ajustement du formalisme à la question et à l'échelle, et le fait de savoir quand l'agrégation est justifiée et quand elle effacerait précisément ce que l'on cherche à voir.

04 Pourquoi devrait-on faire confiance à un modèle ?

C'est, mot pour mot, l'une des questions du programme, et c'est là que le cours gagne son sérieux. Bobashev l'ouvre par le plus vieil adage du modélisateur — tous les modèles sont faux, mais certains sont utiles (George Box) — puis consacre un temps réel à ce que « utile » doit être amené à signifier. Une simulation qui tourne et produit des images d'apparence plausible est l'artefact le plus dangereux des sciences computationnelles, car la plausibilité n'est pas la validité.

Les difficultés honnêtes sont bien connues et enseignées comme telles :

Le cours est en conséquence précis sur les trois choses que l'on a tendance à confondre : la sensibilité (de combien les résultats bougent lorsqu'on perturbe les paramètres ou les conditions initiales), l'incertitude (comment l'incertitude des paramètres se propage dans la fiabilité de la sortie) et la robustesse (la conclusion survit-elle à un changement de la structure du modèle, et pas seulement de ses nombres). Le principal instrument du domaine pour rendre tout cela inspectable est le protocole ODD (Overview, Design concepts, Details), une structure standard pour décrire intégralement un modèle à base d'agents afin qu'un autre chercheur puisse l'examiner et le reproduire (Grimm et al., JASSS, mise à jour 2020). Le cours de DSTI enseigne la construction de modèles par ODD, aux côtés de l'analyse d'incertitude, de l'interprétation, de la documentation et de la présentation — les parties peu glorieuses qui séparent un résultat d'une capture d'écran. Le travail publié de Bobashev incarne cette retenue : l'article hybride prend soin d'indiquer là où la validation reste à faire plutôt que de surévaluer ses conclusions.

La position de DSTI. Un modèle n'est pas un substitut aux preuves ; c'est une manière de raisonner lorsque les preuves sont incomplètes. La compétence que nous enseignons n'est pas de « faire tourner des simulations » — c'est de savoir ce qu'une simulation peut, et ne peut pas, dire de fiable, et d'être capable de défendre la réponse.

05 Le faire tourner : agents, calcul et reproductibilité

Construits honnêtement, les ABM sont aussi exigeants à exécuter. Explorer un modèle, c'est balayer ses paramètres et répéter de nombreuses fois des exécutions stochastiques, ce qui déborde vite un ordinateur portable. C'est de l'ingénierie autant que de la science, et c'est un terrain que l'on reconnaît bien comme celui de DSTI.

Le travail récent de Bobashev avec Michael Duprey est un guide pratique pour exécuter des modèles NetLogo à grande échelle sur une infrastructure cloud (Enhancing Computational Efficiency in NetLogo: Best Practices for Running Large-Scale Agent-Based Models on AWS and Cloud Infrastructures, 2026). C'est exactement le genre de détail opérationnel dont les étudiants ont besoin : réglage de la mémoire et de la JVM, balayages de paramètres avec BehaviorSpace, et adéquation de la famille d'instances AWS selon qu'un modèle est limité par le calcul ou par la mémoire — une comparaison qui, sur un banc d'essai standard, a trouvé une instance optimisée pour le calcul environ un tiers moins chère qu'une instance optimisée pour la mémoire, à travail égal. Deux de ses thèmes méritent d'être soulignés au-delà de l'économie réalisée. Le premier est la reproductibilité : initialiser chaque exécution de façon déterministe pour que les résultats puissent être régénérés à l'identique — une vertu scientifique, et pas seulement une commodité d'ingénierie. Le second est la soutenabilité computationnelle : une simulation plus efficace, c'est moins d'énergie, moins de coût et moins de gaspillage, ce qui est le principe même que DSTI enseigne dans tout son cursus d'ingénierie.

06 Là où les enjeux sont humains

Il serait possible d'enseigner tout cela sur des problèmes jouets. Bobashev ne le fait pas, et le choix des problèmes fait lui-même partie de ce que les étudiants absorbent. Sa recherche se situe, par dessein délibéré, là où les données sont les plus rares, les plus sensibles et les plus lourdes de conséquences : la santé publique et l'usage de substances.

Son groupe a utilisé la modélisation à base d'agents et la modélisation statistique pour étudier l'effet combiné des médicaments contre le trouble de l'usage des opioïdes et de la naloxone sur les décès par overdose à travers les comtés de New York (Cerdá et al., Epidemiology, 2024) ; la transmission du VIH chez les personnes qui s'injectent des drogues, y compris pendant la période de la COVID-19 (Des Jarlais, Bobashev et al., Drug and Alcohol Dependence, 2022) ; et le détournement de buprénorphine examiné sous l'angle de la réduction des risques plutôt que sous un angle purement répressif (Adams et al., Harm Reduction Journal, 2023). Son travail de méthodes statistiques est au même service : le paquet R mobForest, de partitionnement récursif à base de modèles par forêts aléatoires, a été démontré sur des données de traitement de la dépendance à l'alcool (Garge, Bobashev & Eggleston, BMC Bioinformatics, 2013).

Ce sont précisément les contextes où l'on ne peut pas se contenter de recueillir le jeu de données — pour des raisons de vie privée, d'éthique, de stigmatisation et de droit — et où une modélisation ratée a un coût humain. Le sous-titre de cet article — des mondes à la hauteur d'une décision — n'est pas rhétorique dans son travail : la même famille de modèles a été mise à contribution pendant la pandémie de COVID-19 pour prévoir, en continu, la demande régionale en lits d'hôpital et en lits de soins intensifs, le genre de résultat à partir duquel une autorité de santé publique planifie réellement. C'est ici que le cadrage du cours, qui présente un modèle à base d'agents comme, en somme, un système d'intelligence artificielle pour une société entière — une population d'agents décisionnaires dont on peut interroger le comportement collectif —, cesse d'être un slogan. Ils forment un argument discret : modéliser à partir de preuves n'est pas un palliatif aux données manquantes mais, mené de façon responsable, une manière de raisonner sur des interventions qui comptent. Le soin se voit dans le choix des questions.

07 Le cours à DSTI

Agent-Based Modelling est enseigné au sein du MSc in Data Science & AI et du MSc in Data Analytics with AI, par le Dr Georgiy Bobashev. Le parcours Data Analytics with AI a été ajouté en 2025, sur recommandation du Conseil scientifique de DSTI — l'instance même qui avait d'abord amené Bobashev à l'école — qui a jugé que la discipline de la modélisation à partir de preuves importe autant pour les data analysts que pour les spécialistes de l'IA. Le cours suppose la fondation statistique de l'école — le prérequis « FSML », c'est-à-dire Foundations of Statistical Analysis, Part 1 (Dr Christophe Bécavin) et Part 2 (Dre Christine Malot) ; à DSTI, ce sont des connaissances attendues, à réviser, et non des suppléments facultatifs. La référence centrale est Railsback et Grimm ; l'environnement de travail est NetLogo, que les étudiants installent et utilisent dès le premier laboratoire.

Le cours se déroule comme une séquence intensive de journées appariant cours magistral et laboratoire. La trajectoire va de pourquoi modéliser ? aux familles de la science des systèmes et à l'adéquation de la méthode à l'objectif, jusqu'au protocole ODD et aux composants d'un ABM — agents, règles, environnements, réseaux —, puis à la construction, l'exécution et l'analyse de modèles en laboratoire, individuellement et en équipe, avant de se conclure sur la calibration, la validation et la relation entre l'ABM et l'IA. L'évaluation est un projet, et la consigne elle-même enseigne les deux moitiés du métier : chaque étudiant construit un modèle fonctionnel dans NetLogo, ou documente intégralement un modèle complexe au moyen du protocole ODD. L'exigence que pose Bobashev est la même que celle que cet article a tenté d'honorer — produire quelque chose à quoi quelqu'un a une raison de faire confiance.


Pour conclure : une forme honnête de données

La data science consacre l'essentiel de son attention à l'abondance. Ce cours est un contrepoids délibéré : un traitement sérieux de ce qu'il faut faire lorsque les données sont absentes, fragmentées ou, à juste titre, hors de portée — ce qui, pour bon nombre de questions réelles, est la condition normale plutôt que l'exception. La réponse n'est pas d'inventer des données et d'espérer. C'est de construire un mécanisme à partir de preuves véritables, d'être impitoyable sur la validation, et de rester clair sur le fait qu'un modèle est un argument, non un oracle.

Il est juste que ce cours existe en raison d'un aveu plutôt que d'un titre — un fondateur qui connaissait les limites de sa propre autorité sur le sujet, un membre du conseil qui connaissait la bonne personne, et un chercheur qui a passé une carrière à faire cela là où cela compte. C'est la version de l'expertise que DSTI s'efforce d'enseigner : non pas l'assurance de simuler, mais le discernement de savoir ce que vaut une simulation.


Références et sources

Corps enseignant de DSTI et travaux à l'origine

Méthode et fondements

Sur la rareté des données, la fragmentation et les données synthétiques

Personnes