# Cuando los datos no existen

HTML canónico: https://dsti.school/es/techblog/modelado-basado-en-agentes-datos-sinteticos

Esta versión Markdown se genera con el mismo build del sitio estático de DSTI que la página HTML canónica. Está pensada para facilitar la lectura automática y la consulta concisa.

[DSTI TechBlog](https://dsti.school/es/techblog) / Profesorado

Profesorado La IA es modelado

El modelado basado en agentes, las poblaciones sintéticas y la disciplina de construir, a partir de evidencia, mundos a la altura de una decisión

GB Foco en investigación y docencia: Dr. Georgiy Bobashev Modelado basado en agentes, ciencia de sistemas, bioestadística, epidemiología y poblaciones sintéticas

27 jun 2026 19 min de lectura La IA es modelado

agent-based-modelling synthetic-populations systems-science netlogo odd-protocol simulation validation epidemiology

![Illustration of agents, networks and synthetic data flows for agent-based modelling](https://media.dsti.school/assets/agent-based-modelling-DSTI.png)

> **Figure caption:** Modelado basado en agentes, poblaciones sintéticas y simulación guiada por evidencia.

Hay un problema con el que todo científico de datos termina por toparse, y es lo opuesto de aquel para el que lo entrenan. No demasiados datos: ninguno. El conjunto de datos que respondería la pregunta no existe, no puede recolectarse a tiempo o se encuentra detrás de muros que no van a caer. Este artículo trata de lo que hace a continuación un modelador serio, del curso que DSTI construyó en torno a esa pregunta y del investigador que lo imparte.

## Por qué existe este curso: los datos que no están

La ciencia de datos moderna se enseña como si los datos fueran la parte fácil y el método la parte difícil. En la práctica, el orden suele invertirse. Los datos útiles están fragmentados entre sistemas que nunca se diseñaron para comunicarse entre sí, bloqueados por políticas legítimas de seguridad y privacidad, costosos de reunir o sencillamente nunca registrados.

La evidencia es consistente en toda la industria. IBM señala que la mayoría de los entornos de datos empresariales siguen demasiado fragmentados para sostener la IA a gran escala, y reporta cifras de 2025 según las cuales la gran mayoría de las organizaciones pretende desplegar IA avanzada dentro de un año y, aun así, la mayoría reconoce que carece de una base bien definida para sus datos ([IBM, What is data fragmentation?](https://www.ibm.com/think/topics/data-fragmentation)). Los análisis de IDC plantean el cuello de botella sin rodeos: menos de la mitad de los proyectos piloto de IA llegan a producción, y la restricción determinante es la accesibilidad y la puesta en producción de los datos en entornos heterogéneos, más que la capacidad de cómputo o la arquitectura de los modelos. Forrester ha estimado que los trabajadores del conocimiento pierden del orden de una jornada laboral por semana tan solo en localizar datos dispersos en sistemas desconectados; encuesta tras encuesta se observa que los científicos de datos dedican cerca de la mitad de su tiempo a encontrar, limpiar y preparar los datos antes de cualquier modelado; y la encuesta de 2024 de DATAVERSITY a responsables de área encontró que los silos de datos se citan como la principal preocupación de alrededor de dos tercios de las organizaciones.

Vale la pena ser preciso sobre por qué los datos no están disponibles, porque a menudo se confunden dos mecanismos distintos. Algunas barreras son accidentales: silos, formatos incompatibles, trazabilidad perdida. Otras son deliberadas y completamente legítimas: el control de acceso basado en roles, las políticas de TI corporativas, la confidencialidad médica y la legislación de protección de datos existen precisamente para restringir quién puede ver qué. Un modelo que necesita comportamiento a nivel del individuo para responder una pregunta de interés público choca con frecuencia contra el segundo tipo de muro, y ninguna ingeniería lo elimina. Como Bobashev se lo plantea a sus estudiantes, los datos de redes sociales sobre cómo las personas se influyen realmente entre sí —justo lo que se necesitaría para modelar, por ejemplo, cómo se inicia el consumo de drogas— casi nunca pueden recolectarse.

La respuesta de la industria tiene nombre. Gartner ha pronosticado que la mayoría de los datos usados en proyectos de IA se generarían de forma sintética dentro de unos años, y que para 2030 los datos sintéticos superarán a los datos reales en una amplia gama de modelos de IA: una afirmación llamativa para una firma que no suele caer en la exageración ([Gartner, Top Data & Analytics Predictions](https://www.gartner.com/en/newsroom/press-releases/2025-06-17-gartner-announces-top-data-and-analytics-predictions); [MIT Sloan, What is synthetic data?](https://mitsloan.mit.edu/ideas-made-to-matter/what-synthetic-data-and-how-can-it-help-you-competitively)). El mismo trabajo de Gartner advierte, en la misma frase, que la mayoría de las organizaciones los gestionará mal. Ambas mitades de esa frase importan, y la segunda resume lo esencial de este curso.

Los datos sintéticos no son una sola cosa. En un extremo está un modelo generativo ajustado a un conjunto de datos real, que produce registros estadísticamente similares que no contienen ninguno de los originales: el enfoque detrás del Synthetic Data Vault del MIT, donde científicos de datos independientes que construyeron modelos predictivos sobre versiones sintéticas de cinco conjuntos de datos públicos no mostraron diferencia significativa frente a los construidos con los datos reales ([MIT Sloan](https://mitsloan.mit.edu/ideas-made-to-matter/what-synthetic-data-and-how-can-it-help-you-competitively)). En el otro extremo —el que enseña este curso— hay algo más antiguo y más exigente: se construye un mecanismo , una población de actores que interactúan siguiendo reglas extraídas de lo que realmente se conoce, y se le deja generar los datos que el mundo habría producido si se hubiera podido observar.

### Una confesión en el origen

El interés de DSTI por esto no es abstracto. Cuando la escuela nació en 2015 con un solo programa —lo que hoy es el MSc in Data Science & AI—, su cofundador, Sébastien Corniglion, quería que los estudiantes se expusieran temprano al modelado multiagente y, en términos más amplios, al oficio de simular poblaciones sintéticas. La motivación era personal. Su propio trabajo doctoral, con Nadine Tournois, había chocado de lleno con el muro descrito arriba: [Towards a Numerical, Agent-Based, Behaviour Analysis: The Case of Tourism](https://doi.org/10.1007/978-3-642-27609-5_6) (Corniglion & Tournois, 2012).

El problema ahí era estructural. Ninguna parte por sí sola tiene una visión global de cómo gastan realmente los turistas a lo largo de un destino: los datos están dispersos entre comercios independientes, hoteles, organismos públicos y empresas conjuntas, y reunirlos habría exigido alianzas y una maraña de trabajo legal y de privacidad. Así que, en lugar de esperar un conjunto de datos que nunca iba a llegar, el trabajo generó datos de ventas artificiales con una simulación basada en agentes en NetLogo, combinando reglas de autómata celular con procesos estocásticos, y calibrada no a partir de una base de datos maestra sino de regularidades observables y del criterio experto: gasto plausible por perfil de visitante, proporciones realistas de hoteles, bares y restaurantes observadas a lo largo de la región. La contribución fue deliberadamente modesta y exploratoria, y su hallazgo más interesante iba en contra de la práctica habitual: la nacionalidad, la variable con la que la industria turística segmenta por reflejo, resultó un pobre discriminante del comportamiento, mientras que los patrones de gasto revelaban grupos coherentes y un recurrente efecto de "líder de grupo" concentrado en los primeros tres a cinco días de una estancia.

Corniglion reconoce con franqueza que nunca se sintió lo bastante autorizado para enseñar el tema. Lo que cambió fue una reunión del Consejo Científico Asesor. El Dr. Gregory Piatetsky-Shapiro —fundador de [KDnuggets](https://www.kdnuggets.com/), pionero del descubrimiento de conocimiento y la minería de datos, y [miembro honorario del consejo de DSTI](https://en.wikipedia.org/wiki/Gregory_Piatetsky-Shapiro)— estaba al tanto de esa intención, y presentó a la escuela a un investigador que había dedicado toda una carrera a hacer exactamente eso, con rigor, donde lo que estaba en juego era humano. Ese investigador, el Dr. Georgiy Bobashev, imparte Agent-Based Modelling en DSTI desde entonces.

![Dr Georgiy Bobashev](https://media.dsti.school/assets/bobashev_georgiy.png)

### Dr. Georgiy Bobashev: modelar donde lo que está en juego es humano

El Dr Georgiy Bobashev es Senior Fellow y Senior Data Scientist en RTI International, Adjunct Professor en North Carolina State University y profesor de DSTI para Agent-Based Modelling. Su trabajo abarca ciencia de sistemas, epidemiología, poblaciones sintéticas e investigación sobre consumo de sustancias.

[Perfil público](https://www.rti.org/expert/georgiy-bobashev)[Google Scholar](https://scholar.google.com/citations?user=3nzWsiMAAAAJ&hl=en)

## 01 Qué es un modelo basado en agentes y a qué pregunta responde

Un modelo basado en agentes (ABM) es una descripción ascendente de un sistema. En lugar de escribir ecuaciones para la población en su conjunto, se especifican los individuos —los agentes—, se da a cada uno un pequeño conjunto de atributos y reglas, se los coloca en un entorno y quizá en una red, y se los deja interactuar. Una estructura que nadie programó directamente —agrupamientos, oleadas, puntos de inflexión, segregación, contagio— emerge de las interacciones locales. El linaje intelectual pasa por Growing Artificial Societies de Epstein y Axtell, que defendió que clases enteras de fenómenos sociales se entienden mejor haciéndolos emerger de abajo hacia arriba que postulándolos desde arriba.

Las demostraciones clásicas son deliberadamente sencillas. El modelo de segregación de Schelling, en el que apenas una preferencia individual moderada por no ser minoría local produce vecindarios marcadamente divididos; un modelo de distribución de la riqueza cuyas reglas de intercambio casi triviales se asientan en una curva de Pareto; el problema del bar El Farol, la depredación lobo–oveja, una bandada de pájaros: cada uno, un caso de macroestructura que ningún agente por sí solo pretendió ni podía ver. Bobashev plantea el contraste de forma memorable: un modelo de dinámica de sistemas es una orquesta clásica, donde cada músico sigue una misma partitura global; un modelo basado en agentes es una banda de jazz, donde la música es lo que emerge de músicos que reaccionan entre sí, de forma local y en el momento.

Sin embargo, el curso no empieza por los agentes. Empieza por una pregunta más exigente: ¿para qué modelar, en primer lugar, y qué tipo de modelo? Bobashev aborda el modelado desde la ciencia de sistemas, e insiste en que la elección de la herramienta siga al objetivo. Hay, en el planteamiento del curso, cuatro razones para construir un modelo — predecir un número , tomar una decisión , entender una relación o estimar un riesgo — y todo un espectro de familias de modelos entre las cuales elegir, ordenadas según cuánta estructura admiten: modelos estadísticos, modelos de Markov, modelos de dinámica de sistemas, microsimulaciones y —en el extremo, donde los agentes dejan de ser pasivos y empiezan a interactuar— modelos basados en agentes. Un ABM es la herramienta adecuada solo para algunos objetivos, y una parte sustancial de la enseñanza consiste en aprender a distinguir cuáles. El texto de referencia para esto es el de Railsback y Grimm, [Agent-Based and Individual-Based Modeling: A Practical Introduction](https://www.railsback-grimm-abm-book.com/), y la herramienta de laboratorio es [NetLogo](https://ccl.northwestern.edu/netlogo/).

Conexión con el plan de estudios. Bobashev imparte → Agent-Based Modelling (MSc in Data Science & AI y, desde 2025, el MSc in Data Analytics with AI), que se apoya en → Foundations of Statistical Analysis, Parts 1 & 2 : la base "FSML" de la escuela, impartida por el Dr. Christophe Bécavin y la Dra. Christine Malot. El modelado se sostiene sobre el razonamiento estadístico; el prerrequisito no es decorativo.

## 02 Construir un mundo a partir de evidencia, no de la nada

La disciplina crucial —y la respuesta a quien sospecha que los datos sintéticos no son más que "inventar"— es que no se inventan los datos de forma arbitraria. Se codifica en el mecanismo lo que realmente se conoce, y se deja que el mecanismo, y no los deseos de uno, produzca el resultado.

Los turistas de Corniglion nunca existieron, pero las reglas que seguían no eran ficción: desplazamiento peatonal, una probabilidad acotada de entrar a un comercio, gasto extraído de distribuciones ancladas a estimaciones de expertos, restricciones estructurales sobre la composición de los comercios tomadas de la observación directa. Los datos artificiales fueron una consecuencia de esas reglas basadas en evidencia, que es precisamente por lo que sus conclusiones resultaron interesantes en vez de circulares: el resultado sorprendente sobre la nacionalidad no se supuso, salió de la simulación.

El trabajo epidemiológico de Bobashev hace el mismo movimiento con un nivel de rigor mucho mayor. Para modelar cómo se mueve una infección por una ciudad se necesita una población que no venga en una sola fila: personas agrupadas en hogares, escuelas, lugares de trabajo y grupos sociales, que se mezclan a ritmos distintos. Esa población estructurada es sintética —y en RTI es un artefacto concreto, no una metáfora: un conjunto de datos de personas y hogares sintéticos anónimos, ubicados geográficamente y ajustados a las distribuciones del censo de Estados Unidos y de la American Community Survey hasta el nivel de manzana, con los alojamientos colectivos (residencias estudiantiles, residencias de adultos mayores, prisiones, bases militares) y con asignaciones de escuela y de lugar de trabajo que codifican la propia red de contactos ([RTI Synthetic Population viewer](https://synthpopviewer.rti.org/)). Ninguna persona real está en él; la estructura que impulsa la enfermedad, sí. La dinámica de la enfermedad no es entonces más que una consecuencia de quién se encuentra plausiblemente con quién: la miríada de encuestas de referencia que ninguna base de datos única reúne se vuelve, en conjunto, suficiente para restringir un modelo creíble. Es el mismo instinto que impulsa los datos sintéticos que preservan la privacidad en entornos regulados: reproducir la población , no a los individuos, de modo que ninguna persona real quede expuesta mientras se conserva la estructura que importa.

El planteamiento honesto es este: un conjunto de datos sintético solo vale tanto como la evidencia y el mecanismo que lo sustentan. Construido sin cuidado, blanquea supuestos en conclusiones. Construido bien, es una manera de razonar con rigor sobre un sistema que no se puede observar por completo.

## 03 Qué modelo, y a qué escala: la idea híbrida

Una de las contribuciones metodológicas más citadas de Bobashev muestra cómo luce la madurez en este campo. Junto con Joshua Epstein y colegas, abordó una tensión real del modelado de epidemias: los modelos basados en agentes capturan la interacción local y la variación individual que importan enormemente al inicio de un brote, cuando un puñado de casos o se apaga o se enciende, pero son pesados en cómputo. Los modelos basados en ecuaciones (compartimentales) son tratables e incluso analíticamente transparentes, pero suponen promedios bien mezclados que tergiversan precisamente esa fase inicial y estructurada ( A Hybrid Epidemic Model: Combining the Advantages of Agent-Based and Equation-Based Approaches , Bobashev, Goedecke, Yu & Epstein, Proceedings of the 2007 Winter Simulation Conference, pp. 1532–1537).

Su respuesta no fue tomar partido sino alternar: correr el modelo agente por agente mientras el número de infectados es pequeño y domina la variación individual, y luego, una vez que el conteo es lo bastante grande para que aplique la ley de los grandes números, ceder el paso a una descripción basada en ecuaciones mucho más barata, y volver a alternar si los números bajan de nuevo. El híbrido ahorra cómputo y , de forma más fundamental, permite analizar matemáticamente la estructura emergente que producen los agentes. Tratan al ABM completo como el "estándar de oro", el de mayor microdetalle, y preguntan exactamente cuándo es seguro usar una descripción más gruesa.

Hay para esto una razón matemática precisa, y Bobashev la enseña directamente. Cuando la respuesta de un sistema es no lineal, el promedio de los resultados no es el resultado del promedio: un hecho conocido como la desigualdad de Jensen. Un modelo estadístico o de dinámica de sistemas, de forma implícita, primero promedia y luego aplica la regla ; un modelo basado en agentes aplica la regla a cada individuo y promedia después . Para una respuesta curva (convexa o cóncava), estos dos órdenes dan resultados sistemáticamente distintos, y la brecha es máxima justo donde la variación individual es mayor y la regla se curva con más fuerza, es decir, en la fase inicial y estructurada de un brote. Ese es el sesgo que los agentes conservan y que el agregado borra. Visto así, el modelo híbrido es un enunciado disciplinado de cuándo esa distinción ha dejado de importar y un promedio más barato se ha vuelto seguro.

Esa es la lección transferible, y se generaliza mucho más allá de las epidemias: el rigor no es lealtad a un método favorito. Es ajustar el formalismo a la pregunta y a la escala , y saber cuándo la agregación está justificada y cuándo borraría justo aquello que se intenta ver.

## 04 ¿Por qué habría que confiar en un modelo?

Esta es, palabra por palabra, una de las preguntas del programa, y es donde el curso se gana su seriedad. Bobashev lo abre con el proverbio más antiguo del modelador — todos los modelos están equivocados, pero algunos son útiles (George Box)— y luego dedica tiempo real a lo que "útil" tiene que llegar a significar. Una simulación que corre y produce imágenes de apariencia plausible es el artefacto más peligroso de las ciencias computacionales, porque la plausibilidad no es validez.

Las dificultades honestas son bien conocidas y se enseñan como tales:

- La validación está estratificada, y la mayoría de las capas no son la obvia. El curso las distingue con cuidado: la verificación (¿el código hace realmente lo que escribiste, sin errores?); la validación interna , que es lo que da la calibración (¿las entradas y las salidas son consistentes con los datos con los que construiste el modelo?); la validación externa (¿coincide con datos a los que no fue ajustado?); la validación cruzada frente a otros modelos; la validez predictiva; y la simple validez aparente. Ajustar un modelo hasta que reproduce datos conocidos solo supera la segunda de estas etapas, y suele confundirse con la tercera.

- Equifinalidad. Muchas configuraciones de parámetros distintas —e incluso mecanismos distintos— pueden producir la misma salida. Un buen ajuste no aísla una explicación verdadera, y tratarlo como si lo hiciera es un error común.

- Descubrimiento o artefacto. Cuando las reglas provienen del criterio experto, es fácil incrustar la conclusión deseada en los supuestos y luego "descubrirla". Pero el fracaso opuesto es igual de real: si un modelo teórico no hace más que confirmar el sentido común, no ha enseñado nada, y cuando produce algo sorprendente la primera pregunta es siempre si se trata de un hallazgo genuino o de un artefacto del modelo. La defensa es la misma en ambas direcciones: derivar resultados que no se supusieron y poner a prueba la sensibilidad ante cada elección incierta.

- El mapa y el territorio. Un modelo es un argumento sobre un sistema, no el sistema mismo. Su valor está en una exploración disciplinada y refutable, no en la autoridad de una salida de apariencia segura.

El curso es, en consecuencia, preciso sobre las tres cosas que la gente suele mezclar: la sensibilidad (cuánto se mueven los resultados cuando se modifican los parámetros o las condiciones iniciales), la incertidumbre (cómo la incertidumbre de los parámetros se propaga a la fiabilidad de la salida) y la robustez (si la conclusión sobrevive a un cambio en la estructura del modelo, y no solo en sus números). El principal instrumento del campo para hacer todo esto inspeccionable es el protocolo ODD (Overview, Design concepts, Details), una estructura estándar para describir por completo un modelo basado en agentes de modo que otro investigador pueda escudriñarlo y reproducirlo ([Grimm et al., JASSS , actualización de 2020](https://www.jasss.org/23/2/7.html)). El curso de DSTI enseña la construcción de modelos a través de ODD, junto con el análisis de incertidumbre, la interpretación, la documentación y la presentación: las partes poco glamorosas que separan un resultado de una captura de pantalla. El propio trabajo publicado de Bobashev encarna esta contención: el artículo híbrido tiene cuidado de señalar dónde queda validación pendiente, en lugar de afirmar de más.

La postura de DSTI. Un modelo no es un sustituto de la evidencia; es una manera de razonar cuando la evidencia es incompleta. La habilidad que enseñamos no es "correr simulaciones": es saber qué puede, y qué no puede, decir con confianza una simulación, y ser capaz de defender la respuesta.

## 05 Hacerlo correr: agentes, cómputo y reproducibilidad

Construidos con honestidad, los ABM también son exigentes de ejecutar. Explorar un modelo significa barrer sus parámetros y repetir muchas veces ejecuciones estocásticas, lo cual rebasa rápidamente una laptop. Esto es ingeniería tanto como ciencia, y es un terreno que se reconoce con claridad como propio de DSTI.

El trabajo reciente de Bobashev con Michael Duprey es una guía práctica para ejecutar modelos NetLogo a gran escala en infraestructura cloud ([Enhancing Computational Efficiency in NetLogo: Best Practices for Running Large-Scale Agent-Based Models on AWS and Cloud Infrastructures](https://arxiv.org/abs/2602.15317), 2026). Es justo el tipo de detalle operativo que los estudiantes necesitan: ajuste de memoria y de la JVM, barridos de parámetros con BehaviorSpace, y elección de la familia de instancias de AWS según si un modelo está limitado por cómputo o por memoria, una comparación que, en un banco de pruebas estándar, encontró una instancia optimizada para cómputo alrededor de un tercio más barata que una optimizada para memoria, a igual trabajo. Dos de sus temas merecen subrayarse más allá del ahorro de costo. El primero es la reproducibilidad : inicializar cada ejecución de forma determinista para que los resultados puedan regenerarse de manera idéntica, una virtud científica y no una mera comodidad de ingeniería. El segundo es la sostenibilidad computacional : una simulación más eficiente es menos energía, menos costo y menos desperdicio, que es el mismo principio que DSTI enseña a lo largo de todo su plan de ingeniería.

## 06 Donde lo que está en juego es humano

Sería posible enseñar todo esto con problemas de juguete. Bobashev no lo hace, y la elección de los problemas es en sí misma parte de lo que los estudiantes absorben. Su investigación se sitúa, por diseño deliberado, donde los datos son más escasos, más sensibles y más trascendentes: la salud pública y el consumo de sustancias.

Su grupo ha usado el modelado basado en agentes y el modelado estadístico para estudiar el efecto combinado de los medicamentos para el trastorno por consumo de opioides y la naloxona sobre las muertes por sobredosis a lo largo de los condados de Nueva York ([Cerdá et al., Epidemiology , 2024](https://doi.org/10.1097/EDE.0000000000001703)); la transmisión del VIH entre personas que se inyectan drogas, incluido el periodo de la COVID-19 ([Des Jarlais, Bobashev et al., Drug and Alcohol Dependence , 2022](https://doi.org/10.1016/j.drugalcdep.2022.109573)); y el desvío de buprenorfina examinado desde la óptica de la reducción de daños en lugar de una óptica puramente punitiva (Adams et al., Harm Reduction Journal , 2023). Su trabajo en métodos estadísticos está al mismo servicio: el paquete de R [mobForest](https://doi.org/10.1186/1471-2105-14-125), de particionamiento recursivo basado en modelos con Random Forest, se demostró con datos de tratamiento de la dependencia del alcohol (Garge, Bobashev & Eggleston, BMC Bioinformatics , 2013).

Estos son precisamente los entornos donde no se puede simplemente recolectar el conjunto de datos —por razones de privacidad, ética, estigma y ley— y donde equivocarse en el modelado tiene un costo humano. El subtítulo de este artículo — mundos a la altura de una decisión — no es retórico en su trabajo: la misma familia de modelos se puso en servicio durante la pandemia de COVID-19 para pronosticar, de manera continua, la demanda regional de camas de hospital y de cuidados intensivos, el tipo de resultado a partir del cual una autoridad de salud pública planifica de verdad. Es aquí donde el planteamiento del curso, que presenta un modelo basado en agentes como, en efecto, un sistema de inteligencia artificial para toda una sociedad —una población de agentes que toman decisiones y cuyo comportamiento colectivo se puede interrogar—, deja de ser un eslogan. Constituyen un argumento discreto: modelar a partir de evidencia no es un parche para los datos que faltan, sino, manejado con responsabilidad, una manera de razonar sobre intervenciones que importan. El cuidado se nota en la elección de las preguntas.

[MSc in Data Science & AI](https://dsti.school/es/msc-data-science-ai#curriculum)[MSc in Data Analytics with AI](https://dsti.school/es/msc-data-analytics-ai#curriculum)

## 07 El curso en DSTI

Agent-Based Modelling se imparte dentro del MSc in Data Science & AI y del MSc in Data Analytics with AI , por el Dr. Georgiy Bobashev. La ruta de Data Analytics with AI se añadió en 2025, por recomendación del Consejo Científico Asesor de DSTI —el mismo organismo que en su momento trajo a Bobashev a la escuela—, que consideró que la disciplina de modelar a partir de evidencia importa tanto para los analistas de datos como para los especialistas en IA. El curso supone la base estadística de la escuela —el prerrequisito "FSML", es decir, Foundations of Statistical Analysis, Part 1 (Dr. Christophe Bécavin) y Part 2 (Dra. Christine Malot); en DSTI son conocimientos que se espera repasar, no extras opcionales. La referencia central es Railsback y Grimm; el entorno de trabajo es NetLogo, que los estudiantes instalan y usan desde el primer laboratorio.

Se desarrolla como una secuencia intensiva de jornadas que combinan clase magistral y laboratorio. El recorrido va de ¿para qué modelar? a las familias de la ciencia de sistemas y al ajuste del método al objetivo, hacia el protocolo ODD y los componentes de un ABM —agentes, reglas, entornos, redes—, y luego a construir, ejecutar y analizar modelos en el laboratorio, de forma individual y en equipo, antes de cerrar con la calibración, la validación y la relación entre el ABM y la IA. La evaluación es un proyecto, y la propia consigna enseña las dos mitades del oficio: cada estudiante construye un modelo funcional en NetLogo o documenta por completo uno complejo mediante el protocolo ODD. El estándar que fija Bobashev es el mismo que este artículo ha intentado honrar: producir algo en lo que alguien tenga una razón para confiar .

## Cierre: un tipo honesto de datos

La ciencia de datos dedica la mayor parte de su atención a la abundancia. Este curso es un contrapeso deliberado: un tratamiento serio de qué hacer cuando los datos están ausentes, fragmentados o, con razón, fuera de alcance, lo cual, para muchísimas preguntas reales, es la condición normal y no la excepción. La respuesta no es inventar datos y confiar en la suerte. Es construir un mecanismo a partir de evidencia genuina, ser implacable con la validación y tener siempre claro que un modelo es un argumento, no un oráculo.

Es justo que el curso exista por una admisión y no por un título: un fundador que conocía los límites de su propia autoridad sobre el tema, un miembro del consejo que conocía a la persona indicada y un investigador que ha dedicado una carrera a hacer esto donde de verdad cuenta. Esa es la versión de la experticia que DSTI procura enseñar: no la confianza para simular, sino el criterio para saber cuánto vale una simulación.

## Referencias y fuentes

Profesorado de DSTI y trabajo originario

- Corniglion, S. & Tournois, N. (2012). [Towards a Numerical, Agent-Based, Behaviour Analysis: The Case of Tourism.](https://doi.org/10.1007/978-3-642-27609-5_6) En Agents and Data Mining Interaction (ADMI 2011), LNAI 7103, pp. 58–85. Springer.

- Bobashev, G. V., Goedecke, D. M., Yu, F. & Epstein, J. M. (2007). A Hybrid Epidemic Model: Combining the Advantages of Agent-Based and Equation-Based Approaches. Proceedings of the 2007 Winter Simulation Conference, pp. 1532–1537.

- Duprey, M. A. & Bobashev, G. V. (2026). [Enhancing Computational Efficiency in NetLogo: Best Practices for Running Large-Scale Agent-Based Models on AWS and Cloud Infrastructures.](https://arxiv.org/abs/2602.15317) Preprint de arXiv.

- Garge, N. R., Bobashev, G. & Eggleston, B. (2013). [Random forest methodology for model-based recursive partitioning: the mobForest package for R.](https://doi.org/10.1186/1471-2105-14-125) BMC Bioinformatics 14:125.

- Cerdá, M., Bobashev, G., Epstein, J. M. et al. (2024). [Simulating the simultaneous impact of medication for opioid use disorder and naloxone on opioid overdose death in eight New York counties.](https://doi.org/10.1097/EDE.0000000000001703) Epidemiology 35(3):418–429.

- Des Jarlais, D., Bobashev, G., Feelemyer, J. & McKnight, C. (2022). [Modeling HIV transmission among persons who inject drugs (PWID)…](https://doi.org/10.1016/j.drugalcdep.2022.109573) Drug and Alcohol Dependence 238:109573.

- Adams, J. W., Duprey, M., Bobashev, G. et al. (2023). Examining buprenorphine diversion through a harm reduction lens: an agent-based modeling study. Harm Reduction Journal 20:150.

Método y fundamentos

- Epstein, J. M. & Axtell, R. (1996). Growing Artificial Societies: Social Science from the Bottom Up. MIT Press.

- Railsback, S. F. & Grimm, V. [Agent-Based and Individual-Based Modeling: A Practical Introduction.](https://www.railsback-grimm-abm-book.com/) Princeton University Press.

- Grimm, V. et al. (2020). [The ODD Protocol for Describing Agent-Based and Other Simulation Models: A Second Update.](https://www.jasss.org/23/2/7.html) JASSS 23(2):7.

- Wilensky, U. (1999). [NetLogo.](https://ccl.northwestern.edu/netlogo/) Center for Connected Learning, Northwestern University.

- RTI International. [Synthetic Population viewer.](https://synthpopviewer.rti.org/)

Sobre la escasez de datos, la fragmentación y los datos sintéticos

- IBM. [What is data fragmentation?](https://www.ibm.com/think/topics/data-fragmentation)

- MIT Sloan. [What is synthetic data — and how can it help you competitively?](https://mitsloan.mit.edu/ideas-made-to-matter/what-synthetic-data-and-how-can-it-help-you-competitively)

- Gartner. [Top Data & Analytics Predictions for 2025 and beyond.](https://www.gartner.com/en/newsroom/press-releases/2025-06-17-gartner-announces-top-data-and-analytics-predictions)

- Cifras atribuidas en el texto a IDC, Forrester y a la encuesta de 2024 Trends in Data Management de DATAVERSITY (tiempo de preparación de los científicos de datos y "silos de datos como principal preocupación").

Personas

- Dr. Gregory Piatetsky-Shapiro — [perfil de KDnuggets](https://www.kdnuggets.com/gps.html) · [Wikipedia](https://en.wikipedia.org/wiki/Gregory_Piatetsky-Shapiro)

- Dr. Georgiy Bobashev — [perfil de RTI](https://www.rti.org/expert/georgiy-bobashev)