# Escalar un Random Forest sin perder el rigor estadístico

HTML canónico: https://dsti.school/es/techblog/random-forest-big-data-aprendizaje-automatico

Esta versión Markdown se genera con el mismo build del sitio estático de DSTI que la página HTML canónica. Está pensada para facilitar la lectura automática y la consulta concisa.

[DSTI TechBlog](https://dsti.school/es/techblog)  /  AI is maths

Cuerpo docente AI is maths

Los modelos Random Forest parecen hechos para big data: hacer crecer los árboles de forma independiente, distribuir el trabajo y combinar los votos. Christine Tuleau-Malot y sus colegas mostraron que el reto central es preservar la lógica de muestreo, los diagnósticos y el significado estadístico del modelo cuando los datos se dividen — o nunca dejan de llegar. Los mismos mecanismos de error out-of-bag e importancia de variables también dieron origen a VSURF, conectando la investigación estadística con un paquete reutilizable de R.

CM Enfoque de investigación: Dra. Christine Malot y coautores Publicada como Christine Tuleau-Malot · copresidenta del Consejo Científico y Consultivo de DSTI

22 jun 2026 17 min de lectura investigación publicada en 2015

Random-Forest bootstrap out-of-bag importancia-de-variables VSURF paquete-R aprendizaje-distribuido flujos-de-datos

## La historia engañosamente sencilla del escalamiento

Árboles en paralelo

T₁ T₂ T₃

Cada árbol puede construirse de manera independiente. Agregar procesadores realmente puede acelerar el cálculo.

≠

Datos particionados

D₁ D₂ D₃

Cada máquina puede ver una población diferente. Combinar los ensambles quizá ya no reproduzca un único experimento global.

La idea más contundente del artículo: el paralelismo computacional es sencillo; lo que debe demostrarse es la equivalencia estadística.

No toda la inteligencia artificial es una red neuronal. Random Forest es una de las demostraciones más claras de que el aprendizaje automático es una construcción matemática: el remuestreo cambia los datos que ve cada modelo, la aleatorización cambia las decisiones disponibles para cada árbol y la agregación convierte muchos predictores inestables en uno robusto. Cuando los datos son demasiado grandes para una sola máquina — o llegan como flujo — cada parte de esa construcción debe sobrevivir al cambio de ingeniería.

La pregunta útil no es simplemente: “¿Puede el algoritmo funcionar a gran escala?” Sino: “Después de escalarlo, ¿seguimos estimando lo mismo y aún podemos detectar cuándo está equivocado?”

## 01 La parte sencilla: Random Forest ya contiene trabajo paralelizable

El artículo de 2015 de Robin Genuer, Jean-Michel Poggi, Christine Tuleau-Malot y Nathalie Villa-Vialaneix parte de una ventaja evidente. Un modelo Random Forest es un ensamble de muchos árboles de decisión. Los árboles se hacen deliberadamente distintos entre sí y después se agregan sus predicciones — mediante voto mayoritario para clasificación o promedio para regresión. Como un árbol no necesita esperar a que termine el anterior, el ensamble parece intrínsecamente paralelizable.

Esa observación es correcta, pero incompleta. Describe cómo distribuir los árboles . Big data con frecuencia nos obliga a distribuir los datos mismos , y no se trata de la misma operación.

01 Remuestrear
Extraer con reemplazo una muestra bootstrap a partir de los datos de entrenamiento.

02 Aleatorizar divisiones
En cada nodo, considerar únicamente un subconjunto aleatorio de variables predictoras.

03 Crecer por completo
Construir el árbol de decisión aleatorizado sin el paso habitual de poda.

04 Agregar
Combinar muchos árboles en un voto de clasificación o un promedio de regresión.

Esta distinción entre el paralelismo a nivel de árboles y el particionamiento a nivel de datos es la primera enseñanza duradera del artículo. Un sistema distribuido puede acelerar el código mientras modifica silenciosamente el experimento estadístico que lo sustenta.

## 02 El bootstrap no solo sirve para mantener ocupados los procesadores

Para un conjunto de entrenamiento de n observaciones, una muestra bootstrap clásica contiene n extracciones realizadas con reemplazo . Algunas observaciones aparecen varias veces; otras no se seleccionan. Ese patrón no es un detalle de implementación. Es uno de los mecanismos matemáticos que crea diversidad entre los árboles.

Cuántas veces se selecciona una observación

**Equation**

```text
K_{i} ∼ Binomial(n, 1/n) → Poisson(1)
```

A medida que crece el conjunto de datos, el número de copias de una observación particular dentro de una muestra bootstrap se aproxima bien mediante una distribución de Poisson con media 1.

Probabilidad de que quede fuera

**Equation**

```text
P(K_{i} = 0) = (1 − 1/n)^{n} → e^{−1} ≈ 0.368
```

Aproximadamente 36.8% de las observaciones quedan fuera de la muestra bootstrap de un árbol determinado. Esas son sus observaciones out-of-bag.

### Laboratorio bootstrap

Realizar 12 extracciones con reemplazo entre 12 observaciones. Las etiquetas repetidas se utilizan para entrenar el árbol; las observaciones que nunca aparecen se convierten en su conjunto de prueba out-of-bag.

Población de entrenamiento

Conteos bootstrap — dorado indica out-of-bag

— observaciones out-of-bag

— proporción en esta muestra

36.8% límite teórico para n grande

Las variantes en línea revisadas en el artículo utilizan esta convergencia en sentido inverso: cuando llega una nueva observación, cada árbol se actualiza k veces, con k extraído de una distribución Poisson(1). Es una forma compacta de imitar las multiplicidades que habría producido un bootstrap por lotes, sin almacenar ni remuestrear todo el historial de datos.

## 03 Los datos out-of-bag son el diagnóstico integrado de Random Forest

Una observación excluida de la muestra bootstrap de un árbol puede probar ese árbol porque no fue entrenado con ella. En todo el Random Forest, cada observación es out-of-bag para un subconjunto de árboles. Sus predicciones pueden combinarse en un error out-of-bag , lo que proporciona al modelo una estimación interna del desempeño predictivo sin reservar una muestra de validación independiente.

El mismo mecanismo permite calcular la importancia de variables por permutación. Se toma la muestra out-of-bag de un árbol, se mezclan los valores de una variable predictora y se mide cuánto aumenta el error. Si destruir la relación aportada por esa variable perjudica la predicción, la variable era importante para el árbol.

Importancia por permutación, en términos conceptuales

**Equation**

$$
\mathrm{VI}(X^j) = \frac{1}{Q} \sum_{t} \left( \widetilde{\mathrm{errTree}}_{t}^{\,j} - \mathrm{errTree}_{t} \right)
$$

Promedio, sobre los árboles, del error out-of-bag adicional causado por permutar la variable predictora X j .

Aquí el artículo se convierte en algo más que una revisión de implementaciones más rápidas. Sus autores tratan la estimación del error y la importancia de variables como partes del método, no como reportes opcionales. Un sistema escalado que todavía produce predicciones, pero pierde sus diagnósticos confiables, no necesariamente sigue siendo el mismo Random Forest.

## 04 Cuando los diagnósticos se convierten en método: VSURF

El error out-of-bag y la importancia por permutación también se convirtieron en el motor de una línea de trabajo relacionada. Robin Genuer, Jean-Michel Poggi y Christine Tuleau-Malot — el trío central compartido por ambos proyectos de investigación — desarrollaron un procedimiento de selección de variables y lo publicaron como VSURF , un paquete de R distribuido mediante CRAN.

La conexión es directa. El trabajo sobre big data pregunta qué sucede cuando una implementación escalable ya no puede reproducir el error OOB clásico ni la importancia de variables. VSURF muestra todo lo que esas cantidades pueden hacer cuando se preservan: ordenan las variables predictoras, identifican un umbral de ruido determinado por los datos, comparan modelos Random Forest anidados y deciden si una variable adicional mejora lo suficiente la predicción como para conservarla.

Un método, dos objetivos científicos

### La selección de variables depende del propósito del análisis

VSURF · Variable Selection Using Random Forests

Conjunto de interpretación
Conservar las variables fuertemente relacionadas con la respuesta, incluyendo redundancia útil. En imagenología o datos funcionales, las variables predictoras correlacionadas pueden describir una región completa o una estructura científica que vale la pena comprender.

Conjunto de predicción
Construir un subconjunto más pequeño y menos redundante que siga siendo suficiente para una predicción precisa. El objetivo es un modelo operativo compacto, no un mapa completo de todas las variables asociadas.

01 Umbral
Promediar la importancia por permutación a través de múltiples ejecuciones de Random Forest, estimar la variabilidad asociada con variables predictoras no informativas y eliminar las que quedan por debajo del umbral determinado por los datos.

02 Interpretar
Comparar modelos Random Forest anidados construidos a partir de las variables ordenadas y conservar un modelo compacto cuyo error OOB permanezca dentro de la incertidumbre del mejor resultado observado.

03 Predecir
Introducir de forma secuencial las variables ordenadas y conservar una nueva variable únicamente cuando su reducción del error OOB supere un umbral estimado a partir de la cola ruidosa.

```r
library(VSURF)
selection <- VSURF(x = predictors, y = response)
summary(selection)
```

El paquete hace operativa la investigación para regresión y clasificación supervisada, incluso en contextos de alta dimensionalidad. Sus cálculos también pueden paralelizarse preservando la generación reproducible de números aleatorios.

Cuando una implementación escalable pierde el error OOB o la importancia de variables, pierde más que una gráfica de diagnóstico. Puede perder las cantidades matemáticas necesarias para seleccionar variables de manera reproducible .

## 05 La trampa del paralelismo: los fragmentos rara vez son poblaciones aleatorias

Una adaptación común con MapReduce divide un conjunto de datos muy grande en fragmentos más pequeños, construye un modelo Random Forest de manera independiente en cada fragmento y combina todos los árboles. Computacionalmente resulta atractivo; estadísticamente puede ser peligroso.

Los datos reales almacenados en disco suelen estar ordenados por tiempo, geografía, sistema de adquisición, cliente, clase u otra forma de proximidad. Si se envían fragmentos contiguos a nodos de procesamiento distintos, cada modelo puede aprender una población diferente.

### Partición contigua

Cada nodo de procesamiento recibe un fragmento localmente homogéneo.

Los modelos de los nodos de procesamiento solo ven, respectivamente, mundos A, B y C.

### Partición aleatoria o estratificada

Cada nodo de procesamiento recibe una mezcla más representativa.

Cada modelo local ve una miniatura de la población global.

1 — Sesgo de proximidad
Los registros vecinos en disco pueden compartir atributos, por lo que los fragmentos ingenuos no son muestras aleatorias.

2 — Modelos heterogéneos
Los modelos Random Forest locales pueden ser tan distintos que promediar todos sus árboles no tenga un significado estadístico claro.

3 — El problema del tamaño del bootstrap
El comportamiento de un m -out-of- n bootstrap depende considerablemente de m , un parámetro difícil de ajustar dentro de un esquema distribuido sencillo.

4 — Los diagnósticos desaparecen
Los nodos de procesamiento pierden los índices globales de entrenamiento necesarios para reconstruir el error out-of-bag clásico y la importancia de variables.

Promediar muchos modelos Random Forest locales no recrea automáticamente un Random Forest entrenado con la población global .

## 06 Cuando los datos no se detienen, el experimento vuelve a cambiar

En un entorno en línea, el algoritmo de aprendizaje ve la observación actual, pero quizá no conserve todas las observaciones anteriores. El modelo debe actualizarse conforme llegan los datos. Los modelos Random Forest en línea revisados por los autores combinan Poisson online bagging, Extremely Randomized Trees y estadísticas incrementales en los nodos.

nueva observación
(x t , y t )
draw k ∼ Poisson(1)
para cada árbol
actualizar el árbol k veces
o probarlo cuando k = 0

Si k = 0 , la observación actual es out-of-bag para ese árbol y puede actualizar su estimación del error. Sin embargo, el artículo señala la aproximación: después de que el árbol cambia con datos posteriores, esa predicción anterior no puede recalcularse a menos que la observación se haya almacenado. Por lo tanto, la estimación OOB en línea no es idéntica a la cantidad clásica por lotes.

Preservar la importancia de variables es todavía más difícil. La importancia por permutación requiere mezclar una variable dentro de una muestra out-of-bag. Si el flujo se descarta después de procesarse, no queda nada que permutar. La restricción computacional elimina el objeto requerido por la definición estadística.

### Ese es el núcleo de “AI is maths”

El algoritmo no es únicamente el código que produce una predicción. También incluye el experimento de muestreo, la estimación del error y la definición de importancia. Si cambia el ciclo de vida de los datos, quizá sea necesario redefinir esos objetos matemáticos.

## 07 Varias rutas preservan distintas partes del método

Los autores presentan varias rutas para preservar mejor el significado del método bajo restricciones de big data. Distintas formas de escalamiento exigen compromisos diferentes, y la elección debe seguir la propiedad estadística que más importe.

01 Particionar de forma deliberada
Aleatorizar o estratificar los datos antes de distribuirlos, especialmente con respecto a la variable de respuesta, en lugar de confiar en el orden físico de almacenamiento.

02 Usar Bag of Little Bootstraps
Construir muestras bootstrap de tamaño nominal n a partir de solo m ≪ n observaciones distintas, preservando la lógica de remuestreo mientras se reduce la carga computacional.

03 Reducir el costo de cada árbol
Utilizar familias de árboles más fuertemente aleatorizadas, como Extremely Randomized Trees, Perfect Random Tree Ensembles o Purely Random Forests.

04 Ponderar modelos, no solo árboles
Tratar el resultado como un conjunto de modelos Random Forest locales y adaptar el voto para tomar en cuenta el sesgo de muestreo, en vez de combinar indiscriminadamente todos los árboles.

05 Actualizar en vez de reconstruir
Utilizar Random Forest en línea para abordar tanto el volumen como la velocidad, procesando únicamente la parte del flujo necesaria para alcanzar una precisión adecuada.

06 Mantener los diagnósticos dentro del diseño
Evaluar una variante escalable por lo que preserva del error OOB y la importancia de variables, no solo por su rendimiento.

## 08 Por qué estos trabajos relacionados siguen siendo un excelente recurso didáctico

MapReduce ya no es el tema de moda que era en 2015. El problema subyacente no ha envejecido: el aprendizaje distribuido sigue particionando observaciones, los sistemas de streaming siguen olvidando el historial y las restricciones de producción siguen tentando a los profesionales de ingeniería a tratar un estimador definido matemáticamente como intercambiable con cualquier implementación que produzca predicciones de apariencia similar.

El valor del artículo reside en negarse a confundir escalabilidad con validez. Plantea cuatro preguntas que siguen siendo útiles cada vez que un método de aprendizaje automático pasa de un notebook a una infraestructura:

- ¿Qué distribución ve realmente cada nodo de procesamiento?

- ¿Qué aleatoriedad es esencial para el estimador y cuál es meramente computacional?

- ¿Todavía podemos estimar el error sin contaminar las observaciones de prueba?

- ¿Todavía podemos explicar qué variables importan bajo el nuevo ciclo de vida de los datos?

Son preguntas matemáticas expresadas mediante la arquitectura de sistemas. Las máquinas, la organización del almacenamiento y la estrategia de actualización forman parte del modelo estadístico, lo reconozcamos o no.

VSURF aporta la enseñanza complementaria. Cuando el error OOB y la importancia de variables se preservan cuidadosamente, pueden impulsar un flujo de selección de principio a fin, distinguir interpretación de predicción y convertirse en software que otras personas dedicadas a la investigación y la ingeniería puedan aplicar a sus propios datos.

La pregunta difícil no es si el código puede ejecutarse en muchas máquinas. Es si el resultado sigue siendo el mismo objeto estadístico — y si sus matemáticas siguen siendo utilizables.

## 09 La investigación detrás de este artículo

Artículo de congreso original

### Random forests and big data

Robin Genuer, Jean-Michel Poggi, Christine Tuleau-Malot y Nathalie Villa-Vialaneix. Presentado en las 47es Journées de Statistique de la Société Française de Statistique, en Lille, en junio de 2015 .

Método y software relacionados

### VSURF: An R Package for Variable Selection Using Random Forests

Robin Genuer, Jean-Michel Poggi y Christine Tuleau-Malot. Publicado en The R Journal , volumen 7, número 2, páginas 19–33, 2015 . DOI: 10.32614/RJ-2015-018.

El artículo revisado por pares explica la estrategia de selección y su implementación; el paquete hace que el método pueda utilizarse directamente en R.

Vínculo con el cuerpo docente y trayectoria de investigación

### Dra. Christine Malot

Publicada en la literatura científica con su nombre completo, Christine Tuleau-Malot. En DSTI, copreside con Pr Fabien Gandon el Consejo Científico y Consultivo de DSTI.

Su doctorado de 2005 sobre selección de variables para discriminación de alta dimensionalidad y clasificación de datos funcionales fue dirigido por [Pr Jean-Michel Poggi](https://www.imo.universite-paris-saclay.fr/fr/perso/jean-michel-poggi/). Sus trabajos posteriores con Robin Genuer prolongan esta relación de investigación mediante un método estadístico, un artículo de software revisado por pares y el paquete VSURF.

Imparte Foundations of Statistical Analysis - Part 2 y Advanced Statistical Analysis en el [MSc in Data Science & AI](https://dsti.school/es/msc-data-science-ai#curriculum), así como Mathematics Harmonisation en el [BSc Computer Science & Engineering](https://dsti.school/es/bsc-informatica-ingenieria#curriculum).

Continuación del trabajo sobre big data

### Random Forests for Big Data

Los cuatro autores desarrollaron la contribución del congreso en un artículo más extenso publicado en Big Data Research en 2017 . Amplía la revisión y la discusión de variantes de Random Forest escalables.

Desde el artículo de congreso hasta su extensión en revista y VSURF, el tema común es consistente: las definiciones matemáticas, los diagnósticos y las decisiones de implementación pertenecen a un solo objeto de ingeniería.

Nota editorial. Este artículo del DSTI TechBlog es una interpretación educativa de la investigación citada, escrita para la serie “AI is maths”. No se presenta como un artículo científico nuevo ni atribuye la redacción editorial a las personas investigadoras. La notación matemática se simplificó cuando mejora la legibilidad; el artículo original sigue siendo la fuente de referencia.
