# Faire passer une forêt aléatoire à l’échelle sans perdre la rigueur statistique

HTML canonique: https://dsti.school/fr/techblog/forets-aleatoires-big-data-apprentissage-automatique

Cette version Markdown est générée par le même build du site statique DSTI que la page HTML canonique. Elle est destinée à la lisibilité machine et à une consultation concise.

[DSTI TechBlog](https://dsti.school/fr/techblog)  /  AI is maths

Corps enseignant AI is maths

Les forêts aléatoires semblent faites pour le big data : faire croître les arbres indépendamment, répartir le calcul, combiner les votes. Christine Tuleau-Malot et ses collègues ont montré que le véritable défi consiste à préserver la logique d’échantillonnage, les diagnostics et le sens statistique de la forêt lorsque les données sont réparties — ou n’arrêtent jamais d’arriver. Les mêmes mécanismes d’erreur out-of-bag et d’importance des variables ont également donné naissance à VSURF, reliant la recherche statistique à un package R réutilisable.

CM Éclairage recherche : Dr Christine Malot et ses coauteurs Publiée sous le nom de Christine Tuleau-Malot · co-présidente du Conseil scientifique et consultatif de DSTI

22 juin 2026 17 min de lecture recherche publiée en 2015

forêts-aléatoires bootstrap out-of-bag importance-des-variables VSURF package-R apprentissage-distribué flux-de-données

## L’histoire trompeusement simple du passage à l’échelle

Arbres parallèles

T₁ T₂ T₃

Chaque arbre peut être construit indépendamment. Ajouter des processeurs peut réellement accélérer le calcul.

≠

Données partitionnées

D₁ D₂ D₃

Chaque machine peut voir une population différente. Combiner les forêts peut alors ne plus reproduire une expérience globale unique.

L’idée la plus percutante de l’article : le parallélisme de calcul est simple ; c’est l’équivalence statistique qu’il faut démontrer.

Toute intelligence artificielle n’est pas un réseau de neurones. Les forêts aléatoires montrent particulièrement bien que l’apprentissage automatique est une construction mathématique : le rééchantillonnage modifie les données vues par chaque modèle, l’aléa modifie les décisions accessibles à chaque arbre et l’agrégation transforme de nombreux prédicteurs instables en un prédicteur robuste. Lorsque les données deviennent trop volumineuses pour une seule machine — ou arrivent sous forme de flux — chaque composante de cette construction doit résister au changement d’architecture.

La bonne question n’est pas simplement : « L’algorithme peut-il fonctionner à grande échelle ? » Mais plutôt : « Après le passage à l’échelle, estimons-nous toujours le même objet — et pouvons-nous encore détecter une erreur ? »

## 01 La partie simple : les forêts comportent déjà du travail parallélisable

L’article de 2015 de Robin Genuer, Jean-Michel Poggi, Christine Tuleau-Malot et Nathalie Villa-Vialaneix part d’un avantage évident. Une forêt aléatoire est un ensemble composé de nombreux arbres de décision. Les arbres sont volontairement rendus différents les uns des autres, puis leurs prédictions sont agrégées — par vote majoritaire pour la classification ou par moyenne pour la régression. Comme un arbre n’a pas besoin d’attendre que le précédent soit terminé, la forêt paraît naturellement parallélisable.

Cette observation est juste, mais incomplète. Elle décrit comment répartir les arbres . Le big data nous oblige souvent à répartir les données elles-mêmes , et il ne s’agit pas de la même opération.

01 Rééchantillonner
Tirer avec remise un échantillon bootstrap à partir des données d’apprentissage.

02 Randomiser les divisions
À chaque nœud, ne considérer qu’un sous-ensemble aléatoire des variables prédictives.

03 Développer entièrement
Construire l’arbre de décision randomisé sans l’étape habituelle d’élagage.

04 Agréger
Combiner de nombreux arbres en un vote de classification ou une moyenne de régression.

Cette distinction entre le parallélisme au niveau des arbres et le partitionnement au niveau des données est le premier enseignement durable de l’article. Un système distribué peut accélérer le code tout en modifiant discrètement l’expérience statistique qui le sous-tend.

## 02 Le bootstrap ne sert pas seulement à occuper les processeurs

Pour un ensemble d’apprentissage de n observations, un échantillon bootstrap classique contient n tirages effectués avec remise . Certaines observations apparaissent plusieurs fois ; d’autres ne sont jamais sélectionnées. Cette configuration n’est pas un détail d’implémentation. Elle constitue l’un des mécanismes mathématiques qui créent de la diversité entre les arbres.

Nombre de sélections d’une observation

**Equation**

```text
K_{i} ∼ Binomial(n, 1/n) → Poisson(1)
```

Lorsque le jeu de données grandit, le nombre de copies d’une observation donnée dans un échantillon bootstrap est bien approché par une loi de Poisson de moyenne 1.

Probabilité qu’elle soit exclue

**Equation**

```text
P(K_{i} = 0) = (1 − 1/n)^{n} → e^{−1} ≈ 0.368
```

Environ 36,8 % des observations sont absentes de l’échantillon bootstrap d’un arbre donné. Ce sont ses observations out-of-bag.

### Laboratoire bootstrap

Effectuer 12 tirages avec remise parmi 12 observations. Les étiquettes répétées servent à entraîner l’arbre ; les observations qui n’apparaissent jamais constituent son ensemble de test out-of-bag.

Population d’apprentissage

Comptages bootstrap — le doré signale les observations out-of-bag

— observations out-of-bag

— part dans ce tirage

36.8% limite théorique pour un grand n

Les variantes en ligne étudiées dans l’article utilisent cette convergence en sens inverse : lorsqu’une nouvelle observation arrive, chaque arbre est mis à jour k fois, avec k tiré selon une loi Poisson(1). C’est une manière compacte d’imiter les multiplicités qu’un bootstrap par lots aurait produites — sans stocker ni rééchantillonner tout l’historique des données.

## 03 Les données out-of-bag constituent le diagnostic intégré de la forêt

Une observation exclue de l’échantillon bootstrap d’un arbre peut tester cet arbre, puisqu’il n’a pas été entraîné dessus. À l’échelle de la forêt, chaque observation est out-of-bag pour un sous-ensemble d’arbres. Leurs prédictions peuvent être combinées en une erreur out-of-bag , qui fournit à la forêt une estimation interne de ses performances prédictives sans réserver un échantillon de validation distinct.

Le même mécanisme permet de calculer l’importance des variables par permutation. On prend l’échantillon out-of-bag d’un arbre, on mélange les valeurs d’une variable prédictive et on mesure l’augmentation de l’erreur. Si la destruction de la relation portée par cette variable dégrade la prédiction, elle était importante pour l’arbre.

Principe de l’importance par permutation

**Equation**

$$
\mathrm{VI}(X^j) = \frac{1}{Q} \sum_{t} \left( \widetilde{\mathrm{errTree}}_{t}^{\,j} - \mathrm{errTree}_{t} \right)
$$

Moyenne, sur l’ensemble des arbres, du supplément d’erreur out-of-bag provoqué par la permutation de la variable prédictive X j .

C’est ici que l’article dépasse l’inventaire d’implémentations plus rapides. Les auteurs considèrent l’estimation de l’erreur et l’importance des variables comme des composantes de la méthode, et non comme de simples indicateurs facultatifs. Un système passé à l’échelle qui continue de produire des prédictions mais perd ses diagnostics fiables n’est pas nécessairement la même forêt aléatoire.

## 04 Quand les diagnostics deviennent une méthode : VSURF

L’erreur out-of-bag et l’importance par permutation sont également devenues le moteur d’un ensemble de travaux connexes. Robin Genuer, Jean-Michel Poggi et Christine Tuleau-Malot — le trio central commun aux deux projets de recherche — ont développé une procédure de sélection de variables et l’ont rendue disponible sous la forme de VSURF , un package R distribué par CRAN.

Le lien est direct. Les travaux sur le big data demandent ce qu’il advient lorsqu’une implémentation capable de passer à l’échelle ne peut plus reproduire l’erreur OOB classique ni l’importance des variables. VSURF montre tout ce que ces quantités permettent lorsqu’elles sont préservées : classer les variables prédictives, identifier un seuil de bruit déterminé par les données, comparer des forêts imbriquées et décider si une variable supplémentaire améliore suffisamment la prédiction pour être retenue.

Une méthode, deux objectifs scientifiques

### La sélection de variables dépend de l’objectif de l’analyse

VSURF · Variable Selection Using Random Forests

Ensemble d’interprétation
Conserver les variables fortement liées à la réponse, y compris les redondances utiles. En imagerie ou pour les données fonctionnelles, des variables prédictives corrélées peuvent décrire toute une région ou une structure scientifique qu’il est pertinent de comprendre.

Ensemble de prédiction
Construire un sous-ensemble plus petit et moins redondant, mais toujours suffisant pour une prédiction précise. L’objectif est un modèle opérationnel compact, non une cartographie exhaustive de toutes les variables associées.

01 Seuil
Moyenner l’importance par permutation sur plusieurs forêts, estimer la variabilité associée aux variables prédictives non informatives et éliminer celles qui se situent sous le seuil déterminé par les données.

02 Interpréter
Comparer des forêts imbriquées construites à partir des variables classées et conserver un modèle compact dont l’erreur OOB reste dans la marge d’incertitude du meilleur résultat observé.

03 Prédire
Introduire successivement les variables classées et ne conserver une nouvelle variable que lorsque la réduction d’erreur OOB dépasse un seuil estimé à partir de la queue bruitée.

```r
library(VSURF)
selection <- VSURF(x = predictors, y = response)
summary(selection)
```

Le package rend la méthode directement exploitable pour la régression et la classification supervisée, y compris en grande dimension. Ses calculs peuvent également être parallélisés tout en préservant une génération reproductible des nombres aléatoires.

Lorsqu’une implémentation capable de passer à l’échelle perd l’erreur OOB ou l’importance des variables, elle perd plus qu’un graphique de diagnostic. Elle peut perdre les quantités mathématiques nécessaires pour sélectionner les variables de manière reproductible .

## 05 Le piège du parallélisme : les fragments sont rarement des populations aléatoires

Une adaptation courante avec MapReduce consiste à diviser un très grand jeu de données en fragments plus petits, à construire indépendamment une forêt sur chaque fragment, puis à fusionner tous les arbres. Cette approche est séduisante sur le plan informatique, mais elle peut être dangereuse sur le plan statistique.

Les données réelles stockées sur disque sont souvent ordonnées selon le temps, la géographie, le système d’acquisition, le client, la classe ou une autre forme de proximité. Si des fragments contigus sont envoyés à des nœuds de calcul distincts, chaque forêt peut apprendre une population différente.

### Partition contiguë

Chaque nœud de calcul reçoit un fragment localement homogène.

Les forêts des nœuds de calcul ne voient respectivement que des mondes A, B et C.

### Partition aléatoire ou stratifiée

Chaque nœud de calcul reçoit un mélange plus représentatif.

Chaque forêt locale voit une miniature de la population globale.

1 — Biais de proximité
Des enregistrements voisins sur disque peuvent partager des attributs ; des fragments naïfs ne constituent donc pas des échantillons aléatoires.

2 — Forêts hétérogènes
Les forêts locales peuvent être si différentes que la moyenne de tous leurs arbres n’a plus de sens statistique clair.

3 — Le problème de la taille du bootstrap
Le comportement d’un m -out-of- n bootstrap dépend fortement de m , un paramètre difficile à régler dans un schéma distribué simple.

4 — Les diagnostics disparaissent
Les nœuds de calcul perdent les indices d’apprentissage globaux nécessaires pour reconstruire l’erreur out-of-bag classique et l’importance des variables.

Faire la moyenne de nombreuses forêts locales ne recrée pas automatiquement une forêt entraînée sur la population globale .

## 06 Quand les données ne s’arrêtent jamais, l’expérience change encore

Dans un environnement en ligne, l’algorithme d’apprentissage voit l’observation courante mais ne conserve pas nécessairement toutes les observations précédentes. La forêt doit se mettre à jour à mesure que les données arrivent. Les forêts aléatoires en ligne étudiées par les auteurs combinent Poisson online bagging, Extremely Randomized Trees et des statistiques incrémentales aux nœuds.

nouvelle observation
(x t , y t )
draw k ∼ Poisson(1)
pour chaque arbre
mettre à jour l’arbre k fois
ou le tester lorsque k = 0

Si k = 0 , l’observation courante est out-of-bag pour cet arbre et peut mettre à jour son estimation de l’erreur. L’article souligne toutefois l’approximation : après que l’arbre a changé avec des données ultérieures, cette ancienne prédiction ne peut pas être recalculée si l’observation n’a pas été conservée. L’estimation OOB en ligne n’est donc pas identique à la quantité classique calculée par lots.

L’importance des variables est encore plus difficile à préserver. L’importance par permutation exige de mélanger une variable dans un échantillon out-of-bag. Lorsqu’un flux est supprimé après traitement, il ne reste rien à permuter. La contrainte informatique élimine l’objet requis par la définition statistique.

### C’est le cœur de « AI is maths »

L’algorithme n’est pas seulement le code qui produit une prédiction. Il comprend aussi l’expérience d’échantillonnage, l’estimation de l’erreur et la définition de l’importance. Lorsque le cycle de vie des données change, ces objets mathématiques peuvent devoir être redéfinis.

## 07 Plusieurs voies préservent différentes composantes de la méthode

Les auteurs présentent plusieurs voies permettant de préserver davantage le sens de la méthode sous les contraintes du big data. Les différentes formes de passage à l’échelle appellent des compromis différents, et le choix doit dépendre de la propriété statistique qui importe le plus.

01 Partitionner délibérément
Randomiser ou stratifier les données avant de les distribuer, en particulier selon la variable réponse, plutôt que de faire confiance à l’ordre physique de stockage.

02 Utiliser le Bag of Little Bootstraps
Construire des échantillons bootstrap de taille nominale n à partir de seulement m ≪ n observations distinctes, afin de préserver la logique de rééchantillonnage tout en réduisant la charge de calcul.

03 Réduire le coût de chaque arbre
Utiliser des familles d’arbres plus fortement randomisées telles que Extremely Randomized Trees, Perfect Random Tree Ensembles ou Purely Random Forests.

04 Pondérer les forêts, pas seulement les arbres
Traiter le résultat comme un ensemble de forêts locales et adapter le vote pour tenir compte du biais d’échantillonnage, au lieu de fusionner indistinctement tous les arbres.

05 Mettre à jour plutôt que reconstruire
Utiliser des forêts en ligne pour traiter à la fois le volume et la vélocité, en ne parcourant que la part du flux nécessaire pour atteindre une précision suffisante.

06 Intégrer les diagnostics dès la conception
Évaluer une variante adaptée au passage à l’échelle selon ce qu’elle préserve de l’erreur OOB et de l’importance des variables, et non uniquement selon son débit.

## 08 Pourquoi ces travaux liés restent un excellent support pédagogique

MapReduce n’est plus le sujet à la mode qu’il était en 2015. Le problème sous-jacent n’a pourtant pas vieilli : l’apprentissage distribué partitionne toujours les observations, les systèmes de streaming oublient toujours l’historique et les contraintes de production incitent toujours les ingénieurs à considérer un estimateur défini mathématiquement comme interchangeable avec toute implémentation produisant des prédictions d’apparence similaire.

La valeur de l’article tient à son refus de confondre passage à l’échelle et validité. Il pose quatre questions qui restent utiles chaque fois qu’une méthode d’apprentissage automatique passe d’un notebook à une infrastructure :

- Quelle distribution chaque nœud de calcul voit-il réellement ?

- Quelle part d’aléa est essentielle à l’estimateur, et laquelle n’est que computationnelle ?

- Pouvons-nous encore estimer l’erreur sans contaminer les observations de test ?

- Pouvons-nous encore expliquer quelles variables comptent dans ce nouveau cycle de vie des données ?

Ce sont des questions mathématiques exprimées à travers l’architecture des systèmes. Les machines, l’organisation du stockage et la stratégie de mise à jour font partie du modèle statistique, que nous le reconnaissions ou non.

VSURF apporte l’enseignement complémentaire. Lorsqu’elles sont soigneusement préservées, l’erreur OOB et l’importance des variables peuvent piloter un processus de sélection de bout en bout, distinguer l’interprétation de la prédiction et devenir un logiciel que d’autres chercheurs et ingénieurs peuvent appliquer à leurs propres données.

La question difficile n’est pas de savoir si le code peut s’exécuter sur de nombreuses machines. Elle est de savoir si le résultat reste le même objet statistique — et si ses mathématiques restent exploitables.

## 09 Les travaux de recherche derrière cet article

Article de conférence d’origine

### Random forests and big data

Robin Genuer, Jean-Michel Poggi, Christine Tuleau-Malot et Nathalie Villa-Vialaneix. Présenté aux 47es Journées de Statistique de la Société Française de Statistique, à Lille, en juin 2015 .

Méthode et logiciel connexes

### VSURF: An R Package for Variable Selection Using Random Forests

Robin Genuer, Jean-Michel Poggi et Christine Tuleau-Malot. Publié dans The R Journal , volume 7, numéro 2, pages 19–33, 2015 . DOI: 10.32614/RJ-2015-018.

L’article évalué par les pairs explique la stratégie de sélection et son implémentation ; le package rend la méthode directement utilisable dans R.

Lien avec le corps enseignant et filiation scientifique

### Dre Christine Malot

Publiée dans la littérature scientifique sous son nom complet, Christine Tuleau-Malot. À DSTI, elle copréside avec Pr Fabien Gandon le Conseil scientifique et consultatif de DSTI.

Sa thèse de 2005 portant sur la sélection de variables pour la discrimination en grande dimension et la classification de données fonctionnelles a été dirigée par [Pr Jean-Michel Poggi](https://www.imo.universite-paris-saclay.fr/fr/perso/jean-michel-poggi/). Leurs travaux ultérieurs avec Robin Genuer prolongent cette relation scientifique à travers une méthode statistique, un article logiciel évalué par les pairs et le package VSURF.

Elle enseigne Foundations of Statistical Analysis - Part 2 et Advanced Statistical Analysis dans le [MSc in Data Science & AI](https://dsti.school/fr/msc-data-science-ai#curriculum), ainsi que Mathematics Harmonisation dans le [BSc Computer Science & Engineering](https://dsti.school/fr/bsc-informatique-ingenierie#curriculum).

Prolongement des travaux sur le big data

### Random Forests for Big Data

Les quatre auteurs ont développé la contribution de conférence dans un article plus long publié dans Big Data Research en 2017 . Il approfondit l’état de l’art et la discussion des variantes de forêts aléatoires adaptées au passage à l’échelle.

De l’article de conférence à son prolongement en revue et à VSURF, le fil conducteur reste le même : les définitions mathématiques, les diagnostics et les choix d’implémentation appartiennent à un seul objet d’ingénierie.

Note éditoriale. Cet article du DSTI TechBlog propose une interprétation pédagogique des travaux cités pour la série « AI is maths ». Il n’est pas présenté comme une nouvelle publication et n’attribue pas sa formulation éditoriale aux chercheurs. La notation mathématique a été simplifiée lorsque cela améliore la lisibilité ; l’article d’origine demeure la source faisant autorité.