Construire une base de données cloud pour analyser les chaînes de traction de véhicules électriques

La difficulté centrale du projet n’était pas de choisir un service cloud. Elle consistait à traduire une question de marché automobile en modèle de données, puis à rendre explicite chaque transformation entre les fichiers sources et les résultats d’analyse.

Le résultat utile n’est pas simplement « une base dans le cloud ». C’est une chaîne reproductible de contrats de données, de transformations et de couches d’analyse qui maintient l’expertise métier au cœur du workflow d’ingénierie.

01La question de marché dépassait les ventes de véhicules

Le point de départ était une base tierce contenant les volumes mondiaux de ventes de véhicules. Cette source répondait à une question importante — combien de véhicules ont été vendus — mais elle ne décrivait ni les composants de la chaîne de traction présents dans chaque modèle, ni leurs fournisseurs, ni leurs prix indicatifs, ni la part du marché potentiellement accessible à des concurrents.

Le projet devait donc réunir des vues commerciales, techniques et organisationnelles du même marché. Les volumes et chiffres d’affaires totaux et adressables devaient être analysés par type d’électrification et par région. Le chiffre d’affaires des composants devait être relié au type de produit, à l’architecture du véhicule et à la position des fournisseurs. Ces questions ne peuvent pas être traitées de manière fiable si les données sur les véhicules, les composants, les fournisseurs et les prix restent dispersées dans des feuilles de calcul distinctes.

02Modéliser la chaîne de traction avant de choisir la plateforme

Avant l’architecture cloud, le projet a défini une hiérarchie à quatre niveaux pour les composants de la chaîne de traction. Le niveau 1 identifie le type de tension. Le niveau 2 correspond au type de produit. Le niveau 3 affine le sous-type. Le niveau 4 indique le rang ou la position du produit dans la chaîne de traction — une distinction qui peut influencer le prix.

Cette hiérarchie constitue l’ossature conceptuelle de la base. Elle attribue à chaque composant une place dans un modèle partagé, afin que les jointures ultérieures ne dépendent pas uniquement des noms de colonnes ou de libellés ad hoc. En data engineering, le projet commence donc par établir le modèle métier avant de sélectionner les services qui l’implémenteront.

Niveau 1Type de tension

Familles basse et haute tension.

Niveau 2Type de produit

La principale famille de composants.

Niveau 3Sous-type de produit

Une classification technique plus précise.

Niveau 4Rang du produit

Sa position dans la chaîne de traction et la logique de prix.

03Maintenir l’expertise métier au plus près des données

Quatre éléments maintenus par les métiers capturent des connaissances absentes d’une source générique de ventes automobiles. La Value List décrit les architectures possibles et les composants associés. Le Power Schedule contient les formules de calcul de la puissance. Les Supplier Dictionaries relient les fournisseurs et concurrents adressables aux modèles et composants. La Price List relie les prix à la puissance et à la tension.

Le dispositif conserve ces entrées dans Google Sheets afin que les spécialistes marketing puissent les maintenir dans une interface familière. Les fichiers mis à jour sont copiés dans Cloud Storage par API, tandis que la base automobile tierce est chargée séparément. Les experts métier gardent ainsi la maîtrise des entrées sans avoir à modifier directement le code des notebooks ou les tables BigQuery.

VLValue List

Architectures de véhicules et composants attendus dans chacune.

PSPower Schedule

Formules de calcul de la puissance pour la tarification et le dimensionnement.

SDSupplier Dictionary

Correspondances fournisseurs et concurrents adressables par modèle et composant.

PLPrice List

Prix reliés à la puissance du composant et à la tension du système.

Trois contrats de données derrière le workflow

Maintenable par les experts métierGoogle Sheets conserve des entrées accessibles aux équipes.

Transfert contrôléCloud Storage sépare les fichiers de travail des tables analytiques.

Transformation reproductibleL’ordre et le code des notebooks rendent chaque étape inspectable.

04Rendre explicite la chaîne de transformation

Le dépôt présente un notebook maître et neuf notebooks de traitement. Le notebook maître installe les packages nécessaires, s’authentifie auprès de Google Cloud, récupère les entrées depuis Cloud Storage et utilise Papermill pour exécuter les autres notebooks dans l’ordre. Cette séquence rend les dépendances visibles au lieu de les enfermer dans un script monolithique.

La chaîne nettoie les fichiers entrants ; fusionne la base véhicule avec la Value List ; ajoute le Power Schedule ; applique des règles distinctes de correspondance fournisseurs pour les moteurs électriques et les chargeurs embarqués ; transforme la structure fusionnée ; remodèle les prix basse et haute tension ; puis prépare les résultats de parts de marché. Les artefacts intermédiaires sont réécrits dans le stockage cloud ou interrogés via BigQuery au fil du workflow.

Orchestration maître

00 Master.ipynb → 01 Cleaning.ipynb → 02 PIHS VL.ipynb → 03 PIHS VL PS.ipynb → 04.1 / 04.2 supplier mapping → 05 Transformation.ipynb → 06 / 07 prices → 08 MARKETSHARE.ipynb

Les noms de fichiers et l’ordre d’exécution sont conservés tels qu’ils apparaissent dans le dépôt fourni.

01CleaningStandardiser les fichiers sources.

02PIHS + VLAjouter les architectures de composants aux modèles.

03+ Power ScheduleCalculer la puissance des composants.

04.1+ fournisseurs EMOTAppliquer les règles des moteurs électriques.

04.2+ fournisseurs OBCAppliquer les règles des chargeurs embarqués.

05TransformationRéorganiser les composants par année et supprimer les champs redondants.

06Prix LVRemodeler les prix basse tension.

07Prix HVRemodeler les prix haute tension.

08Part de marchéPréparer la couche finale d’analyse de marché.

05Utiliser BigQuery comme couche d’analyse

Après les transformations, les sorties CSV préparées sont chargées dans BigQuery. Des requêtes SQL ajoutent les informations de prix et de marché adressable à la structure véhicule-composant transformée. La base résultante peut ensuite être reliée à Google Sheets et Looker Studio pour l’analyse et le reporting.

Cette séparation est essentielle. Google Sheets reste la couche d’entrée modifiable par les métiers. Cloud Storage conserve les fichiers contrôlés. Les notebooks Colab Enterprise implémentent la logique de transformation. BigQuery devient la couche analytique structurée. Looker Studio fournit l’interface de consultation. Chaque service a une responsabilité distincte, sans dupliquer la même logique à plusieurs endroits.

Google SheetsValue lists, schedules, fournisseurs et prix maintenus par les métiers.

Cloud StorageFichiers d’entrée, intermédiaires et de sortie.

Colab EnterpriseNotebooks Python et pandas de transformation.

BigQueryTables de prix, d’adressabilité et d’analyse.

Looker StudioExploration et reporting pour les équipes.

Questions rendues possibles par la couche combinée

Volumes et chiffre d’affaires

Comparer les volumes et chiffres d’affaires totaux et adressables.

Répartition régionale

Étudier la variation de la demande et des positions fournisseurs selon les régions.

Parts de marché fournisseurs

Analyser les répartitions par produit, fournisseur et architecture véhicule.

06Ce que démontre le dépôt public — et ce qu’il ne démontre pas

Le dépôt public constitue une preuve solide du workflow d’ingénierie : l’orchestration des notebooks, l’authentification Google Cloud, l’accès au stockage, les transformations pandas et les requêtes BigQuery sont inspectables. La présentation consigne aussi le modèle de données, l’automatisation visée et les objectifs d’analyse métier.

Il ne publie pas les jeux de données commerciaux, les correspondances fournisseurs, les prix ni les tableaux de bord opérationnels. Le dossier public n’établit pas non plus, à lui seul, des niveaux de service de production ou des résultats métier. L’article documente donc l’architecture et l’approche d’implémentation sans transformer un projet étudiant en affirmation non étayée de déploiement industriel.

Ce qui est démontré

Le dépôt contient le workflow de notebooks et les intégrations cloud.
La présentation documente la hiérarchie des données et les entrées métier.
Le code montre le nettoyage, les fusions, les transformations et les opérations BigQuery.

Ce qui reste hors du dossier public

Les données commerciales d’entrée ne sont pas publiées.
Les résultats métier et tableaux de bord ne sont pas reproductibles à partir du seul dépôt.
Les éléments publics n’établissent pas de certification de production ou de sécurité.

07Les enseignements de data engineering du projet

Le projet illustre un principe récurrent : l’architecture cloud est utile lorsqu’elle clarifie les responsabilités. Le modèle métier doit être exprimé dans des structures explicites. Les experts métier ont besoin de moyens contrôlés pour maintenir les entrées. Les étapes de transformation doivent suivre un ordre observable. Les résultats analytiques ont besoin d’une couche stable pouvant alimenter plusieurs interfaces.

Il montre aussi pourquoi « automatiser » ne désigne pas une seule fonction. Copier les fichiers mis à jour, sélectionner la source la plus récente, exécuter les notebooks, charger les tables et rafraîchir l’analyse sont des transitions distinctes. Les traiter séparément facilite le diagnostic des pannes et l’évolution du workflow.

01Modéliser le domaine en premier

Une hiérarchie partagée évite que les services cloud remplacent la modélisation des données.

02Séparer les entrées modifiables des sorties gouvernées

Les équipes métier maintiennent les connaissances sans modifier directement les tables analytiques.

03Orchestrer des étapes visibles

Un notebook maître rend explicites l’ordre des traitements et leurs dépendances.

04Énoncer la limite des preuves

Le code ouvert peut démontrer l’architecture sans exposer de données propriétaires ni exagérer le statut du déploiement.

08Dossier du projet

Le dépôt contient le notebook maître, neuf notebooks de traitement, le README du projet et la présentation de haut niveau. Ensemble, ils constituent une trace publique concise de l’architecture et de la séquence de transformation.

Nicolas Len est crédité comme auteur du projet. Ses profils publics et le dépôt sont liés ci-dessous pour les personnes souhaitant examiner les notebooks ou suivre la suite de son parcours.

Ressources du projet

Nicolas Len

Nicolas Len a développé ce projet pendant ses études en Data Engineering à DSTI. Il associe modélisation du marché automobile, architecture de données cloud, notebooks Python, BigQuery et analyse destinée aux métiers.

GitHub LinkedIn Project

Sources et note éditoriale: Article élaboré à partir de la présentation du projet, du README et de l’instantané du dépôt fournis. Les noms de produits, fichiers de notebooks et identifiants techniques sont conservés. L’article décrit l’architecture publique et les éléments d’implémentation sans divulguer ni inférer les données sources propriétaires.