Business Digital

Créer un Lakehouse dans Microsoft Fabric (OneLake)

12 دقائق للقراءة

Pendant des années, les organisations ont dû choisir entre deux mondes : l’entrepôt de données, rigoureux mais coûteux et fermé aux fichiers bruts, et le lac de données, souple mais désordonné. Microsoft Fabric réconcilie les deux avec le Lakehouse, une structure qui combine la liberté du lac et la rigueur de l’entrepôt, le tout posé sur un stockage unique appelé OneLake. Pour une organisation qui dépasse les limites d’un simple modèle Power BI et veut centraliser ses données, c’est la première brique à poser. Ce tutoriel construit un Lakehouse de bout en bout et explique chaque concept au passage.

Ce tutoriel s’inscrit dans une série sur Power BI et Microsoft Fabric ; le guide de référence Power BI et Microsoft Fabric situe le Lakehouse dans l’architecture d’ensemble et aide à décider quand franchir le pas vers Fabric.

Prérequis

  • Un accès à Microsoft Fabric : une capacité Fabric (référence F) ou un essai Fabric activé sur le tenant.
  • Les droits pour créer un espace de travail rattaché à cette capacité.
  • Niveau : intermédiaire. Des notions de données tabulaires et un peu de Python aident pour le chargement.
  • Temps estimé : 60 à 90 minutes.

Étape 1 — Comprendre OneLake et le Lakehouse

Deux notions se confondent souvent au début, alors clarifions-les. OneLake est le stockage unique et logique de Microsoft Fabric : un seul lac de données pour toute l’organisation, où tout est rangé dans un format ouvert, Delta-Parquet. On le compare souvent au OneDrive des données : un emplacement central, partagé, sans duplication inutile. Le Lakehouse, lui, est un objet que l’on crée dans cet espace : c’est un conteneur qui combine des tables structurées et des fichiers bruts, avec par-dessus une couche d’interrogation SQL.

Autrement dit, OneLake est l’entrepôt physique, le Lakehouse est l’une des pièces qu’on y aménage. Cette distinction compte, car elle explique pourquoi des données rangées dans un Lakehouse deviennent immédiatement accessibles à d’autres outils de Fabric — notebooks, pipelines, rapports — sans recopie. Le format ouvert Delta garantit qu’aucun outil ne « capture » vos données dans un silo propriétaire.

Étape 2 — Créer un espace de travail Fabric

Tout objet Fabric vit dans un espace de travail rattaché à une capacité. C’est cette capacité qui fournit la puissance de calcul facturée. Rendez-vous sur le portail Fabric, ouvrez Espaces de travail > Nouvel espace de travail, donnez-lui un nom, puis, dans les paramètres avancés, associez-le à votre capacité Fabric (ou à l’essai).

Ce rattachement est l’étape qui distingue un espace Fabric d’un simple espace Power BI : sans capacité Fabric, les objets de données comme les Lakehouses ne sont pas disponibles. Une fois l’espace créé et rattaché, vous disposez d’un atelier complet où coexisteront vos Lakehouses, vos pipelines et vos notebooks. Vérifiez dans les paramètres de l’espace que la capacité affichée est bien la bonne avant de continuer.

Étape 3 — Créer le Lakehouse

Le Lakehouse se crée en quelques clics, mais comprendre ce qui se passe en coulisses éclaire la suite. Dans votre espace de travail, cliquez sur Nouvel élément et choisissez Lakehouse. Donnez-lui un nom métier clair, par exemple Ventes_Lakehouse, et validez.

En quelques secondes, Fabric crée bien plus qu’un dossier. Il provisionne automatiquement trois choses liées : le Lakehouse lui-même (avec ses zones Tables et Files), un point de terminaison SQL analytique en lecture seule pour interroger les tables en T-SQL, et un modèle sémantique par défaut prêt pour Power BI. Vous n’avez rien à configurer pour cela : c’est l’un des grands avantages de Fabric, qui assemble la chaîne complète dès la création. L’explorateur du Lakehouse s’ouvre alors, encore vide, prêt à recevoir des données.

Étape 4 — Distinguer la zone Tables de la zone Files

L’explorateur du Lakehouse présente deux dossiers de premier niveau, et bien les comprendre évite des erreurs de rangement. La zone Tables est réservée aux données structurées au format Delta : tout ce qui y est déposé devient automatiquement une table interrogeable en SQL et en Spark, avec un schéma, des colonnes typées, des transactions. La zone Files accueille les données brutes ou semi-structurées : fichiers CSV, JSON, images, exports divers, sans contrainte de schéma.

La logique de travail découle de cette séparation. On dépose d’abord les fichiers bruts dans Files, on les transforme, puis on écrit le résultat propre et structuré dans Tables. La zone Files est l’atelier ; la zone Tables est la vitrine sur laquelle s’appuieront les rapports. Ne cherchez pas à interroger directement en SQL un fichier resté dans Files : seules les données de la zone Tables (ou les raccourcis Delta) sont exposées comme tables au point de terminaison SQL.

Étape 5 — Charger des données dans le Lakehouse

Un Lakehouse vide n’a aucune valeur ; il faut l’alimenter, et Fabric offre plusieurs chemins selon le contexte. Pour un essai rapide, le plus simple est de téléverser un fichier directement dans la zone Files via le bouton Charger de l’explorateur. Pour des flux récurrents, on privilégie un pipeline de données ou un notebook.

Voici, à titre d’illustration, comment un notebook lit un fichier CSV déposé dans Files et l’écrit comme table Delta propre dans Tables, en PySpark :

df = spark.read.format("csv") \
    .option("header", "true") \
    .option("inferSchema", "true") \
    .load("Files/brut/ventes.csv")

df.write.mode("overwrite") \
    .format("delta") \
    .saveAsTable("ventes")

La première instruction lit le CSV brut depuis la zone Files en déduisant les types. La seconde l’enregistre comme table Delta nommée ventes dans la zone Tables, écrasant toute version précédente grâce au mode overwrite (utilisez append pour ajouter sans écraser). Après exécution, rafraîchissez l’explorateur : la table ventes apparaît dans Tables, immédiatement interrogeable. La construction de pipelines d’ingestion répétables est détaillée dans le tutoriel pipeline d’ingestion avec Fabric Data Factory, et les transformations Spark plus poussées dans transformer des données avec les Notebooks Spark.

Étape 6 — Interroger les données en SQL

Une fois des tables présentes, le point de terminaison SQL analytique permet de les interroger sans écrire la moindre ligne de Spark. C’est une porte d’entrée familière pour quiconque connaît le SQL, et elle est créée automatiquement. Dans l’explorateur, basculez en mode Point de terminaison SQL analytique via le sélecteur en haut à droite.

Vous accédez alors à une surface T-SQL en lecture seule, où vous pouvez écrire des requêtes classiques sur vos tables Delta :

SELECT Region, SUM(Montant) AS Total
FROM ventes
GROUP BY Region
ORDER BY Total DESC;

Cette requête agrège les ventes par région directement sur les tables du Lakehouse. Le caractère « lecture seule » est important : on consulte et on analyse ici, mais on n’écrit pas — les écritures se font par Spark, les pipelines ou les dataflows. Ce point de terminaison sert aussi de fondation aux outils tiers et aux connexions SQL, élargissant l’audience capable d’exploiter le Lakehouse au-delà des spécialistes Spark.

Étape 7 — Référencer des données externes avec les raccourcis

Recopier des données pour les analyser est coûteux et crée des versions divergentes. Les raccourcis OneLake résolvent ce problème : ils permettent de référencer des données qui vivent ailleurs — dans un autre Lakehouse, un entrepôt Fabric, ou même un stockage cloud externe — sans les dupliquer. La donnée reste à sa source, mais apparaît dans votre Lakehouse comme si elle y était.

Dans l’explorateur, faites un clic droit sur la zone Tables ou Files et choisissez Nouveau raccourci. Une règle à retenir : dans la zone Tables, les raccourcis doivent être créés au niveau racine, et si la cible contient des données au format Delta, le Lakehouse la reconnaît automatiquement comme une table interrogeable. Dans la zone Files, les raccourcis peuvent se placer à n’importe quel niveau de l’arborescence. Les raccourcis sont la clé d’une architecture sans copie : une équipe peut exposer ses tables, une autre les consommer, chacune dans son espace, sans jamais dédoubler la donnée.

Étape 8 — Organiser selon l’architecture médaillon

À mesure que les données affluent, une discipline d’organisation devient indispensable. L’architecture médaillon est la convention la plus répandue : elle range les données en trois couches de qualité croissante. La couche bronze contient les données brutes telles qu’arrivées, sans transformation. La couche argent contient les données nettoyées, typées, dédupliquées. La couche or contient les tables agrégées, prêtes pour l’analyse et les rapports.

Concrètement, on matérialise ces couches par des Lakehouses distincts ou par des préfixes de tables, et chaque transformation fait progresser la donnée d’une couche à la suivante. Cette progression rend le pipeline lisible et permet de revenir en arrière en cas de problème : si la couche or révèle une anomalie, on peut rejouer depuis l’argent sans toucher au bronze. Pour une organisation qui démarre, même une version simplifiée à deux couches (brut puis propre) apporte déjà une rigueur précieuse. La couche or, en particulier, est celle que consommeront idéalement les rapports en mode DirectLake.

Étape 9 — Connecter Power BI au Lakehouse

Le Lakehouse n’est pas une fin en soi : sa raison d’être est de nourrir des analyses. Comme un modèle sémantique par défaut a été créé en même temps que le Lakehouse, vous pouvez construire un rapport immédiatement. Dans le Lakehouse, sélectionnez les tables de votre couche or, puis utilisez l’option de création de rapport, ou ouvrez le modèle sémantique par défaut dans Power BI.

Pour les volumes importants, le mode de connexion idéal est DirectLake, qui lit directement les tables Delta du Lakehouse sans les recopier dans le modèle, alliant la fraîcheur du direct à la rapidité de l’import. Ce mode, spécifique à Fabric, fait l’objet d’un tutoriel dédié : connecter Power BI au Lakehouse en mode DirectLake. Le Lakehouse que vous venez de créer en est le point de départ : des tables Delta propres, dans la zone Tables, sur OneLake.

Accéder à OneLake depuis l’explorateur Windows

Un détail pratique facilite l’adoption au quotidien : Microsoft propose une application qui intègre OneLake directement dans l’explorateur de fichiers de Windows, à la manière de OneDrive. Une fois installée, vos espaces de travail et vos Lakehouses apparaissent comme des dossiers ordinaires sur votre poste, dans lesquels vous pouvez glisser-déposer des fichiers ou en récupérer.

Cette passerelle est précieuse pour les utilisateurs non techniques qui doivent déposer des fichiers source sans ouvrir le portail Fabric : ils copient simplement un export dans le dossier Files du Lakehouse, et la donnée est immédiatement disponible côté plateforme. Pour les équipes, c’est un moyen simple de standardiser le dépôt des fichiers bruts dans la couche bronze, sans formation particulière. L’application synchronise les métadonnées sans dupliquer le stockage, puisque tout réside dans OneLake. Combinée aux raccourcis, elle achève de faire de OneLake un point d’accès unique et familier à toutes les données de l’organisation.

Erreurs fréquentes

Erreur Cause Solution
Option Lakehouse absente Espace de travail non rattaché à une capacité Fabric Associer l’espace à une capacité F ou à un essai Fabric
Un fichier de Files n’apparaît pas en SQL Données restées en zone Files non structurée Écrire les données comme table Delta dans Tables
Impossible d’écrire via le point SQL Le point de terminaison SQL est en lecture seule Écrire par Spark, pipeline ou dataflow
Raccourci Tables non reconnu comme table Cible non Delta ou placée en sous-dossier Raccourci au niveau racine, cible au format Delta
Données dupliquées entre équipes Recopie au lieu de raccourcis Référencer via raccourcis OneLake, sans copier
Pipeline désordonné, difficile à déboguer Absence de couches de qualité Adopter l’architecture médaillon bronze/argent/or

Tutoriels liés

Références

  • Documentation « Qu’est-ce qu’un Lakehouse ? » et « Vue d’ensemble de OneLake » (Microsoft Learn).
  • Guide « Point de terminaison SQL analytique d’un Lakehouse ».
  • Documentation « Unifier les sources de données avec les raccourcis OneLake ».

Questions fréquentes

Faut-il une licence Power BI Pro pour créer un Lakehouse ?
Non, mais il faut un accès à Microsoft Fabric, c’est-à-dire une capacité Fabric ou un essai. Le Lakehouse est un objet Fabric, distinct des licences Power BI individuelles.

Quelle différence entre un Lakehouse et un entrepôt Fabric ?
Le Lakehouse mêle fichiers et tables et se pilote surtout en Spark ; l’entrepôt est une base entièrement T-SQL, en lecture-écriture. Les deux reposent sur OneLake et le format Delta, et se choisissent selon le profil de l’équipe.

Mes données sont-elles enfermées dans un format propriétaire ?
Non. OneLake stocke tout en Delta-Parquet, un format ouvert. Vos données restent lisibles par d’autres moteurs compatibles Delta, sans capture propriétaire.

Puis-je commencer petit avec un seul Lakehouse ?
Tout à fait. Un Lakehouse unique, organisé en quelques tables propres, suffit pour démarrer. On introduit les couches médaillon et les raccourcis au fur et à mesure que les besoins grandissent.

Service ITSkillsCenter

Application mobile Android et iOS

Création d'application mobile Android et iOS. À partir de 350 000 FCFA.

Démarrer mon projet
Publicité