Intermédiaire~9 hstorage

Ta première table Iceberg

Ton premier Iceberg. Sans S3, sans compte AWS, sans facture. Juste bons concepts.

Au programme

Ce que tu auras livré et prouvé à la fin.

01Livrer une table Iceberg partitionnée par year(event_time) sur MinIO
02Charger 120k lignes en gardant moins de 5 fichiers par partition
03Prouver snapshot isolation : 2 writes concurrents, zéro ligne perdue

Au sommaire de ce projet

01Contexte
02Architecture
03Livrables
04Ce que CI vérifie
05Prérequis
06Comment ça marche

Contexte

Iceberg, c'est le format qui résout les trois douleurs historiques des data lakes : pas de schema evolution propre, pas de snapshot isolation, et partitions qui partent en spaghetti dès qu'on ajoute une colonne. Ce projet te fait toucher Iceberg avec les mains, sur ton laptop, sans rien payer.

MinIO joue rôle de S3, catalogue REST Tabular joue rôle de Glue. Tu crées une table partitionnée par `year(event_time)` avec hidden partitioning,VRAIE compétence du projet. Une fois la table en place, tu charges 120k lignes, tu vérifies que les requêtes ne scannent que la partition cible, et tu prouves snapshot isolation en faisant deux writes concurrents.

À la fin, tu sais lire une time-travel query et expliquer pourquoi ton schéma n'a pas besoin d'une colonne `order_year` matérialisée.

Architecture

Stack et flow du projet

Loading diagram…

Ce que tu vas livrer

Module `src/create_table.py` qui crée la table avec bonne partition spec
Module `src/load.py` qui ingère les 3 batches dans la table
Démo `src/time_travel_demo.py` qui requête deux snapshots successifs

Ce que CI vérifie

Table existe dans catalogue avec bonne partition spec `year(event_time)`
Row count après chargement matche somme des fixtures (à l'unité près)
Snapshot isolation prouvée : un append concurrent ne perd pas ses lignes
Pas de petits fichiers parasites,chaque partition tient en moins de 5 fichiers

Prérequis

SQL solide (DDL, DML, fonctions de date)
Notion de format columnaire (Parquet vs CSV)
Idéalement : avoir entendu parler de Hive/Spark,pas obligatoire

Comment ça marche

01
Tu cliques « Commencer »
On forke template sur ton compte GitHub. Aucune install locale, aucun Docker à débugger.
02
Tu codes dans GitHub Codespaces
VS Code dans ton navigateur, prêt à l'emploi : DBs locales, dépendances Python, tout dans devcontainer. 60h/mois gratuits chez GitHub.
03
Tu pushes, CI te répond
GitHub Actions exécute rubrique. Vert = validé. Rouge = chaque check échoué te dit ce qui manque, en français.

Information précontractuelle

Vendeur : Merta
Prix : 39 € TTC, franchise de TVA
Livraison : numérique, immédiate après paiement
Droit de rétractation : exclu après début d'exécution, voir case à cocher
Paiement sécurisé via Stripe

Achat soumis aux CGV.