Retour catalogue
Intermédiaire~9 hstorage

Ta première table Iceberg

Ton premier Iceberg. Sans S3, sans compte AWS, sans facture. Juste bons concepts.

Contexte

Iceberg, c'est le format qui résout les trois douleurs historiques des data lakes : pas de schema evolution propre, pas de snapshot isolation, et partitions qui partent en spaghetti dès qu'on ajoute une colonne. Ce projet te fait toucher Iceberg avec les mains, sur ton laptop, sans rien payer.

MinIO joue rôle de S3, catalogue REST Tabular joue rôle de Glue. Tu crées une table partitionnée par `year(event_time)` avec hidden partitioning,VRAIE compétence du projet. Une fois la table en place, tu charges 120k lignes, tu vérifies que les requêtes ne scannent que la partition cible, et tu prouves snapshot isolation en faisant deux writes concurrents.

À la fin, tu sais lire une time-travel query et expliquer pourquoi ton schéma n'a pas besoin d'une colonne `order_year` matérialisée.

Architecture

Stack et flow du projet

Loading diagram…

Ce que tu vas livrer

  • Module `src/create_table.py` qui crée la table avec bonne partition spec
  • Module `src/load.py` qui ingère les 3 batches dans la table
  • Démo `src/time_travel_demo.py` qui requête deux snapshots successifs

Ce que CI vérifie

  • Table existe dans catalogue avec bonne partition spec `year(event_time)`
  • Row count après chargement matche somme des fixtures (à l'unité près)
  • Snapshot isolation prouvée : un append concurrent ne perd pas ses lignes
  • Pas de petits fichiers parasites,chaque partition tient en moins de 5 fichiers

Prérequis

  • SQL solide (DDL, DML, fonctions de date)
  • Notion de format columnaire (Parquet vs CSV)
  • Idéalement : avoir entendu parler de Hive/Spark,pas obligatoire

Comment ça marche

  1. 01

    Tu cliques « Commencer »

    On forke template sur ton compte GitHub. Aucune install locale, aucun Docker à débugger.

  2. 02

    Tu codes dans GitHub Codespaces

    VS Code dans ton navigateur, prêt à l'emploi : DBs locales, dépendances Python, tout dans devcontainer. 60h/mois gratuits chez GitHub.

  3. 03

    Tu pushes, CI te répond

    GitHub Actions exécute rubrique. Vert = validé. Rouge = chaque check échoué te dit ce qui manque, en français.

Information précontractuelle

  • Vendeur : Merta
  • Prix : 39 € TTC, franchise de TVA
  • Livraison : numérique, immédiate après paiement
  • Droit de rétractation : exclu après début d'exécution, voir case à cocher
  • Paiement sécurisé via Stripe

Achat soumis aux CGV.