Paul Tuillet — Lead Data Engineer & Architecte freelance

PARCOURS

Professional Journey

Founding Data Engineer

Groupe BZ

April 2025 – Present

Founding role: designed and delivered a sovereign, production-ready, and durable Lakehouse platform. Implemented Python, Dagster, dbt, SQLMesh, DuckDB, and Polars for fast analytical processing. Set up Apache Airflow pipelines and continuous deployment. Defined technical standards, led code reviews, and delivered an autonomous business platform.

dbt Apache Airflow DuckDB Dagster Docker CI/CD

Product Owner

ASAP

Nov 2024 – Dec 2025

Conducted market studies targeting 450k customers. Achieved 42% conversion rate on campaigns. Bridged business requirements with technical feasibility.

Python Teacher

LePont

May 2022 – Oct 2024

Trained 150+ international students from Audencia in Data Visualization (Power BI) and Python coding.

Data Consultant

Wildberries

Mar 2022 – Mar 2024

Built ETL/ELT pipelines with dbt and Dagster orchestration. Developed customer segmentation models (RFM) and logistics performance dashboards. Analyzed 10M+ transactions.

Lead Data Analyst

International Press Comity

Oct 2021 – July 2022

Performed Open-Source Intelligence (OSINT) investigations for international press organizations.

Senior Server Administrator

Keen Software House

Aug 2018 – Feb 2022

Managed high-availability server infrastructure (bare metal & cloud).

Data Miner

Freelance

Sep 2015 – Dec 2020

Extraction de données open source à but de data journalisme.

PORTFOLIO

Architecture & Réalisations

Lecture rapide: d'abord les realisations professionnelles anonymisees, puis les projets personnels R&D.

Infrastructure

Le "Zero-Cost" Lakehouse

Une architecture de données souveraine et découplée. Remplacement d'un monolithe SQL Server coûteux par une stack Docker agile.

0€ de coûts de licence (Open Source)
Performance x100 grâce à DuckDB (OLAP)
Stockage S3 partitionné (Bronze/Silver/Gold)

Complete Tech Stack

🏗️ Infrastructure & Ops

Docker & Compose Auto-hébergement (Self-Hosted).
Git-Sync CI/CD léger.
Linux Système de base.

🧠 Orchestration

Dagster Asset-Centric, Lignage, SLA.

📥 Ingestion & Stockage

MinIO Object Storage compatible S3.
dlt Ingestion JSON & Schema Evolution.
DuckDB Extraction Bulk SQL Server.
Parquet Format colonnaire (Bronze/Silver).

⚙️ Transformation

DuckDB Moteur SQL OLAP.
Polars DataFrame très haute performance.

📱 Apps & Visualisation

NiceGUI Apps métiers & UI complexes.
Streamlit Prototypes & Data Viz.
FastAPI Backend & API Exposure.

Orchestration

Asset-Centric Pipelines

Gestion de la fraîcheur des données (SLA) et lignage automatique avec Dagster.

Asset Graph

5 materialized 1 stale

5 assets • 4 dependencies

SLA OK Last run: 2m ago

Freshness

fact_rev 2m

dim_cli 15m

stg_contracts 45m ⚠

raw_inv 5m

raw_cli 12m

SLA Policy

Gold assets:≤60m

Daily refresh:08:00

Full Stack Apps

Secure Business Apps

Applications métiers sur-mesure développées avec NiceGUI (Auth, RBAC, Real-time).

Revenue

$35k ▲12%

Satisfaction

4.9 ★

Live Users

1500 ● LIVE

Monthly Growth

Live Users

Market Activity

Démos en ligne

Outils interactifs basés sur des réalisations pro anonymisées.

Démo métier anonymisée

Vortex Markets

Démo anonymisée d'outils métiers de pilotage data/finance conçus en contexte réel.

DuckDB Python FastAPI Lightweight Charts

Voir la demo

Démo technique anonymisée

Dashstore

Démo anonymisée d'un portail métier orienté pilotage opérationnel, inspirée d'un contexte réel d'entreprise.

NiceGUI PostgreSQL Docker Python

Voir la demo

Démo technique anonymisée

Lakehouse Local

Démo anonymisée d'un environnement d'analyse local inspiré de cas réels en production.

DuckDB Dagster MinIO (S3) Parquet Medallion

Voir la demo

Projet Solo

J'aime innover sur internet, prototyper vite et tester mes limites techniques sur des idées ambitieuses.

Projet Solo

Chroniques

Moteur JDR narratif web en solo/co-op : mode génératif avec MJ IA, mémoire narrative persistante via LLM + Pinecone (RAG), jets de dés et mode hors-ligne. FastAPI + WebSockets.

Pinecone LLM RAG FastAPI

En développement

Projet Solo

Arken

Plateforme d'intelligence géopolitique : ingestion RSS, cartographie d'entités, timeline d'événements et corrélation de signaux faibles via recherche vectorielle Pinecone en temps réel.

Pinecone Vector Search RSS Ingestion Real-time

Voir la demo

TÉMOIGNAGES

Retour d'expérience clients

"Avec le tableau de bord et le datalake, nous pouvons désormais suivre l'évolution de l'impact dans la commercialisation des producteurs via notre application, ainsi que l'autonomie générée par l'outil auprès de ces derniers."

Sacha S. (Responsable Achats, BZ)

Client

"L'expertise de Paul sur dbt et l'orchestration de nos pipelines avec Dagster a structuré notre équipe Data. Ses dashboards de performance logistique sont aujourd'hui indispensables au quotidien."

Marat K. (Lead Data, Wildberries)

Client

Ma Philosophie

Simple.
Souverain.
Performant.

La plupart des ingénieurs empilent des services Cloud par réflexe. Moi, je choisis l'architecture qui maximise le ROI.

Depuis 2015, j'explore la donnée sous toutes ses formes — extraction, infrastructure, analyse et enseignement. Aujourd'hui, je concentre cette expertise sur l'ingénierie data souveraine. Mon solide bagage d'administrateur serveur est un avantage concret : je comprends et maîtrise l'infrastructure sous-jacente à la data.

Ce que je recherche aujourd'hui

Des missions long terme ou poste cle pour structurer une plateforme data utile, sobre et maintenable, avec un lien fort au produit.

Optimisation des coûts

Alternatives open-source souveraines pour diviser par 10 les coûts d'infrastructure.

De l'Idée au Prod en Jours

Une stack conteneurisée standardisée pour livrer de l'architecture à la prod en une semaine.

Vos Données, Votre Contrôle

Hébergement sur vos serveurs ou cloud privé pour une conformité RGPD native et un contrôle total.

OUTILS

The Toolkit

Orchestration

Dagster

Orchestration orientée assets avec lignage natif et SLAs.

Apache Airflow

Scheduling par DAG pour workflows complexes et grand écosystème.

Pipeline ETL

Cliquer pour jouer

Transformation & DataFrames

DuckDB

Moteur OLAP embarqué. 100x plus rapide que Pandas.

dbt Core

Transformation SQL versionnée, testable et data contracts.

Polars

DataFrames Rust très haute performance avec exécution lazy.

Storage & Sovereign DB

MinIO (S3)

Object storage S3-compatible. 0€ de licence vs AWS S3.

PostgreSQL

Couche de serving avec extensions (pgvector) pour APIs et BI.

Infra, AI & Full-Stack Apps

Docker & CI/CD

Infrastructure conteneurisée et déployée via GitLab CI / GitHub Actions.

Pinecone

Base de données vectorielle pour RAG et recherche sémantique.

Python Backends

Backends Python sécurisés (FastAPI) et interfaces full-stack (NiceGUI).

Lead Data Engineer

Professional Journey

Founding Data Engineer

Product Owner

Python Teacher

Data Consultant

Lead Data Analyst

Senior Server Administrator

Data Miner

Architecture & Réalisations

Le "Zero-Cost" Lakehouse

Complete Tech Stack

🏗️ Infrastructure & Ops

🧠 Orchestration

📥 Ingestion & Stockage

⚙️ Transformation

📱 Apps & Visualisation

Asset-Centric Pipelines

Secure Business Apps

Vortex Markets

Dashstore

Lakehouse Local

Chroniques

Arken

Retour d'expérience clients

Sacha S. (Responsable Achats, BZ)

Marat K. (Lead Data, Wildberries)

Simple.Souverain.Performant.

Ce que je recherche aujourd'hui

Optimisation des coûts

De l'Idée au Prod en Jours

Vos Données, Votre Contrôle

The Toolkit

Orchestration

Dagster

Apache Airflow

Pipeline ETL

Transformation & DataFrames

DuckDB

dbt Core

Polars

Storage & Sovereign DB

MinIO (S3)

PostgreSQL

Infra, AI & Full-Stack Apps

Docker & CI/CD

Pinecone

Python Backends

Simple.
Souverain.
Performant.