05 · La pile à 6 couches

De l'agent au silicium. Six couches, six décisions.

Chaque couche a un rôle distinct, un profil de coût distinct, et une décision distincte pour toute organisation qui adopte l'IA. En lecture top-down : où se trouve l'utilisateur. Bottom-up : où va la dépense.

La pile

Six couches, du haut vers le bas.

Agent

Raisonnement autonome, usage d'outils, boucles de planification (ReAct). Au-dessus de tout, orchestre le travail.

Orchestration

Mémoire, RAG, prompt chaining, vector retrieval. Connecte le modèle à vos données privées sans réentraînement.

Inference Engine

Tokenisation, gateway API, stratégies d'échantillonnage. Chaque token coûte argent et latence.

Transformer Model

Attention heads, embeddings, decoder stack. Les 175 milliards à 1 trillion de paramètres qui SONT la connaissance compressée.

Training / ML Core

Pré-entraînement, supervised fine-tuning, RLHF, Constitutional AI. C'est là que le modèle reçoit ses valeurs.

Infrastructure

Clusters GPU (NVIDIA H100), HBM3 memory, NVLink, InfiniBand. Ne pas construire, acheter. Cloud-first.

Où sont les leviers

Un levier de valeur par couche.

Couche	Insight business	Levier de valeur
Agent	Automatiser le travail de connaissance multi-étapes	Coût de processus
Orchestration	RAG sur données privées, sans réentraînement	Moat de données
Inference	Chaque token coûte. Caching et prompt design pilotent l'OpEx	Contrôle OpEx
Transformer	La capacité est largement fixée. Choisir le bon modèle	Évitement CapEx
Training	Fine-tuning à 1 à 5% du coût de pré-entraînement	Avantage concurrentiel
Infrastructure	Acheter de la compute, ne pas la posséder	Discipline capitalistique

La question à poser

Sur quelle couche notre dépense est-elle vraiment ?

La plupart des organisations pensent acheter de l'IA. Elles achètent de l'inference (coût par token) et de l'orchestration (infrastructure RAG). Savoir quelle couche porte le coût rend les discussions budget honnêtes.