05 · De 6-Layer Stack

Van agent tot silicon. Zes lagen, zes beslissingen.

Elke laag heeft een eigen rol, eigen kostprofiel, en eigen beslissing voor elke organisatie die AI adopteert. Top-down lezen: waar de gebruiker zit. Bottom-up: waar de uitgave zit.

De stack

Zes lagen, top tot bottom.

Agent

Autonome redenering, tool-gebruik, plan-loops (ReAct). Zit bovenop alles en orchestreert het werk.

Orchestration

Geheugen, RAG, prompt chaining, vector retrieval. Verbindt het model met uw private data zonder hertrainen.

Inference Engine

Tokenisatie, API gateway, sampling. Elke token kost geld en latency.

Transformer Model

Attention heads, embeddings, decoder stack. De 175B tot 1T parameters die DE gecomprimeerde kennis ZIJN.

Training / ML Core

Pre-training, supervised fine-tuning, RLHF, Constitutional AI. Hier krijgt het model zijn waarden.

Infrastructure

GPU-clusters (NVIDIA H100), HBM3 memory, NVLink, InfiniBand. Niet bouwen, kopen. Cloud-first.

Waar de hefbomen zitten

Eén waarde-hefboom per laag.

Laag	Business inzicht	Waarde-hefboom
Agent	Automatiseer multi-step kenniswerk	Proceskost
Orchestration	RAG over private data, geen hertrain nodig	Data moat
Inference	Elke token kost geld. Caching en prompt design sturen OpEx	OpEx-controle
Transformer	Capaciteit is grotendeels vast. Kies het juiste model	CapEx-vermijding
Training	Fine-tuning op 1 tot 5% van pre-training kost	Concurrentiële edge
Infrastructure	Koop compute, bezit het niet	Kapitaaldiscipline

De vraag om te stellen

Op welke laag zit onze uitgave eigenlijk?

De meeste organisaties denken dat ze AI kopen. Ze kopen inference (kost per token) en orchestration (RAG-infrastructuur). Weten welke laag de kost draagt, maakt budgetgesprekken eerlijk.