Generative AI komt niet kant-en-klaar. Het wordt in twee fases gebouwd: pretraining (een document-completer) en fine-tuning (een assistent-laag erbovenop). Elke fase laat een vingerafdruk achter.
Getraind op enorme hoeveelheden tekst voor één taak: gegeven alles tot nu, voorspel wat volgt. Miljarden keren herhaald. Wat eruit komt, is geen assistent. Het is een document-completer. Vraag het "Wie is de president?" en het kan een lesje in burgerschap voortzetten, een lijst, of een quiz. Geen besef van u, geen besef van helpen.
Om van die document-completer een assistent te maken, train je opnieuw. Gecureerde voorbeelden van goed assistent-gedrag, en reward-signalen (RLHF) die richting veilige, behulpzame antwoorden duwen. Hier leert het uw input als verzoek te zien, te antwoorden in plaats van te ratelen, schadelijke verzoeken te weigeren, "ik weet het niet" te zeggen.
Het assistent-gedrag is een getrainde laag bovenop de document-completer. Daarom zit vloeiende prose naast zelfverzekerde onzin in hetzelfde antwoord. Beide komen uit dezelfde machine.
Duw hard op de assistent-laag en de document-completer eronder steekt soms de kop op: ratelen, lijsten, voorspellen hoe een zelfverzekerd antwoord eruit zou zien in plaats van waarheid op te halen. De vier eigenschappen (Steerability, Working Memory, Token Prediction, Knowledge) beschrijven die dubbele aard in operationele termen.
De assistent-laag (het gaf een zelfverzekerd antwoord dat het had moeten weigeren), of de document-completer eronder (het genereerde plausibel-klinkende onzin). Het noemen van de faalmode is de helft van de oplossing.
De boardroom-versie hiervan?