Avant les quatre propriétés. Comment l'IA générative trouve son caractère.

L'IA générative n'arrive pas toute formée. Elle se construit en deux étapes : pretraining (un compléteur de documents) et fine-tuning (une couche assistant par-dessus). Chacune laisse une empreinte.

Construit une fois. Puis entraîné à nouveau.

Étape 1

Pretraining

Entraîné sur d'énormes quantités de texte pour une seule tâche : étant donné tout ce qui précède, prédire ce qui vient. Répété des milliards de fois. Ce qui en émerge n'est pas un assistant. C'est un compléteur de documents. Demandez-lui "Qui est le président ?" et il pourrait continuer avec une leçon d'instruction civique, une liste ou un quiz. Aucune conscience de vous, aucune conscience d'aider.

Étape 2

Fine-tuning

Pour transformer ce compléteur de documents en assistant, on l'entraîne à nouveau. Des exemples curés de bon comportement, puis des signaux de récompense (RLHF) qui poussent vers des réponses sûres et utiles. C'est là qu'il apprend à traiter votre entrée comme une demande, à répondre plutôt que radoter, à refuser les demandes nuisibles, à dire "je ne sais pas".

Idée clé

Couche entraînée

Le comportement d'assistant est une couche entraînée par-dessus le compléteur de documents. C'est pourquoi de la prose fluide peut côtoyer des absurdités confiantes dans la même réponse. Les deux sortent de la même machine.

La couche est mince. En dessous, ça complète toujours des documents.

Poussez fort sur la couche assistant et le compléteur de documents en dessous pointe parfois : radotage, listes, prédiction de ce à quoi ressemblerait une réponse confiante plutôt que récupération de vérité. Les quatre propriétés (Steerability, Working Memory, Token Prediction, Knowledge) décrivent cette double nature en termes opérationnels.

Quelle couche a échoué, quand le modèle se trompe ?

La couche assistant (il a donné une réponse confiante qu'il aurait dû refuser), ou le compléteur de documents en dessous (il a généré du plausible-qui-sonne-juste). Nommer le mode d'échec, c'est la moitié du correctif.

Vous voulez la version boardroom de ça ?