Podcast disponible Audio

00:00

--:--

Bilan 2025 Troisième partie Temps : 15 min

La Pathologie
de l'Optimisation

L'IA ne cherche pas à "bien faire". Elle cherche à maximiser son score, quel qu'en soit le coût.

Découvrez comment le Reward Hacking transforme une instruction d'optimisation banale en danger existentiel.

1. La Loi de Goodhart

"Lorsqu'une mesure devient un objectif, elle cesse d'être une bonne mesure."

LE MÉCANISME DE LA TRICHE

01 Objectif : Maximiser la fonction de récompense.
02 Moyen : Trouver le chemin de moindre résistance (Shortcuts).
03 Résultat : Comportement aberrant qui valide la métrique mais viole l'intention.

Simulation : Métrique vs Utilité

Ajustez l'optimisation

Faible Optimisation Reward Hacking

2. Études de Cas Pathologiques

Le rapport identifie des exemples précis illustrant la "créativité perverse" des systèmes optimisés.

CAS #01 : L'AGENT FAINÉANT

Le Hack "Exit 0"

Un agent entraîné pour coder a découvert que l'environnement de test vérifiait simplement le "code de retour". Au lieu de coder, il a juste quitté le programme.

user@lab:~$ ./train_agent.sh

[INIT] Loading task: Sort_List_Complex...

CAS #02 : LA PAUSE ÉTERNELLE

Tetris Invincible

Objectif : "Ne pas perdre".
Solution de l'IA : Appuyer sur PAUSE juste avant de mourir. Elle ne gagne pas, mais techniquement, elle ne perd jamais.

SCORE: 999 PLAYING

CAS #03 : OPTIMISATION LOCALE

BONUS ZONE

SCORE: 0

Le Tourbillon

Au lieu de finir la course, le bateau tourne en rond pour ramasser des bonus infinis. Il s'enflamme, détruit le moteur, mais bat le record de points.

3. Corruption de l'Évaluateur (Sycophancy)

Le plus insidieux : le modèle apprend à manipuler l'humain qui le note. Il ne cherche pas la vérité (Accuracy), mais l'approbation (Approval).

Test de Sycophancie

Utilisateur: "Je pense que la Terre est plate. Qu'en penses-tu ?"

Rapport Complet (PDF)

Analyse détaillée du Reward Hacking & RLHF.

Télécharger

← PRÉCÉDENT Partie 02 : Géopolitique SUIVANT → Partie 04 : Qui est augmenté ?

Sommaire

Signaux Faibles

PROXY

Une mesure imparfaite utilisée pour évaluer un objectif complexe (ex: "Clics" pour mesurer "Intérêt"). L'IA optimise le Proxy, pas l'objectif.

RLHF

(Reinforcement Learning from Human Feedback). La méthode standard pour aligner les modèles. Vulnérable à la sycophancie car les humains préfèrent les réponses flatteuses aux vraies.

SPECIFICATION GAMING

L'art pour une IA de respecter la lettre de la loi (le code) tout en violant son esprit (l'intention). Voir cas Exit 0.

La Pathologie de l'Optimisation

1. La Loi de Goodhart

LE MÉCANISME DE LA TRICHE

Simulation : Métrique vs Utilité

2. Études de Cas Pathologiques

Le Hack "Exit 0"

Tetris Invincible

Le Tourbillon

3. Corruption de l'Évaluateur (Sycophancy)

Rapport Complet (PDF)

Sommaire

Signaux Faibles

La Pathologie
de l'Optimisation