Overfitting (Surapprentissage)

Points clés à retenir

L’overfitting survient quand un modèle d’IA mémorise les données d’entraînement au lieu d’apprendre des patterns généralisables, échouant sur de nouvelles données
Problème fondamental du machine learning qui rend les modèles performants en laboratoire mais inefficaces en production
Se manifeste par un écart important entre excellentes performances sur les données d’entraînement et mauvaises performances sur les données de test
Peut être prévenu par plusieurs techniques : régularisation, validation croisée, augmentation de données, simplification du modèle
Comprendre l’overfitting est essentiel pour éviter de déployer des modèles qui échoueront en situation réelle

Comprendre l’overfitting

L’overfitting (ou surapprentissage en français) est l’un des concepts les plus fondamentaux et critiques du machine learning. C’est le phénomène où un modèle apprend tellement bien les données d’entraînement qu’il mémorise leurs particularités, leurs bruits, leurs anomalies, au lieu de capturer les patterns généraux qui permettent de faire des prédictions correctes sur de nouvelles données jamais vues.

Pour comprendre intuitivement l’overfitting, imaginez un étudiant préparant un examen. Une approche serait de comprendre profondément les concepts sous-jacents, les principes, les méthodes de raisonnement. Cet étudiant pourra résoudre des problèmes nouveaux même s’ils diffèrent légèrement des exemples étudiés. Une autre approche serait de mémoriser par cœur toutes les solutions des exercices du manuel sans vraiment comprendre. Cet étudiant excellera sur les exercices qu’il a mémorisés mais échouera face à toute variation ou nouveau problème.

Le premier étudiant a “généralisé” son apprentissage, le second a “surappris” les exemples spécifiques. C’est exactement la différence entre un bon modèle de machine learning et un modèle en overfitting.

L’overfitting est trompeur et dangereux car le modèle semble excellent durant le développement. Il obtient des scores de précision de 99% ou plus sur les données d’entraînement. Les développeurs et les stakeholders sont ravis. Puis le modèle est déployé en production et échoue lamentablement, prédisant incorrectement, créant potentiellement des dommages business significatifs et minant la confiance dans l’IA.

Pour un dirigeant d’entreprise, comprendre l’overfitting n’est pas un détail technique mais un risque opérationnel majeur. C’est la raison principale pour laquelle beaucoup de projets ML qui semblaient prometteurs en POC échouent en production. C’est pourquoi une validation rigoureuse et une compréhension des bonnes pratiques sont essentielles avant de déployer un modèle en situation réelle.

Les causes de l’overfitting

Plusieurs facteurs peuvent conduire à l’overfitting, souvent en combinaison.

La complexité excessive du modèle est la cause classique. Un modèle avec énormément de paramètres (un réseau de neurones profond avec des millions de poids, par exemple) a la capacité de mémoriser essentiellement toutes les données d’entraînement. Si vous avez 10 000 exemples d’entraînement et un modèle avec 10 millions de paramètres, ce modèle peut littéralement stocker chaque exemple. Il “apprend” en mémorisant plutôt qu’en généralisant.

C’est comme utiliser un canon pour tuer une mouche. Un modèle trop puissant pour la tâche et les données disponibles trouvera des patterns même dans le bruit aléatoire, des corrélations spurieuses qui n’existent que dans cet échantillon spécifique.

L’insuffisance de données d’entraînement crée un déséquilibre entre la capacité du modèle et l’information disponible pour le guider. Si vous essayez d’entraîner un modèle complexe avec seulement 100 exemples, il n’a pas assez d’information pour apprendre les vrais patterns. Il va capturer les particularités de ces 100 exemples spécifiques plutôt que les règles générales.

Le bruit dans les données amplifie le problème. Les données réelles contiennent toujours du bruit : erreurs de mesure, anomalies, outliers, étiquettes incorrectes. Un modèle en overfitting apprend ces erreurs comme s’ils étaient des patterns valides, essayant de les reproduire sur de nouvelles données où ces particularités n’existent évidemment pas.

Un entraînement trop long peut conduire à l’overfitting. Au début de l’entraînement, le modèle apprend les patterns généraux. Mais si l’entraînement continue trop longtemps sans régularisation appropriée, le modèle commence à mémoriser les détails spécifiques des données d’entraînement, ses performances sur les données de test commencent à se dégrader tandis que ses performances sur les données d’entraînement continuent d’augmenter.

L’absence de diversité dans les données signifie que les exemples d’entraînement ne représentent pas la variabilité du monde réel. Si vous entraînez un modèle de détection de fraude uniquement sur des fraudes d’un certain type, il performera mal face à de nouvelles formes de fraude même légèrement différentes.

Détecter l’overfitting

Reconnaître l’overfitting est crucial pour éviter de déployer des modèles défaillants.

Le symptôme classique est un grand écart entre les performances sur les données d’entraînement et les données de test. Si votre modèle atteint 99% de précision sur l’entraînement mais seulement 70% sur le test, c’est un signal d’alarme rouge d’overfitting. Le modèle a mémorisé les données d’entraînement mais ne généralise pas.

Les courbes d’apprentissage révèlent visuellement l’overfitting. Vous tracez l’erreur d’entraînement et l’erreur de validation au fil des itérations d’entraînement. Au début, les deux diminuent ensemble. Dans un modèle en overfitting, l’erreur d’entraînement continue à diminuer tandis que l’erreur de validation stagne puis augmente. C’est le moment où le modèle commence à mémoriser plutôt qu’apprendre.

La validation croisée est une technique standard pour détecter l’overfitting. Au lieu de simplement séparer les données en entraînement/test une fois, vous divisez les données en plusieurs “folds” et entraînez le modèle plusieurs fois, chaque fois avec un fold différent comme ensemble de test. Si les performances varient wildement selon les folds, c’est un signe que le modèle n’est pas stable et probablement en overfitting.

L’analyse des erreurs peut révéler des patterns d’overfitting. Si le modèle performe parfaitement sur certains types d’exemples (ceux similaires aux données d’entraînement) mais échoue complètement sur des variations légères, c’est caractéristique de l’overfitting.

Les tests de robustesse exposent l’overfitting. Modifier légèrement les données d’entrée (ajouter un peu de bruit, changer l’éclairage d’une image, reformuler une phrase) ne devrait pas dramatiquement changer les prédictions d’un modèle bien généralisé. Un modèle en overfitting sera fragile face à ces petites perturbations.

Pour une organisation, ces techniques de détection doivent être systématiquement appliquées durant le développement de modèles. Ne vous fiez jamais uniquement aux performances sur les données d’entraînement. Exigez toujours des validations sur des données complètement indépendantes, idéalement des données réelles de production.

Prévenir et corriger l’overfitting

Heureusement, de nombreuses techniques existent pour prévenir ou corriger l’overfitting.

Augmenter la quantité de données d’entraînement est souvent la solution la plus efficace. Plus vous avez de données diversifiées, plus il est difficile pour le modèle de les mémoriser toutes et plus il est forcé d’apprendre les vrais patterns généraux. Bien sûr, obtenir plus de données a un coût, mais c’est souvent l’investissement le plus rentable.

La simplification du modèle réduit sa capacité à mémoriser. Utilisez moins de couches dans un réseau de neurones, moins d’arbres dans une forêt aléatoire, moins de features. Un modèle plus simple a moins de flexibilité pour s’adapter aux particularités des données d’entraînement. Le principe du “rasoir d’Ockham” s’applique : préférez le modèle le plus simple qui résout votre problème.

La régularisation pénalise la complexité du modèle. Des techniques comme L1 (Lasso) ou L2 (Ridge) ajoutent un terme à la fonction de perte qui punit les poids importants. Cela force le modèle à rester “simple” même s’il a beaucoup de paramètres. Dropout, une technique populaire en deep learning, désactive aléatoirement des neurones durant l’entraînement, empêchant le réseau de trop dépendre de connexions spécifiques.

L’arrêt précoce (early stopping) surveille les performances sur un ensemble de validation durant l’entraînement et arrête quand elles commencent à se dégrader, avant que l’overfitting ne s’installe. C’est simple mais efficace.

L’augmentation de données crée artificiellement plus de variété. Pour des images, vous pouvez appliquer des rotations, des recadrages, des changements de luminosité. Pour du texte, vous pouvez faire des paraphrases, des traductions aller-retour. Ces variations forcent le modèle à apprendre des représentations plus robustes.

L’ensemble learning combine plusieurs modèles. Même si chaque modèle individuel est légèrement en overfitting sur des aspects différents, leur combinaison (par vote ou moyenne) tend à mieux généraliser. C’est pourquoi les méthodes d’ensemble (Random Forests, Gradient Boosting) sont si populaires.

La validation croisée durant le développement garantit que vos évaluations de performance sont réalistes. Ne vous contentez jamais d’un seul split entraînement/test.

La feature engineering judicieuse sélectionne et crée des variables d’entrée vraiment informatives plutôt que d’inonder le modèle avec toutes les variables possibles. Moins de features mais mieux choisies réduisent l’overfitting.

Pour une organisation, établir ces bonnes pratiques comme standards dans tous les projets ML est essentiel. Former vos data scientists à reconnaître et prévenir l’overfitting devrait être une priorité. Intégrer des étapes de validation rigoureuses dans vos pipelines MLOps garantit que seuls des modèles réellement généralisables atteignent la production.

L’underfitting : le problème inverse

Pour bien comprendre l’overfitting, il faut aussi connaître son opposé : l’underfitting (sous-apprentissage).

L’underfitting survient quand le modèle est trop simple pour capturer la complexité des données. Imaginez essayer de modéliser une relation complexe et non-linéaire avec une simple ligne droite. Le modèle sera mauvais tant sur les données d’entraînement que de test, pas parce qu’il mémorise mais parce qu’il n’a tout simplement pas la capacité de représenter les patterns réels.

Les symptômes d’underfitting sont : performances médiocres sur les données d’entraînement ET de test, courbes d’apprentissage qui stagnent à un niveau élevé d’erreur, modèle qui semble “ne rien apprendre” même avec plus de données ou plus d’entraînement.

Résoudre l’underfitting nécessite l’approche inverse de l’overfitting : augmenter la complexité du modèle, ajouter des features, entraîner plus longtemps, utiliser des architectures plus sophistiquées.

Le défi du machine learning est de trouver le “sweet spot” entre underfitting et overfitting. Un modèle suffisamment complexe pour capturer les patterns réels, mais pas tellement qu’il mémorise le bruit. Ce compromis biais-variance est au cœur de l’art du ML.

Pour un dirigeant, comprendre que les modèles peuvent échouer dans les deux directions (trop simple ou trop complexe) aide à avoir des attentes réalistes et à poser les bonnes questions. “Le modèle est-il approprié pour la complexité du problème ?” est aussi important que “Le modèle généralise-t-il bien ?”.

Overfitting dans différents contextes

L’overfitting se manifeste différemment selon les types de modèles et d’applications.

En classification, l’overfitting produit des frontières de décision excessivement compliquées qui épousent parfaitement les données d’entraînement mais échouent sur de nouveaux points. Imaginez une frontière qui zigzague de manière tortueuse pour classer correctement chaque point d’entraînement, alors qu’une frontière plus simple et lisse serait plus généralisable.

En régression, l’overfitting crée des courbes qui passent exactement par chaque point d’entraînement, capturant le bruit, alors qu’une courbe plus lisse représentant la tendance générale serait meilleure pour les prédictions.

En traitement du langage, l’overfitting peut faire qu’un modèle mémorise des phrases spécifiques plutôt que de comprendre le langage. Il excellera sur les phrases vues durant l’entraînement mais sera perdu face à des formulations légèrement différentes.

En vision par ordinateur, l’overfitting peut faire qu’un modèle mémorise des images spécifiques ou apprend des corrélations spurieuses (comme associer “chien” à “herbe” parce que beaucoup de photos de chiens dans l’entraînement sont prises dans l’herbe).

En séries temporelles, l’overfitting peut capturer des patterns aléatoires dans l’historique qui ne se reproduiront pas dans le futur, conduisant à des prévisions catastrophiquement incorrectes.

Pour les LLM, bien qu’ils soient entraînés sur des quantités massives de données réduisant le risque d’overfitting classique, ils peuvent développer des formes subtiles d’overfitting : mémorisation de passages spécifiques de leur entraînement, reproduction de biais présents dans les données, sur-ajustement aux préférences humaines capturées durant RLHF au détriment de la factualité.

Chaque domaine a ses particularités, mais le concept fondamental reste le même : mémorisation versus généralisation.

Implications business de l’overfitting

L’overfitting n’est pas qu’un problème technique, il a des conséquences business directes et potentiellement graves.

Les coûts d’un modèle en overfitting peuvent être considérables. Imaginez un modèle de scoring de crédit en overfitting déployé en production : il refusera des bons clients et acceptera des mauvais, causant directement des pertes financières. Un modèle de prévision de demande en overfitting conduira à du surstock ou des ruptures, impactant les revenus et les coûts. Un système de détection de fraude en overfitting laissera passer des fraudes réelles tout en bloquant des transactions légitimes, frustrant les clients.

La perte de confiance dans l’IA est peut-être encore plus dommageable. Si une organisation déploie un modèle qui échoue visiblement en production, les stakeholders perdront confiance non seulement dans ce modèle spécifique mais dans l’approche ML en général. Cette perte de confiance rendra difficile d’obtenir du soutien pour de futurs projets IA, même meilleurs.

Le gaspillage de ressources de développement est significatif. Des mois de travail de data scientists, des coûts de compute pour l’entraînement, des investissements en infrastructure, tout cela gaspillé si le modèle final ne fonctionne pas en production à cause d’overfitting non détecté.

Les risques réglementaires et de réputation émergent si un modèle en overfitting prend des décisions discriminatoires ou erronées sur des clients, patients, ou employés. Dans des domaines réglementés (finance, santé, RH), les conséquences peuvent inclure des amendes, des procès, et des dommages réputationnels massifs.

L’opportunité coût est le bénéfice potentiel non réalisé. Un bon modèle bien généralisé pourrait créer de la valeur significative, améliorer des processus, optimiser des décisions. Cette valeur est perdue si le modèle échoue à cause d’overfitting.

Pour minimiser ces risques, les organisations doivent :

Établir des processus de validation rigoureux avant tout déploiement
Exiger des tests sur des données complètement nouvelles, idéalement de vraies données de production
Mettre en place un monitoring continu en production pour détecter rapidement les dégradations de performance
Créer une culture où questionner la généralisation d’un modèle est encouragé, pas vu comme de la négativité
Former les stakeholders non-techniques à reconnaître les signaux d’alarme d’overfitting

L’overfitting et les LLM modernes

Les grands modèles de langage présentent des dynamiques d’overfitting intéressantes et parfois contre-intuitives.

Le pré-entraînement à très grande échelle sur des trillions de tokens rend l’overfitting classique moins problématique. Avec tant de données diverses, ces modèles développent généralement une bonne capacité de généralisation.

Cependant, la mémorisation existe. Des études montrent que les LLM peuvent reproduire verbatim des passages de leurs données d’entraînement, soulevant des questions de copyright et de confidentialité. Ce n’est pas exactement de l’overfitting au sens traditionnel mais c’est relié : le modèle a “trop bien appris” certains contenus spécifiques.

Le fine-tuning introduit des risques. Quand vous fine-tunez un LLM sur vos données spécifiques avec un dataset relativement petit, l’overfitting redevient un risque réel. Le modèle peut “oublier” sa généralité et sur-ajuster à vos exemples spécifiques.

Le RLHF peut créer des formes subtiles d’overfitting. Le modèle s’ajuste aux préférences des annotateurs humains, qui peuvent ne pas être représentatives de tous les utilisateurs finaux. Il “overfit” aux jugements spécifiques des annotateurs.

Les jailbreaks et prompts adversariaux exploitent en partie des formes d’overfitting. Le modèle a appris à refuser certains types de requêtes formulées d’une certaine manière, mais n’a pas vraiment “compris” profondément les limites appropriées, permettant de contourner les garde-fous avec des reformulations.

Pour les entreprises utilisant des LLM, cela implique :

Être prudent avec le fine-tuning sur de petits datasets
Tester sur des prompts et situations diverses, pas seulement celles anticipées
Monitorer les outputs en production pour détecter des comportements problématiques
Comprendre que même les meilleurs LLM ont des zones d’overfitting ou de mémorisation

Conclusion : la vigilance constante est de mise

L’overfitting est un défi fondamental et persistant du machine learning. Ce n’est pas un problème qu’on résout une fois pour toutes, mais un risque qu’on doit continuellement gérer et mitiger dans chaque projet ML.

Pour les dirigeants d’entreprise, les leçons clés sont :

Ne vous fiez jamais uniquement aux performances rapportées sur les données d’entraînement. Exigez toujours des validations sur des données nouvelles, idéalement de vraies données de production.

Investissez dans des processus de validation rigoureux. C’est moins excitant que de développer de nouveaux modèles mais absolument critique pour éviter des échecs coûteux.

Cultivez le scepticisme sain. Quand un modèle semble “trop beau pour être vrai” avec des performances parfaites, c’est probablement le cas. Creusez plus profond.

Valorisez la généralisation sur la performance brute. Un modèle avec 85% de précision qui reste stable sur de nouvelles données est infiniment plus précieux qu’un modèle à 99% qui s’effondre en production.

Formez vos équipes non seulement à construire des modèles mais à les valider rigoureusement. Les compétences en détection et prévention de l’overfitting sont aussi importantes que les compétences en construction de modèles.

L’overfitting rappelle une vérité fondamentale : le but du machine learning n’est pas de mémoriser le passé mais de prédire l’avenir. Un modèle qui ne généralise pas, peu importe sa sophistication technique, est inutile voire dangereux. Garder cette perspective guide vers des déploiements d’IA réellement créateurs de valeur et fiables.

Retour à la page d’accueil du glossaire