Sobreajustament (overfitting)

En l'aprenentatge automàtic, el sobreajustament (en anglès: overfitting) és l'efecte de sobreentrenar un algorisme d'aprenentatge amb unes certes dades pels quals es coneix el resultat desitjat. L'algorisme d'aprenentatge ha d'aconseguir un estat en el qual serà capaç de predir el resultat en altres casos a partir de l'après amb les dades d'entrenament, generalitzant per poder resoldre situacions diferents a les esdevingudes durant l'entrenament. No obstant això, quan un sistema s'entrena massa (se sobreentrena) o s'entrena amb dades estranyes, l'algorisme d'aprenentatge pot quedar ajustat a unes característiques molt específiques de les dades d'entrenament que no tenen relació causal amb la funció objectiu. Durant la fase de sobreajustament, l'èxit en respondre les mostres d'entrenament segueix incrementant-se mentre que la seva actuació amb mostres noves va empitjorant.

L'ús de la línia verda com a classificador s'adapta millor a les dades amb els quals hem entrenat al classificador, però està massa adaptada a ells, de manera que davant de noves dades probablement donarà més errors que la classificació usant la línia negra.

En altres paraules, el model recorda una gran quantitat d'exemples en lloc d'aprendre a notar característiques: el principal objectiu dels models d'intel·ligència artificial.