Courbe d'apprentissage
Courbe d'apprentissage
La courbe d’apprentissage donne l’évolution du score R2 du modèle en fonction de la taille de la base d’apprentissage. Pour la calculer, l'ordinateur réalise plusieurs créations, entraînements et prédictions de modèles successifs, en agmentant la taille de la base d'apprentissage à chaque itération. La courbe d'apprentissage permet ainsi de représenter le comportement d'un modèle avec l'augmentation de la taille de la base d'apprentissage. On peut ainsi détecter les situations de sous-apprentissage et de sur-apprentissage :
Si le R2 ne s’améliore pas avec la taille de la base d’apprentissage, notre modèle est en sous-apprentissage.
Si le R2 pour la base de test reste faible, et ne converge pas avec celui de la base d’apprentissage, notre modèle est en sur-apprentissage.
Syntaxe Python
A l'aide de la bibliothèque Python Scikit-learn, on peut calculer rapidement la courbe d'apprentissage d'un modèle, avec la syntaxe suivante :

Exemple
On obtient un résultat comme celui-ci :

On constate ici que le score R2 sur la base de test se stabilise, que les score R2 des bases d'apprentissage et de test convergent bien, et qu'ils ont tous les deux une valeur satisfaisante (le R2 est d'autant meilleur qu'il est proche de 1). Le modèle ne semble donc pas être en sous-apprentissage, ni en sur-apprentissage.
Voir aussi : all(), any(), append(), count(), enumerate(), extend(), filter(), float() format() input(), int(), isdigit(), isinstance(), items(), join(), endswith(), list(), map(), max(), mean(), min(), pop(), range(), len(), startswith(), zip(), type(), get(), symmetric_difference(), keys(), difference()
Numpy : arange(), array(), delete(), hsplit(), hstack(), linspace(), logical_and(), logical_or(), polyfit()
Pandas : concat(), concatenate(), describe(), dict(), drop_duplicates(), dropna(), fillna(), from_dict(), groupby(), head(), iloc, info(), insert(), isin(), melt(), merge(), pivot_table(), read_csv(), read_excel(), rename(), where()
Machine Learning : F1-Score, Précision, Rappel, Normalisation, Courbe d’apprentissage, Les résidus, Régression VS classification, Mean Absolute Error (MAE), Mean Squared Error (MSE), Root Mean Squared Error (RMSE), Accuracy, L’astuce du noyau, Bases d’apprentissage et de test, Classes linéairement séparables, Apprentissage supervisé VS non-supervisé, Coefficient de détermination R2, Validation croisée
N'hésitez pas à consulter nos formations sur cette page.