Normalisation
Normalisation
La normalisation (standardization en anglais) est une méthode de prétraitement des données, qui consiste à soustraire aux données leur moyenne empirique « m », puis à diviser le résultat par l’écart-type empirique des données σ.

La normalisation des données en machine learning permet de s’assurer que les valeurs pour tous les attributs (colonnes) des observations sont dans les mêmes ordres de grandeur. Ainsi, on évite qu’un attribut ait une influence démesurée sur le modèle.
La normalisation est nécessaire pour la régression et pour certains algorithmes de classification (K-moyennes, t-SNE…), mais à proscrire pour l’analyse en composantes principales (PCA), qui identifie les dimensions utiles), et inutile pour les arbres de décisions, qui utilisent des seuils pour réaliser leurs prédictions.
Syntaxe Python

Illustration
Vous voyez ici que la normalisation ne change pas la répartition statistique des données, mais seulement leur unité et leur écart-type. L'histogramme de répartition des données a la même allure, mais les valeurs des axes ont changé lors de la normalisation, pour permettre aux données normaliséees d'avoir une moyenne de 0 (en réalité, elle est légèrement non-nulle à cause des arrondis réalisés par l'ordinateur) et un écart-type de 1.


Voir aussi : all(), any(), append(), count(), enumerate(), extend(), filter(), float() format() input(), int(), isdigit(), isinstance(), items(), join(), endswith(), list(), map(), max(), mean(), min(), pop(), range(), len(), startswith(), zip(), type(), get(), symmetric_difference(), keys(), difference()
Numpy : arange(), array(), delete(), hsplit(), hstack(), linspace(), logical_and(), logical_or(), polyfit()
Pandas : concat(), concatenate(), describe(), dict(), drop_duplicates(), dropna(), fillna(), from_dict(), groupby(), head(), iloc, info(), insert(), isin(), melt(), merge(), pivot_table(), read_csv(), read_excel(), rename(), where()
Machine Learning : F1-Score, Précision, Rappel, Normalisation, Courbe d’apprentissage, Les résidus, Régression VS classification, Mean Absolute Error (MAE), Mean Squared Error (MSE), Root Mean Squared Error (RMSE), Accuracy, L’astuce du noyau, Bases d’apprentissage et de test, Classes linéairement séparables, Apprentissage supervisé VS non-supervisé, Coefficient de détermination R2, Validation croisée
N'hésitez pas à consulter nos formations sur cette page.