Python propose la librairie Numpy qui est une librairie très populaire dans la data science. Cette librairie propose des outils de traitement de données très efficaces. Cette librairie est basée sur l’utilisation de tableaux à plusieurs dimensions. Il est possible d’effectuer sur ces tableaux des opérations statistiques et autres agrégations.
Les structures de données dans Numpy s’appellent des ‘ndarray’. Numpy permet de travailler sur une valeur simple, une liste ou encore une matrice. Pour créer un de ces éléments, Numpy propose la méthode « np.array() ».
Les additions, les soustractions, les multiplications et les divisions peuvent être effectuées directement sur les ‘ndarray’ contrairement aux listes classiques. Numpy propose également une série de méthodes permettant d’effectuer des calculs statistiques sur les ‘ndarray’.
Il est possible de créer un ‘ndarray’ avec la méthode ‘numpy.arange’ proche de la méthode ‘range()’.
A partir de la création d’un ‘ndarray’, Numpy propose une série de méthodes qui permettent de manipuler l’objet.
La méthode ‘numpy.size’ permet de retourner le nombre d’éléments que contient le ‘ndarray’. Cette méthode est similaire à ‘len()’.
La méthode ‘numpy.shape’ permet de retourner les dimensions du ‘ndarray’.
Il est possible également de modifier les dimensions d’un ‘ndarray’ en utilisant des méthodes comme ‘numpy.reshape()’ par exemple.
Numpy offre également des fonctionnalités de résolution de systèmes d'équations linéaires, de manipulation de matrices, de machine learning…
Pour conclure Numpy est optimisé pour la performance. C’est très pratique lorsque l’on a une base de données très importantes. C’est une librairie de Python incontournable pour le traitement de données.
NumPy est souvent utilisé avec Pandas. Pandas est une autre librairie de Python. Cette librairie offre des fonctionnalités très poussées sur la manipulation des structures de données notamment le DataFrame. Cette structure de données n’est rien de plus qu’un dictionnaire. Si Numpy et Pandas sont régulièrement utilisés ensemble c’est parce que NumPy fournit les outils pour les calculs mathématiques tandis que Pandas fournit les outils pour manipuler les structures de données.
Vous pouvez consulter également notre article sur les méthodes de traitements de données avec la bibliothèque Panda. Vous pourrez faire la différence entre Numpy et Panda.
N'hésitez pas à vous rapprocher de nous pour plus de détails sur nos formations.
Comments