Contenu de cette formation
Parmi les rôles les plus importants du data analyst ou du data engineer c’est de savoir collecter des données qui sont bien souvent de différentes natures. Le langage Python offre la possibilité d’intégrer dans vos programmes des données de natures différentes.
Avec sa bibliothèque Pandas, Python récupère des données provenant de fichiers Excel, CSV, texte… Cette bibliothèque est entièrement dédiée à la Data Science.
Python propose également son module Requests qui permet de se connecter à des API. Ainsi vous pouvez récupérer des données de n’importe quelle API en toutes simplicités. C’est une méthode automatique pour obtenir de grandes quantités de données. Il existe beaucoup d’API open data à exploiter sur le WEB.
La méthode de Web Scraping est également une méthode automatique qui permet d’obtenir de grandes quantités de données sur le WEB. Cette méthode permet de récupérer des données non structurées au format HTML et de les convertir en données structurées. Scrapy est le Framework python open-source conçu spécifiquement pour le Scraping. BeautifoulSoup est dans le même esprit que Scrapy mais plus facile à manipuler.
Les modules Python comme mysql.connector par exemple vous permettra de vous connecter à des bases de données MySql. Vous trouverez les modules nécessaires dans ce langage pour bien d’autres servers de bases de données.