De nos jours, toutes les entreprises de tous les secteurs (exp: Amazon, EDF, Auchan, Nike, …) ne font que produire des données brutes chaque jour et elles ont toutes besoin de traiter ces données afin de les rendre facilement compréhensibles aux décideurs pour l’aide à l’analyse et à la prise de décision.
Pour répondre à ce besoin, il existe des solutions informatique comme « l’Informatique Décisionnelle » ou les « Big Data » qui grâce à des ETL comme TALEND DI et des outils de visualisation comme PowerBI permettent de transformer, agréger et visualiser des données sous forme de rapport ou dashborad pour des fins décisionnelles.
Compte tenu de l’utilité des ETL pour la transformation des données massives, j’ai trouvé nécessaire de vous faire cette formation d’initiation sur l’ETL « Talend Open Studio for data intégration (TOS) » qui est l’un des ETL les plus utilisés sur des projets DATA actuellement en France mais également dans le monde entier.
L'objectif est de dérouler avec vous un mini projet pratique qui traite toute la chaine décisionnelle notamment de l’extraction, la transformation et l’agrégation de données à partir de fichiers de type CSV, EXCEL, TXT et ZIP, puis l’intégration de ces données agrégées dans une base de données POSTGRESQL et pour finir par la visualisation des résultats sur l’outil de restitution PowerBI.
Notre objectif pour vous permettre de devenir autonome sur Talend DI grâce à cette formation est la suivante :
Imaginons qu’en tant que consultant BI ou développeur DATA, vous êtes engagé par une entreprise spécialisée dans l’étude des épidémies ou que cette entreprise soit le gouvernement Français par exemple qui vous fournit un fichier contenant toutes les informations sur les patients ou personnes ayant eu le Covid-19 au cours de l’année 2021 dans son pays.
Ces informations sont par exemple l’identité du patient, sa région, son département, le nom de l’établissement hospitalier où il/elle a été hospitalisé, la date début de son hospitalisation, sa date fin d’hospitalisation, l’état du patient à la fin de son hospitalisation et la durée de son traitement.
A partir de ces données brutes, le besoin qui va permettre au gouvernement où l’entreprise quelconque d’analyser et prendre des décisions serait de déterminer par exemple la durée moyenne de traitement par patient ou le nombre de patients ATTEINT, GUERI, DECEDE du COVID-19 au cours de l’année 2021 par les axes d’analyse suivants :
- Par Région
- Par Département
- Par Hôpital
- Par Mois
- Ou par année
Nous allons déterminer par exemple le nombre de patients qui sont décédés du COVID-19 par région en 2021 grâce à Talend Open Studio for Data Integration en faisant des extractions, transformations et agrégations de données à partir des fichiers sources que j'ai conçu spécialement pour faire une simulation de A à Z sur Talend DI au cours de ce mini-projet.
Le choix des données de type COVID me parait idéal pour la compréhension facile, l’étude et la transformation des données.
La formation est faite avec différents scenarios que nous allons découvrir ensemble lors des développements de flux/jobs sur Talend Open Studio et qui vont surtout vous permettre de prendre la main sur cet ETL de data intégration tout en vous amusant tout au long cette formation.
NB: Les données sur les patients ne sont pas des données réelles mais elles ont été imaginées et conçues soigneusement afin de faire une simulation en réalisant un mini-projet pratique sur l'ETL Talend DI.