La semaine du 14 Mai 2018, j’ai eu le plaisir d’animer une formation Hadoop pour le compte d’un opérateur principal des Télécoms en France, via un des principaux centres de formation reconnus, en France également.
Ce sujet est passionnant, car il implique la mise en œuvre d’une foultitude de concepts et de technologies différentes, pour en citer une partie :
- Exploitation linux et administration de services
- Conteneurisation
- Implémentation sur site, sur AWS ou Azure
- Historique de l’évolution du stockage et du traitement des données
- Points forts et points faibles des bases relationnelles vis à vis des bases NoSql, et choix stratégiques
- Concepts clefs de Hadoop, architecture, fonctionnement
- Mise en œuvre du stockage et du traitement distribué via l’écosystème Hadoop
- Utilisation des langages : Java, C++, Python, Shell bash, R
- Implémentation via HDFS, Hive, HBase, Impala, Kafka, Flume, SolR
- Traitements via MapReduce, Pig, Spark
- Streaming via Spark, C++, R
- Visualisation orientée analyse via R
- Restitution via PowerBI et R intégré.
- Résumé des bonnes pratiques, et de la conception des solutions pour les flux de données
Et j’en oublie…
Attaquer Hadoop, contrairement au développement massivement parallèle de type HPC, nous mettons ici en œuvre un écosystème constitué d’une solution de base de traitement MapReduce en Java, et de Stockage distribué HDFS, qui seront ensuite encapsulés dans d’autres langages tel que Pig, méta tables Hive, ou nouveau framework plus performant tel que Spark, asynchronisme avec Kafka, …
A ce titre, toute société souhaitant faire le pas du BigData doit en effet passer un mur de compétences difficilement franchissable pour le commun des informaticiens expérimentés, sans effectuer un gros effort de mise à jour des compétences, via de la formation, des lectures de plusieurs ouvrages ( souvent en Anglais, à l’heure actuelle il y a toujours très peu de resources en Français ), pour une technologie « adolescente » actuellement en v3, qui a fait ses preuves, et continue de beaucoup évoluer.
Ce n’est donc pas vraiment une technologie, ou un ensemble de technologies supplémentaire, mais un axe complet vers des métiers spécifiques, l’ingénierie de la donnée 😉