Architect /Data engineering Big Data • sidexia

Mise en place et configuration d’une architecture distribuée complète Big Data : VirtualBox, Linux, Yarn, Hadoop, Zookeeper ,Terraform, Spark ,HDFS, Hive,.
Etude de la problématique de scalabilité du cluster : rendre le cluster distribué et scalable par rapport au traitement analytique.
Réplication et répartition des données.
Fouille de texte : explorer et analyser une base de texte de grandes tailles des plaintes des consommateurs des institutions financières pour objectif est de classifier les textes et les orienter la plainte vers le bon service
Gestion et répartition des ressources cpu , ram , disque dans les nœud du cluster et amélioration de la performance