Architect /Data engineering Big Data
Data
Projet : Réalisation d’un projet d’architecture Big Data distribuée et scalable avec un sujet de traitement analytique : Fouille de texte classification thématique des plaintes des institutions financières.
- Mise en place et configuration d’une architecture distribuée complète Big Data : VirtualBox, Linux, Yarn, Hadoop, Zookeeper ,Terraform, Spark ,HDFS, Hive,.
- Etude de la problématique de scalabilité du cluster : rendre le cluster distribué et scalable par rapport au traitement analytique.
- Réplication et répartition des données.
- Fouille de texte : explorer et analyser une base de texte de grandes tailles des plaintes des consommateurs des institutions financières pour objectif est de classifier les textes et les orienter la plainte vers le bon service
- Gestion et répartition des ressources cpu , ram , disque dans les nœud du cluster et amélioration de la performance
Environnement
Linux
VirtualBox
Terraform
Hadoop
Yarn
Hive
Zookeeper
Spark
Scala
Pyspark
Python
lsa
lda
kmeans
word2c
SparkNLP
Anaconda
sbt
Eclipse
yaml
data vizualisation
sidexia
https://sidexia.com/nos-competences/architect-data-engineering-big-data/