Architect /Data engineering Big Data

Data
Partager

Projet : Réalisation d’un projet d’architecture Big Data distribuée et scalable avec un sujet de traitement analytique : Fouille de texte classification thématique des plaintes des institutions financières.

  • Mise en place et configuration d’une architecture distribuée complète Big Data : VirtualBox, Linux, Yarn, Hadoop, Zookeeper ,Terraform, Spark ,HDFS,  Hive,.
  • Etude de la problématique de scalabilité du cluster : rendre le cluster distribué et scalable par rapport au traitement analytique.
  • Réplication et répartition des données.
  • Fouille de texte : explorer et analyser une base de texte de grandes tailles des plaintes des consommateurs des institutions financières pour objectif est de classifier les textes et les orienter la plainte vers le bon service
  • Gestion et répartition des ressources cpu , ram , disque  dans les nœud du cluster et amélioration de la performance

Environnement

  • Linux
  • VirtualBox
  • Terraform
  • Hadoop
  • Yarn
  • Hive
  • Zookeeper
  • Spark
  • Scala
  • Pyspark
  • Python
  • lsa
  • lda
  • kmeans
  • word2c
  • SparkNLP
  • Anaconda
  • sbt
  • Eclipse
  • yaml
  • data vizualisation
https://sidexia.com/nos-competences/architect-data-engineering-big-data/
Top