Data Engineer H/F (IT)

Company:
Location: Paris (75)

*** Mention DataYoshi when applying ***

Notre client s’est doté d’un environnement Big Data Hadoop (distribution Cloudera CDH 6, CDP prochainement). Cet environnement est désensibilisé au sens du règlement RGPD et de la norme PCI-DSS (Payment Card Industry Data Security Standards). La désensibilisation des données entrant dans le Big Data se fait au travers d’une autre plateforme dénommée SI-PCI.

Nous recherchons pour notre client un Data Engineer pour renforcer l’équipe existante et assurer différents travaux pour alimenter et fiabiliser la plate-forme.

Les principales missions qui vont lui être confiées sont les suivantes :

Sur la partie Cloudera Big Data (Pyspark , Scala, Impala, Hive, Oozie ) :
  • Contribuer à la reprise d’historique de nos données du Big Data pour intégrer une nouvelle fonction d’anonymisation ;
  • Mise en place d’un programme de suivi qualitatif des données ingérées dans le Data Lake en fonction de spécifications fournies par la MOA ;
  • Reprise de différents traitements historiques (ingestion, analyse syntaxique (parsing), prise en compte des règles de gestion, stockage dans les BDD, etc.).
Les différents flux à intégrer sont :
o Flux de déclaration de fraude ;
o Flux de déclaration des impayés ;
o Mises en opposition ;
o Flux de déclaration de compensation et interchanges ;
o Demandes d’autorisation ;
o Mise à jour des données cartes (MDC) ;

  • Reprise des principales fonctions et programmes de la Lutte Contre La Fraude (LCLF) ;
  • Préparation des données issues du Big Data pour pouvoir les consommer avec leur outil de DataViz Tableau Server en tenant compte des contraintes de performances et de simplicité d’intégration via cet outil ;
  • Participer à la mise en place des tâches d’ordonnancement d’Oozie.
Sur la partie SI-PCI (Kubernetes, Jenkins, Python, Mysql Percona, Elasticsearch, Grafana), plateforme soumise aux bonnes pratiques de développement exigées par la norme PCI-DSS :
  • Ingestion / migration des différents flux legacy nécessitant l’anonymisation des données : cette tâche consiste à récupérer les flux sur la plateforme historique ou directement depuis nos partenaires, les anonymiser avec la fonction d’anonymisation (déjà en place), les enrichir puis les envoyer sur la plateforme Big Data ;
  • Développer un nouvel applicatif de mise à jour des données cartes : interrogation d’une API partenaire, désensibilisation des données, enrichissement puis alimentation du DataLake CB ;
  • Migrer et adapter sur la plateforme SI-PCI un applicatif écrit en Python permettant de suivre les commissions d’interchange : cette tâche peut être scindée en deux (une partie, sur le SI-PCI, d’anonymisation et de récupération d’information avec nos partenaires, l’autre partie sur Big Data) ;
  • Participer à l’étude technique (puis réalisation si l’étude est concluante) de mise en place d’une solution de Data Streaming (type Kafka, Spark Streaming).
Exigences générales :
  • Excellent niveau en Python ;
  • Capacité d’adaptation et force de proposition ;
  • Travail en équipe ;
  • Être familier avec les principes du DevOps.

*** Mention DataYoshi when applying ***

Offers you may like...

  • Grubhub Holdings, Inc.

    Senior Data Engineer
    New York, NY 10018
  • Splunk

    Data Engineer, DevOps - Remote OK
    Sun Prairie, WI 53590
  • Cognizant Technology Solutions

    Senior Data Engineer (Remote) - Advanced Technolog...
    Chicago, IL 60601
  • Lessonly

    Senior Data Engineer
    Indianapolis, IN 46202
  • Numerator

    Sr. Data Engineer
    Chicago, IL 60606