Data Engineer - H/F

Company:
Location: Télétravail

*** Mention DataYoshi when applying ***

Nous cherchons un collaborateur pour l'équipe BI/Big data. Cette équipe est responsable de l'intégration de toutes les données (big ou small data) dans notre datalake Hadoop, afin de les mettre à disposition de tous les collaborateurs Mappy, par exemple dans Tableau Software.


CONTEXTE

Les serveurs Mappy produisent 200 Go de logs chaque jour, dont nous tirons des informations sur la performance de nos algorithmes et sur l'usage de Mappy par nos utilisateurs. C'est avec Spark / Scala que nous parsons et combinons ces logs afin de paralléliser massivement nos calculs dans notre cluster de 500 coeurs. Nous utilisons également Indexima pour assurer de l’analytics rapide, ainsi qu’Elasticsearch / Kibana pour afficher une fenêtre de données de deux semaines à une granularité très fine. Tous ces calculs sont lancés par Airflow ou bien par Jenkins.


La datalake est également utilisé dans l’équipe pour des calculs de datascience autour de la donnée géographique ou encore pour analyser les parcours utilisateurs dans le site.


L'équipe suit la méthodologie Scrum (méthodologie agile) dans un environnement d'intégration continue, atour de technologies Open source : scala, spark, Hadoop, Jenkins, git, Python, Linux.

Hors contexte de pandémie, le télétravail est possible plusieurs fois dans la semaine.


MISSIONS

  • Développement et industrialisation de nos traitements de données massives
  • Parsing de logs et extraction de données
  • Consolidation d’indicateurs métier à partir de la donnée extraite
  • Alimentation des outils de visualisation avec les indicateurs
  • Création / maintenance de chaînes de traitement
  • Ecriture de tests
  • Mises en production
  • Vérification et validation des données issues de nos traitements
  • Participation aux travaux d'architecture de notre plateforme BigData

PROCESS DE RECRUTEMENT

1. Plutôt qu'une lettre de motivation, nous préférons proposer au candidat un fizzbuzz rapide (max 1h) pour valider qu'on est sur la même longueur d'onde et proposer un aperçu de la donnée qu'on traite
2. Prise de contact téléphonique
3. Un entretien technique : un exercice de traitement de données en Spark (durée - 1h30). L'énoncé de l'exercice vous sera fourni la veille afin que vous en preniez connaissance.

4. Un entretien avec la Responsable des Ressources Humaines


  • Expérience solide en développement dans un langage de la JVM (Java, Scala, Clojure, …)
  • Expérience solide en bases de données (langage SQL)
  • Expérience significative des composants Big Data (Hadoop, MapReduce, Hive, Spark, ...)
  • Expérience avec un langage fonctionnel (Scala, Caml, Haskell, …)
  • Bonne et des outils d'aide au développement (Maven, Git, Jenkins, ...)
  • Connaissance des systèmes Linux
  • La connaissance d'un outil de Dataviz type Tableau Software est un plus
  • Aisance dans les méthodes de développement en organisation Agile

Nous cherchons développeur Spark, cependant, comme notre matière principale est constituée de logs d'appels HTTP, nous sommes ouvert à former au Big Data un développeur qui maîtrise les architectures Web (HTTP, serveurs Linux) et qui est à l'aise avec les bases de données et le langage SQL. Si c'est vote cas, n'hésitez pas à postuler.

*** Mention DataYoshi when applying ***

Offers you may like...

  • Facebook

    Data Engineer, Analytics Team
    Remote
  • CRG

    Sr. Cloud Data Engineer
    Cincinnati, OH 45202
  • 2nd Watch, Inc.

    Sr. Data Engineer - Cloud Services
    Remote
  • 2nd Watch, Inc.

    Data Engineer - Cloud Services
    Remote
  • Samaritan Health Services

    IS-Data Engineer II
    Corvallis, OR 97330