Cette liste contient uniquement les pays pour lesquels des offres d'emploi ont été publiées dans la langue sélectionnée (par exemple, dans la version française, seules les offres rédigées en français sont affichées, et dans la version anglaise, uniquement celles en anglais).
Au sein de l'équipe Ingénierie des Données, vous aurez pour mission de contribuer à la conception, au développement et à la fiabilisation des pipelines de données alimentant l'Entrepôt de Données de Santé (EDS), afin d'en garantir la qualité et la disponibilité pour les chercheurs et les professionnels de santé. Dans le cadre de votre apprentissage, vous serez amené·e à travailler sur des projets impliquant : · L'intégration de sources de données hétérogènes issues du Système d'Information hospitalier, · Le traitement et la transformation de volumes massifs de données de santé, · L'industrialisation et le monitoring de traitements au sein d'une plateforme Big Data. Vous travaillerez en étroite collaboration avec les équipes de data science et d'analyse des données pour garantir la fiabilité, la performance et la traçabilité des solutions développées.
Responsabilités
Développer et maintenir des jobs Spark (Scala et/ou Python) pour l'intégration, la transformation et la mise en qualité des données
Contribuer à l'orchestration des pipelines de données avec Apache Airflow (conception de DAGs, gestion des dépendances, monitoring)
Participer au déploiement et à l'exploitation des traitements sur Kubernetes (configuration Helm, debugging, gestion des ressources)
Contribuer à l'optimisation des requêtes et des modèles de données
Mettre en place et maintenir des tests automatisés sur les données et les pipelines
Participer aux pratiques DevOps de l'équipe : intégration continue sur GitLab, revues de code, déploiement via ArgoCD
Documenter les traitements, les schémas de données et les procédures d'exploitation
Exigences
Vous êtes étudiant·e en informatique, data engineering ou traitement de données massives et possédez un intérêt marqué pour l'ingénierie des données et les systèmes distribués
Bonnes connaissances en Python et/ou Scala
Bonnes connaissances en SQL (requêtage, modélisation, optimisation)
Connaissances des frameworks de traitement distribué (Spark, ou équivalent)
Connaissances en orchestration de workflows (Airflow, ou équivalent)
Notions de conteneurisation et d'orchestration (Docker, Kubernetes)
Notions de gestion de version et d'intégration continue (Git, CI/CD)
Connaissances des technologies de stockage et d'interrogation de données (PostgreSQL, Trino, S3, HDFS...)
Appétence pour les pratiques DevOps et l'infrastructure as code
Déontologie, respect du secret professionnel et sensibilité à la protection des données de santé
Formation en cours (M1 ou M2 Alternance) délivrant un diplôme d'ingénieur ou de master en informatique, data engineering, sciences des données ou traitement de données massives
Maîtrise de l'anglais technique indispensable (documentation, lecture d'articles, échanges écrits)
Curiosité technique et envie d'apprendre dans un environnement complexe
Bonne capacité d'analyse et esprit de synthèse
Rigueur dans l'écriture de code et le traitement des données
Autonomie et sens de l'initiative
Capacité d'adaptation face à des problématiques variées
Sens du travail en équipe et aptitude à collaborer avec des profils pluridisciplinaires (data scientists, analystes, médecins)
Force de proposition
Adhésion aux valeurs du service public et intérêt prononcé pour le domaine de la santé
Nous utilisons des cookies pour améliorer votre expérience de navigation, analyser le trafic et proposer du contenu personnalisé. En cliquant sur « Accepter », vous consentez à l'utilisation des cookies.
Connectez-vous pour postuler
Créez un compte gratuit ou connectez-vous pour accéder à la page de candidature de cette offre.
Postulez et suivez toutes vos candidatures au même endroit
Enregistrez des offres et ne perdez aucune opportunité intéressante