1. Conception et développement de pipelines de données: Concevoir, développer et maintenir des pipelines de données robustes et évolutifs pour ingérer, transformer et rendre disponibles des données hétérogènes (structuré ou non structuré telle que des images satellites) provenant de différents acteurs du monde spatial. Cela inclut la gestion des flux de données en temps réel et en batch, ainsi que l’intégration de sources de données variées.
2. Gestion des données et Data Ops: Mettre en place des pratiques de Data Ops pour garantir la qualité, la fiabilité et la disponibilité des données tout au long de leur cycle de vie. Cela comprend la gestion des métadonnées, la gouvernance des données, la qualité des données, la gestion des versions, la surveillance des performances et la résolution des problèmes liés aux pipelines de données. Pour ce faire vous vous assurerez du bon usage et de la mise en oeuvre de notre outil de data observability.
3. Cloud data : Utiliser les services et outils de la plateforme Google Cloud Platform (GCP) pour concevoir et mettre en œuvre des solutions de données efficaces et évolutives. Exploiter les services tels que airflow,bigtable pour répondre aux besoins de stockage, de traitement et de mise à disposition des données. Vous êtes en mesure de gérer votre CI/CD sur Gitlab
4. Data Architecture Data Mesh: Vous mettrez en œuvre des architectures Medallion et Data Mesh et contribuerez à la mise en place de ces approches dans notre infrastructure de données. Vous travaillez en étroite collaboration avec les Ops pour concevoir et mettre en œuvre une architecture de données scalables, décentralisée et orientée domaine / data products.
5. Collaboration et partage de connaissances: Collaborer avec les équipes métier, les datascientists et les autres membres de l’équipe Data pour comprendre les besoins en données, proposer des solutions adaptées et partager les connaissances sur les bonnes pratiques de gestion des données et de développement.