Vous intégrerez l?équipe ?Platform Team? de la tribe Paiement de la Digital Factory en tant que Tech Lead SRE ? Site Reliability Engineer (H/F).
Vous superviserez l'ensemble des activités SRE et porterez la vision technique de l'équipe :
Participerez à la conception et mise en ?uvre de l?architecture résiliente et évolutive des plateformes (cloud, containers, automatisation
Définition des standards SRE, des bonnes pratiques DevOps, et de la stratégie technique (CI/CD, observabilité, sécurité, gestion des incidents)
Encadrement et développement de l?équipe SRE (mentorat, pair programming, formation)
Gestion des relations techniques avec les autres équipes Platform et fournisseur cloud
Solide maîtrise des outils d?infrastructure (Kubernetes, Docker, Terraform, monitoring avancé) et des langages (Python, Go, Java)
Expérience confirmée en leadership technique, capacité à prendre des décisions structurantes, à arbitrer et à communiquer dans des environnements complexes Vous interviendrez sur tous les aspects de maintien en condition opérationnel des applications constituant la tribe Paiement, en veillant à l'optimisation et la stabilisation des environnements de production et hors production.
Vous collaborerez avec les autres équipes de la tribe ou externe à celle-ci pour résoudre les problèmes liés la configuration, au déploiement ou au déboggage des applications.
Vous devrez suivre l'observabilité des applications constituant la tribe en levant les alertes et en effectuant les premières analyses en cas de pannes détectées.
Optimiser les performances des applications déployées dans le cloud et garantir leur scalabilité en fonction des besoins.
Assurer l'optimisation des infrastructures en termes de coûts et d'utilisation.
Veiller à l'évolution et la maintenance des processus de surveillance (observabilité) et du monitoring des infrastructures et applications déployées dans le cloud
Responsabilités Responsable des actions de sécurité et conformité de la plateforme Paiement (en collaboration avec l?architecte et les Tech Lead)
En collaboration avec l'architecte et les Tech Lead, concevoir et faire évoluer l'architecture cible de la plateforme Paiement en garantissant résilience, performance et scalabilité Participer activement à la définition des patterns d'architecture reproductibles (blueprints : networking, sécurité, déploiement, observabilité)
Participer activement aux choix technologiques structurants et aux orientations d'urbanisation cloud et plateforme
Construire et améliorer les pipelines CI/CD (GitLab CI) incluant tests automatisés, scans sécurité, qualité et déploiements progressifs Réduire le travail manuel en automatisant les opérations répétitives (scripts, jobs, workflows)
Accompagner les équipes de développement dans l'adoption de ces modèles Analyser, corriger et suivre les tickets (Service Now / Jira) de support niveau 3 émanant des différents supports de niveau 2 et de tout l'écosystème (plateforme de paiement et partenaires externes de paiement).
Effectuer les traitements de maintenance en condition opérationnelle incluant les rattrapages en cas d'incidents, les opérations de bulk. Maintenir à jour la documentation des infrastructures et de toutes les procédures de maintien en condition opérationnelle de l'équipe.
Participer au handover lors de livraison en production de nouvelles features. Livrer des rapports techniques « on demand » concernant les performances/incidents de la plateforme.
Participer et être force de proposition dans toutes les réunions de suivis avec les différentes équipes de supports.
Analyser et être capable de traduire l?analyse vers les équipes de développement en cas de correction à mettre en place suite à un ticket d?incident ou d'optimisation.
Mettre en place, maintenir et suivre au jour le jour les systèmes de surveillance pour assurer la disponibilité et la performance des applications (Splunk Observability). Réagir rapidement en cas de défaillance ou de panne, analyser les causes et proposer des solutions pérennes.
Suivre les coûts de la plateforme AWS et détecter au plus tôt les dérives puis proposer des solutions pour rester dans les budgets (approche FinOps structurée).
Profil candidat:
De formation Bac +4/5 dans une école d'ingénieur ou une université en informatique. Vous justifié d'au moins 10 ans d'expérience en tant que SRE dont plusieurs expériences avérées en tant que lead dans de grands comptes. Au moins une expérience significative sur le déploiement d'applications dans AWS et notamment sur les services ECS/RDS/S3/EVENT BRIDGE/Cloudwatch.