👨🏻‍💻 postech.work

Site Reliability Engineer (IT) / Freelance

Codezys • 🌐 In Person

In Person Posted 2 days, 16 hours ago

Job Description

Compétences techniques : Définir et implémenter des mécanismes de monitoring et d?alerting permettant de détecter les dysfonctionnements à tous les niveaux (front-end, backend, ETL, data quality, connectivité)

AWS : Prometheus, Cloudwatch (Logs, Metrics, Application Signals, Synthetics), PromQL, X-Ray, AWS Firewall

Azure : Azure Monitor, KQL, Application Insights, Container Insights, Log Analytics

Google Cloud Observability (metrics, cloud monitoring)

Grafana : Contribuer à la résilience des applications en implémentant et testant des mécanismes de sauvegarde des données et de restauration des applications : bonne connaissance et expérience des mécanismes de sauvegardes natifs AWS et Azure pour les bases de données, datalake, stockage blob. Implémenter des scénarios de Chaos Engineering (type Chaos Monkey) sur les environnements de production sur Azure et AWS. Mise en place de Disaster Recovery Plan et participation à l?implémentation et aux tests des mécanismes associés (pipelines de déploiement, restauration de données à partir de sauvegarde, etc.). Travailler sur l?optimisation de la gestion des incidents pour réduire le MTTR : détection, notification aux utilisateurs et suivi, outils d?analyse (logging). Mettre en place des solutions techniques d?AIOps pour améliorer l?observabilité, la résilience et la gestion des incidents dans le groupe. Implémenter et utiliser des agents IA capables d'identifier les améliorations relatives à la fiabilité à mettre en place sur les projets, de détecter les dysfonctionnements et de résoudre les pannes. Contribuer à améliorer la fiabilité des produits par la promotion auprès des équipes de bonnes pratiques SRE.

Soft skills : Aisance relationnelle et capacité de communiquer en anglais et en français à l?écrit et à l?oral. Capacité de présenter et expliquer des architectures techniques. Autonomie.

Conditions : Télétravail possible : 2 jours par semaine. Locaux : une grande ville métropolitaine.

Profil candidat:

Compétences requises

Compétences techniques

AWS : Niveau confirmé

Azure : Niveau confirmé

Programmation Python : Niveau expert

Infrastructure en tant que code (Terraform et Ansible) : Niveau confirmé

Test de résilience : Niveau confirmé

OpenTelemetry : Niveau confirmé

GIT : Niveau avancé

Compétences linguistiques

Anglais : Bilingue

Français : Courant

Get job updates in your inbox

Subscribe to our newsletter and stay updated with the best job opportunities.