Com mais de 20 anos de experiência e inovação, a RPE é uma empresa que transforma o varejo ao conectar tecnologia, expertise e resultados.
A RPE tem como objetivo viabilizar o amplo crescimento dos negócios varejistas e da economia nacional por meio de soluções ágeis, robustas, seguras e integradas a todo ecossistema de serviços financeiros.
Com mais de oitenta profissionais especialistas em tecnologia e meios de pagamento, atendemos mais de quarenta negócios varejistas, desenvolvendo soluções voltadas para a democratização do crédito nos pontos de vendas.
Se você está pronto para crescer e voar com a gente, esta é sua chance.
Estamos em busca de um(a) Site Reliability Engineer (SRE) Pleno, que será responsável por garantir a estabilidade, a performance e a observabilidade dos sistemas da empresa, além de impulsionar práticas de automação e melhoria contínua junto aos times de produto e infraestrutura.
Responsabilidades e atribuições
Atuar na operação, manutenção e evolução da stack de observabilidade (ELK, Grafana, Datadog);
Criar e manter dashboards e alertas inteligentes, garantindo visibilidade e monitoramento proativo de serviços críticos;
Participar de análises pós-incidente, propondo e acompanhando planos de ação para aumento da resiliência;
Automatizar processos de deploy, infraestrutura e monitoramento, reduzindo tarefas manuais (toil);
Colaborar com times de desenvolvimento e infraestrutura para melhorar continuamente a confiabilidade dos sistemas;
Contribuir para a cultura de engenharia de confiabilidade dentro da organização;
Requisitos e qualificações
Experiência prática com observabilidade e monitoramento;
ELK Stack (Elasticsearch, Logstash, Kibana);
Grafana;
Datadog;
Conhecimento desejável em Zabbix.;
Experiência com Linux (administração e troubleshooting);.
Vivência com containers (Docker, Kubernetes);
Conhecimento em infraestrutura como código (Terraform, Ansible ou similar);.
Experiência com CI/CD (GitLab CI, ArgoCD, etc.);.
Noções de programação ou scripting (Shell, Python, Go, etc.);.
Entendimento de SRE principles, SLIs/SLOs, Error Budgets e post-mortems;.
Experiência com cloud pública (preferencialmente AWS);.
Informações adicionais
Modelo de trabalho: Remoto
Regime de contrato: PJ