como pessoa engenheira de sre pleno, sua missão será projetar, construir e manter a infraestrutura escalável, resiliente e segura que sustenta nosso marketplace. você aplicará princípios de engenharia de software para resolver problemas operacionais complexos, automatizando processos para eliminar o trabalho manual (toil), definindo e monitorando service level objectives (slos) para garantir uma experiência de usuário excepcional e evoluindo nossa plataforma para suportar o crescimento acelerado do negócio.

Responsabilidades e atribuições

engenharia de confiabilidade e performance:

desenvolver e implementar soluções para garantir que os sistemas atinjam os slos de disponibilidade e latência, conduzindo análises de capacidade (capacity planning) para picos de tráfego.

projetar e implementar arquiteturas resilientes, utilizando padrões como redundância, failover automático e degradação graciosa.

realizar análises de performance e otimização de custos (finops), identificando gargalos e propondo soluções eficientes.

automação e evolução da plataforma:

automatizar o provisionamento e gerenciamento da infraestrutura aws utilizando infraestrutura como código (iac) com terraform, garantindo ambientes consistentes.

implementar e evoluir práticas de gitops (com github actions ou aws codepipeline) para gerenciar o ciclo de vida de aplicações em ecs e kubernetes de forma declarativa e segura.

desenvolver ferramentas internas e scripts (python) para automatizar tarefas operacionais e reduzir o toil.

observabilidade avançada:

implementar e gerenciar uma stack de observabilidade completa, incluindo métricas (prometheus, datadog), logs (graylog, opensearch) e tracing distribuído (opentelemetry).

criar dashboards e alertas significativos que relacionam métricas técnicas com indicadores de negócio.

utilizar dados de tracing distribuído para diagnosticar problemas de latência e erros em transações complexas que atravessam múltiplos microsserviços.

resposta a incidentes e aprendizado contínuo:

participar do rodízio de on-call, atuando na triagem, mitigação e resolução de incidentes.

conduzir post-mortems após incidentes, focando na identificação de causas-raiz sistêmicas e na criação de planos de ação.

manter e aprimorar a documentação de sistemas e os playbooks de resposta a incidentes.

segurança integrada (devsecops):

integrar ferramentas de análise de segurança (sast, container scanning) nos pipelines de ci/cd.

automatizar a aplicação de políticas de segurança na infraestrutura como código e nas configurações de kubernetes (security-as-code).

acompanhar o ciclo de vida de segredos e credenciais de forma segura (hashicorp vault, aws secrets manager).

mentoria e colaboração:

atuar como um consultor de confiabilidade para as equipes de desenvolvimento, participando de revisões de design de arquitetura.

compartilhar conhecimento e melhores práticas de sre, atuando como mentor para engenheiros de nível júnior.

Requisitos e qualificações

competências essenciais (experiência sólida esperada)

aws: ecs, eks,, s3, rds, iam, vpc. iac: terraform ou pulumi. sistemas operacionais: linux e shell script.

containers: docker. orquestração: kubernetes (helm). ci/cd: jenkins, github actions, aws codepipelinei.

métricas e logs: datadog, prometheus/grafana, graylog, opensearch. linguagens de scripting: python ou golang.

princípios de segurança: redes, iam, hardening. gerenciamento de segredos: hashicorp vault, aws secrets manager.

mensageria: kafka, sqs/sns. bancos de dados: nosql e relacionais.

perfil comportamental

proatividade: você não apenas resolve problemas, mas busca ativamente por oportunidades de melhoria sistêmica, analisando tendências de alertas e propondo projetos de automação.

colaboração e comunicação eficaz: você atua como uma ponte entre as equipes de desenvolvimento e operações, utilizando dados (slos, métricas) para embasar suas argumentações.

mentalidade de engenharia de sistemas: você aborda problemas operacionais com a mentalidade de um engenheiro de software, buscando soluções de código que resolvam classes de problemas de forma definitiva.

resiliência e foco em aprendizado: você encara incidentes como oportunidades de aprendizado e é um defensor da cultura de post-mortems.

Informações adicionais

modelo remoto e regime CLT (40hrs semanais);

vale transporte;

plano de saúde (amil coparticipação para você e seus dependentes) e odontológico (amil);

vale-refeição ou alimentação depositado em cartão flexível (sem desconto, inclusive nas férias);

auxílio home office depositado em cartão flexível (sem desconto);

seguro de vida;

saúde física - Totalpass: plataforma que te dá acesso a diversas academias no Brasil; ‍‍

saúde mental - Clude Saúde: parceria com plataforma que contém diversos especialistas para você cuidar da sua saúde mental e garantir mais qualidade de vida;

auxílio creche/babá para filhos de 0 a 5 anos;

licença parental (não gestante 30 dias. gestante 180 dias - jornada de 6 horas até o bebê completar 1 ano);

convênio com o sesc;

folga corre: que tal uma folga semestral para fazer os "corre da vida"?;

petlove: (plano empresarial para o bem-estar dos seus bichinhos;

prata da casa: desconto nos produtos do enjoei pra ficar no estilo.

SRE pleno

Job Description

Login / Register

👋 Let's find you a Dream Job

Check Your Email!

Get job updates in your inbox