Nombre del Puesto: Site Reliability Engineer (SRE) / DevOps Engineer Sr.
Propósito del Rol
Garantizar la estabilidad, confiabilidad y observabilidad de la plataforma crítica en México mediante la implementación de prácticas de ingeniería de alta disponibilidad. Este rol es el pilar de la continuidad operativa, gestionando despliegues a gran escala y asegurando una infraestructura escalable en entornos de nube híbrida.
Responsabilidades del Puesto
Gestión de Infraestructura: Administrar y optimizar clústeres de Kubernetes como núcleo de la operación, asegurando su escalabilidad y resiliencia.
Automatización y CI/CD: Diseñar, operar y mantener pipelines de CI/CD en Azure DevOps (YAML), garantizando flujos de entrega trazables y seguros.
Operaciones GitOps: Implementar y gestionar flujos de trabajo mediante Git y ArgoCD para mantener la paridad de entornos.
Continuidad Operativa: Liderar la ejecución de despliegues productivos, estrategias de rollback y gestión de incidentes críticos, incluyendo análisis Post-Mortem.
Observabilidad: Configurar y administrar el stack de monitoreo en Datadog, transformando métricas y logs en alertas accionables que reduzcan el ruido operativo.
Colaboración Técnica: Actuar como enlace técnico con los equipos de Desarrollo y Arquitectura Regional para optimizar la performance de las aplicaciones.
Skills Necesarios
Hard Skills (Stack Tecnológico):
Orquestación: Dominio avanzado de Kubernetes (AKS/Self-managed).
Nube: Experiencia sólida en Azure (deseable conocimiento en IFX).
Automatización: Experiencia experta en Azure DevOps Pipelines (YAML) y contenedores (Docker).
Infrastructure as Code \& GitOps: Manejo profesional de ArgoCD y herramientas de control de versiones (Git).
Observabilidad: Configuración avanzada de dashboards, monitoreo y APM en Datadog.
Soft Skills:
Troubleshooting: Alta capacidad de resolución de problemas complejos bajo presión.
Autonomía: Capacidad para ejecutar y proponer mejoras técnicas basadas en evidencia sin supervisión constante.
Mentalidad de Mejora Continua: Foco en la automatización para eliminar tareas manuales (Toil).
Educación y Experiencia
Formación: Licenciatura o Ingeniería en Sistemas, Computación, Informática o carreras afines.
Experiencia: Mínimo 4-5 años en roles de DevOps, SRE o Administración de Plataformas Cloud en entornos de alta criticidad.
Certificaciones (Plus): CKA (Certified Kubernetes Administrator), Azure Solutions Architect o certificaciones relacionadas con Datadog/SRE.
Tipo de puesto: Tiempo completo
Sueldo: $40,000.00 - $50,000.00 al mes
Beneficios:
Días de maternidad superiores a los de la ley
Días de paternidad superiores a los de la ley
Seguro de gastos médicos
Seguro de gastos médicos mayores
Seguro de vida
Trabajo desde casa
Vales de despensa
Lugar de trabajo: remoto híbrido en 06500, Cuauhtémoc, CDMX