👨🏻‍💻 postech.work

Lead Site Reliability Engineer - Algo-Trading (w/m/d)

Uniper • 🌐 In Person

In Person Posted 1 day, 12 hours ago

Job Description

Our Platform Engineering Team in Düsseldorf is looking for YOU!

Unser Platform Engineering Team in Düsseldorf sucht Dich!

Deine Aufgaben

Verantwortung für Zuverlässigkeit: Definiere und steuere SLOs/SLIs, Fehlerbudgets und „Golden Signals“ für latenzkritische Algo-Trading-Dienste. Leite Incident-Response-Prozesse und Nachanalysen in einer „blameless“ (nicht schuldzuweisenden) Kultur

Produktionsarchitektur: Entwirf und entwickle geo-redundante Architekturen mit Active-Active- bzw. Active-Passive-Topologien über Regionen und Verfügbarkeitszonen hinweg – einschließlich Failover, Datenreplikation und Notfallwiederherstellung (RTO/RPO)

Kubernetes in großem Maßstab: Entwirf, sichere und betreibe AKS-basierte Multi-Cluster-Umgebungen (Multi-Tenant, Multi-Region) – einschließlich Netzwerk, Sicherheit, Autoscaling, Node-Pools und Upgrade-Strategien

Infrastructure as Code: Verantworte Terraform-Blueprints und Ansible-Automatisierungen – von Basis-Images bis zu Cluster-Add-ons – und sorge für idempotente, richtliniengesicherte und nachvollziehbare Änderungen

Automatisierung \& Effizienz: Baue Progressive-Delivery-Pipelines (Blue/Green, Canary) mit kontrollierten Rollouts und automatischen Rollbacks für Trading-Microservices, Adapter, Marktdaten- und Ausführungs-Gateways auf

Observability \& Performance: Implementiere End-to-End-Tracing (OpenTelemetry), Metriken, Logs und synthetische Probes. Führe Kapazitätsplanung, Performance-Tests und Optimierungen von p99/p999-Latenzen durch

Runtime-Sicherheit: Setze Laufzeitsicherheit, Secret-Management, Image-Hygiene und Compliance-Kontrollen durch – integriert nach dem „Shift-Left“-Prinzip in Build- und Deploy-Workflows

Algo-Trading-Runtime: Betreibe und optimiere Deltix-basierte Komponenten (Timebase DB, Ember, Strategy Server) in containerisierten, hochverfügbaren Setups. Übernimm die Verantwortung für die zugehörigen Helm-Charts

Zusammenarbeit \& Führung: Betreue und führe SREs, DevOps- und Entwickler*innen, leite Design-Reviews und stimme dich mit den Bereichen Platform, Security und Trading über Prioritäten und Roadmaps ab

Innovation: Fördere eine Kultur der Innovation, bleibe auf dem neuesten Stand der Technologie und integriere sinnvolle Neuerungen in den Handelsbereich

Dein Profil

Du hast einen Abschluss in Informatik, Mathematik, Ingenieurwesen oder einem verwandten Fachgebiet

Du hast mehr als 10 Jahre Erfahrung in SRE-, Plattform- oder Infrastruktur-Rollen

Du hast praktische Erfahrung im Betrieb komplexer, latenzkritischer Algo-Trading- oder marktbezogener Systeme in Produktionsumgebungen

Du hast mindestens 3 Jahre Erfahrung als DevOps- oder SRE-Engineer mit einem klaren Fokus auf Observability

Du hast mindestens 3 Jahre Erfahrung als Softwareentwickler*in

Du bist Expert*in in Kubernetes (bevorzugt AKS), einschließlich Cluster-Lebenszyklus, Netzwerk (CNI, Ingress, eBPF), HPA/VPA, Node-Autoscaling, PodDisruptionBudgets und Upgrades ohne Downtime

Du hast tiefgehende Erfahrung mit Azure, einschließlich VNet-Design, Private Link/Endpoints, Peering, Routing, Managed Identity/Entra ID, Key Vault, Storage, Azure Monitor/Log Analytics, Front Door/Traffic Manager, Load Balancers, App Gateway und API Management

Du beherrschst Terraform auf Expertenniveau – mit modularen Designs, State Management, Workspaces, Policies (OPA/Sentinel) und Pipeline-Integration

Du kennst dich mit Containern und Software-Lieferketten aus – inklusive Docker/OCI, Image-Scanning und -Signierung, SBOMs und reproduzierbaren Builds

Du bist vertraut mit Observability-Tools wie Prometheus und Grafana, beherrschst das Design von Alerts, OpenTelemetry-Tracing sowie Log-Pipelines und Aufbewahrungsstrategien

Du hast praktische Erfahrung mit dem Betrieb und Tuning von Deltix-Komponenten (z. B. TimeBase, QuantOffice, Ember) in containerisierten, hochverfügbaren Umgebungen

Du besitzt fundierte Kenntnisse in Netzwerktechnologien (L4/L7, TLS/mTLS, DNS, BGP-Grundlagen), Linux-Interna und Performance-Tuning für latenzkritische Services

Du hast nachweisliche Erfahrung mit geo-redundanten Architekturen sowie der Planung und Durchführung von Disaster-Recovery-Tests

Du kennst dich mit Marktdatenverteilung (Multicast/Unicast), FIX/OUCH/ITCH-Protokollen und Exchange-Connectivity aus

Du bist sicher im Umgang mit GitHub Actions (oder ähnlichen CI/CD-Tools) und mindestens einer Programmiersprache wie Python oder C# für Tools und Diagnosen

Du verfügst über ausgezeichnete Kommunikationsfähigkeiten und kannst durch Fachkompetenz und Einfluss führen

Du sprichst fließend Englisch; Deutschkenntnisse sind von Vorteil

Get job updates in your inbox

Subscribe to our newsletter and stay updated with the best job opportunities.