👨🏻‍💻 postech.work

Engenheiro de dados sênior

Netvagas • 🌐 Remote

Remote Posted 2 days, 16 hours ago

Job Description

Descrição: Ferramentas e Stack Técnico

Linguagens de Programação* Python (avançado: Pandas, NumPy, PySpark, Polars)

SQL (expert-level: otimização de queries, análise de execution plans)

Scala ou Java (desejável)

Bash/Shell scripting

Plataformas de Dados (expertise em pelo menos 2)* Databricks (notebooks, clusters, jobs, Delta Lake, Unity Catalog, auto-loader)

Snowflake (arquitetura, performance optimization, time-travel, Iceberg)

AWS (Redshift, S3, Glue, Athena, Lake Formation)

Azure (Synapse Analytics, Data Lake Storage, MS Fabric)

Google BigQuery e Dataflow

Transformação, Orquestração e Processamento* dbt com expertise em modularização, testes, documentação e CI/CD

Apache Spark com otimização de performance, particionamento e caching

Apache Airflow (DAGs, operators, sensors, SLA) ou Dagster/Prefect

Infraestrutura, DevOps e Versionamento* Terraform (infraestrutura como código multi-cloud)

CloudFormation (AWS)

GitHub Actions ou GitLab CI

Docker e containerização

Git avançado

Habilidades Técnicas Essenciais

Design e Arquitetura* Desenho de arquiteturas escaláveis, seguras e resilientes end-to-end

Compreensão de batch processing vs. real-time streaming

Design de data contracts e schema governance

Avaliação de tecnologias apropriadas para cada caso de uso

Performance e Otimização* SQL complexo: execution plans, indexação, particionamento

Spark optimization: RDD vs. DataFrames, shuffle, memory management

Cost optimization em cloud: spot instances, reserved capacity, particionamento

Troubleshooting de gargalos de performance

Segurança e Compliance* RBAC e controle de acesso granular

Criptografia em repouso e em trânsito

Conformidade com LGPD, GDPR, SOC2

Data masking e anonymization

Gestão de secrets (AWS Secrets Manager, Azure Key Vault)

Desenvolvimento Ágil e Colaboração* Metodologias Scrum, sprints e estimativa de esforços

Colaboração multidisciplinar com Product, Negócio e Engenharia

Comunicação clara de requisitos técnicos complexos para públicos não-técnicos

Certificações

Desejáveis* Databricks Certified Data Engineer Professional

AWS Certified Data Engineer Associate ou Solutions Architect Professional

Microsoft Certified: Azure Data Engineer Associate (DP-203)

Google Cloud Professional Data Engineer (se aplicável)

Complementares* Terraform Associate Certification

dbt Fundamentals ou Advanced

Apache Airflow Fundamentals

Habilidades Comportamentais

Pensamento Estratégico e Consultivo* Pensamento estratégico considerando trade-offs (custo, complexidade, performance)

Mentalidade consultiva: questionar requisitos, propor alternativas, educar clientes

Problem-Solving e Resiliência* Resiliência e capacidade de debug em ambientes complexos

Lidar com ambiguidades e gargalos de performance

Liderança e Desenvolvimento* Mentoria e coaching de profissionais juniores

Elevação do nível técnico de equipes

Comunicação executiva traduzindo conceitos técnicos

Contínuo Aprendizado e Ownership* Aprendizado contínuo acompanhando evolução de plataformas

Propriedade sobre a qualidade das soluções entregues

Colaboração efetiva em ambientes multidisciplinares

Diferenciais Competitivos* Experiência em Machine Learning Engineering e MLOps

Contribuições a projetos open source (Spark, dbt, Airflow)

Data quality frameworks de ponta

Expertise em GenAI/LLM pipelines

Speaking em eventos técnicos e publicações

Data contracts e API-first data platforms

Certificação em Data Governance

Fluência multilíngue (português + inglês + espanhol)

Arquitetura e Implementação de Soluções de Dados* Desenhar e manter pipelines de dados escaláveis, resilientes e otimizados em arquiteturas Lakehouse e Data Mesh

Implementar soluções end-to-end (ingestão, transformação, qualidade, governança) em múltiplas plataformas cloud (AWS, Azure, GCP, Databricks, Snowflake)

Otimizar performance de queries e armazenamento com foco em custo-benefício

Projetos de GenAI e Machine Learning* Atuar como consultor técnico em pipelines de GenAI/ML

Preparar dados para treinamento de modelos, fine-tuning e inferência em escala

Otimizar arquiteturas para workloads de machine learning

Liderança Técnica e Consultoria Estratégica* Atuar como especialista técnico junto a clientes, fornecendo orientações sobre tecnologias emergentes

Treinar profissionais juniores através de treinamentos e compartilhamento de conhecimento

Servir como bridge entre times multidisciplinares, traduzindo requisitos em soluções técnicas

Comunicar recomendações complexas para públicos técnicos e executivos

DevOps e Observabilidade* Implementar práticas de versionamento, testes automatizados e CI/CD

Configurar observabilidade e monitoração de pipelines

Aplicar metodologias Agile e DataOps na entrega

Experiências Mandatórias* Vivência sólida em engenharia de dados, atuando com autonomia em projetos complexos, desde ingestão até disponibilização de dados para produtos analíticos.

Experiência aprofundada em ambientes cloud (AWS, Azure ou GCP), incluindo arquitetura, pipelines, segurança e observabilidade.

Domínio prático em Databricks e/ou Snowflake, com uso de Unity Catalog, Delta Lake, Lakehouse e boas práticas de governança e versionamento.

Atuação comprovada em consultoria ou squads multi-clientes, conduzindo múltiplos projetos simultaneamente com diferentes stakeholders.

Participação efetiva em iniciativas de GenAI/ML, incluindo preparação, organização e qualidade de dados para modelos de IA.

Capacidade de liderar discussões técnicas, definir padrões e orientar times sobre melhores práticas de engenharia e governança de dados.

Expertise com Plataformas Cloud* AWS: S3, EC2, Lambda, Glue, EMR, Athena, Lake Formation, Redshift, DataBrew, RDS, DynamoDB, SQS, SNS

Azure: Data Factory, Data Lake Storage, Synapse Analytics, Azure Machine Learning, Cosmos DB, MS Fabric

GCP: BigQuery, Dataflow, Cloud Composer (Airflow), Pub/Sub

Migração de dados entre plataformas e avaliação de soluções multi-cloud

Arquitetura e Design de Dados* Profundo conhecimento de Lakehouse/Delta Lake e Medallion Architecture (Bronze, Silver, Gold)

Implementação de Data Mesh e domain-driven data architecture

Modelagem OLAP e OLTP

Design de soluções para processar terabytes em tempo real e batch

Stack Técnico Essencial* Apache Spark e PySpark com otimização de workloads distribuídos

SQL avançado (window functions, CTEs, performance tuning)

dbt para transformação declarativa

Apache Airflow ou equivalente para orquestração

Terraform para infraestrutura como código

Git e práticas de CI/CD

2512120202501126806

Get job updates in your inbox

Subscribe to our newsletter and stay updated with the best job opportunities.