Descrição: Ferramentas e Stack Técnico
Linguagens de Programação* Python (avançado: Pandas, NumPy, PySpark, Polars)
SQL (expert-level: otimização de queries, análise de execution plans)
Scala ou Java (desejável)
Bash/Shell scripting
Plataformas de Dados (expertise em pelo menos 2)* Databricks (notebooks, clusters, jobs, Delta Lake, Unity Catalog, auto-loader)
Snowflake (arquitetura, performance optimization, time-travel, Iceberg)
AWS (Redshift, S3, Glue, Athena, Lake Formation)
Azure (Synapse Analytics, Data Lake Storage, MS Fabric)
Google BigQuery e Dataflow
Transformação, Orquestração e Processamento* dbt com expertise em modularização, testes, documentação e CI/CD
Apache Spark com otimização de performance, particionamento e caching
Apache Airflow (DAGs, operators, sensors, SLA) ou Dagster/Prefect
Infraestrutura, DevOps e Versionamento* Terraform (infraestrutura como código multi-cloud)
CloudFormation (AWS)
GitHub Actions ou GitLab CI
Docker e containerização
Git avançado
Habilidades Técnicas Essenciais
Design e Arquitetura* Desenho de arquiteturas escaláveis, seguras e resilientes end-to-end
Compreensão de batch processing vs. real-time streaming
Design de data contracts e schema governance
Avaliação de tecnologias apropriadas para cada caso de uso
Performance e Otimização* SQL complexo: execution plans, indexação, particionamento
Spark optimization: RDD vs. DataFrames, shuffle, memory management
Cost optimization em cloud: spot instances, reserved capacity, particionamento
Troubleshooting de gargalos de performance
Segurança e Compliance* RBAC e controle de acesso granular
Criptografia em repouso e em trânsito
Conformidade com LGPD, GDPR, SOC2
Data masking e anonymization
Gestão de secrets (AWS Secrets Manager, Azure Key Vault)
Desenvolvimento Ágil e Colaboração* Metodologias Scrum, sprints e estimativa de esforços
Colaboração multidisciplinar com Product, Negócio e Engenharia
Comunicação clara de requisitos técnicos complexos para públicos não-técnicos
Certificações
Desejáveis* Databricks Certified Data Engineer Professional
AWS Certified Data Engineer Associate ou Solutions Architect Professional
Microsoft Certified: Azure Data Engineer Associate (DP-203)
Google Cloud Professional Data Engineer (se aplicável)
Complementares* Terraform Associate Certification
dbt Fundamentals ou Advanced
Apache Airflow Fundamentals
Habilidades Comportamentais
Pensamento Estratégico e Consultivo* Pensamento estratégico considerando trade-offs (custo, complexidade, performance)
Mentalidade consultiva: questionar requisitos, propor alternativas, educar clientes
Problem-Solving e Resiliência* Resiliência e capacidade de debug em ambientes complexos
Lidar com ambiguidades e gargalos de performance
Liderança e Desenvolvimento* Mentoria e coaching de profissionais juniores
Elevação do nível técnico de equipes
Comunicação executiva traduzindo conceitos técnicos
Contínuo Aprendizado e Ownership* Aprendizado contínuo acompanhando evolução de plataformas
Propriedade sobre a qualidade das soluções entregues
Colaboração efetiva em ambientes multidisciplinares
Diferenciais Competitivos* Experiência em Machine Learning Engineering e MLOps
Contribuições a projetos open source (Spark, dbt, Airflow)
Data quality frameworks de ponta
Expertise em GenAI/LLM pipelines
Speaking em eventos técnicos e publicações
Data contracts e API-first data platforms
Certificação em Data Governance
Fluência multilíngue (português + inglês + espanhol)
Arquitetura e Implementação de Soluções de Dados* Desenhar e manter pipelines de dados escaláveis, resilientes e otimizados em arquiteturas Lakehouse e Data Mesh
Implementar soluções end-to-end (ingestão, transformação, qualidade, governança) em múltiplas plataformas cloud (AWS, Azure, GCP, Databricks, Snowflake)
Otimizar performance de queries e armazenamento com foco em custo-benefício
Projetos de GenAI e Machine Learning* Atuar como consultor técnico em pipelines de GenAI/ML
Preparar dados para treinamento de modelos, fine-tuning e inferência em escala
Otimizar arquiteturas para workloads de machine learning
Liderança Técnica e Consultoria Estratégica* Atuar como especialista técnico junto a clientes, fornecendo orientações sobre tecnologias emergentes
Treinar profissionais juniores através de treinamentos e compartilhamento de conhecimento
Servir como bridge entre times multidisciplinares, traduzindo requisitos em soluções técnicas
Comunicar recomendações complexas para públicos técnicos e executivos
DevOps e Observabilidade* Implementar práticas de versionamento, testes automatizados e CI/CD
Configurar observabilidade e monitoração de pipelines
Aplicar metodologias Agile e DataOps na entrega
Experiências Mandatórias* Vivência sólida em engenharia de dados, atuando com autonomia em projetos complexos, desde ingestão até disponibilização de dados para produtos analíticos.
Experiência aprofundada em ambientes cloud (AWS, Azure ou GCP), incluindo arquitetura, pipelines, segurança e observabilidade.
Domínio prático em Databricks e/ou Snowflake, com uso de Unity Catalog, Delta Lake, Lakehouse e boas práticas de governança e versionamento.
Atuação comprovada em consultoria ou squads multi-clientes, conduzindo múltiplos projetos simultaneamente com diferentes stakeholders.
Participação efetiva em iniciativas de GenAI/ML, incluindo preparação, organização e qualidade de dados para modelos de IA.
Capacidade de liderar discussões técnicas, definir padrões e orientar times sobre melhores práticas de engenharia e governança de dados.
Expertise com Plataformas Cloud* AWS: S3, EC2, Lambda, Glue, EMR, Athena, Lake Formation, Redshift, DataBrew, RDS, DynamoDB, SQS, SNS
Azure: Data Factory, Data Lake Storage, Synapse Analytics, Azure Machine Learning, Cosmos DB, MS Fabric
GCP: BigQuery, Dataflow, Cloud Composer (Airflow), Pub/Sub
Migração de dados entre plataformas e avaliação de soluções multi-cloud
Arquitetura e Design de Dados* Profundo conhecimento de Lakehouse/Delta Lake e Medallion Architecture (Bronze, Silver, Gold)
Implementação de Data Mesh e domain-driven data architecture
Modelagem OLAP e OLTP
Design de soluções para processar terabytes em tempo real e batch
Stack Técnico Essencial* Apache Spark e PySpark com otimização de workloads distribuídos
SQL avançado (window functions, CTEs, performance tuning)
dbt para transformação declarativa
Apache Airflow ou equivalente para orquestração
Terraform para infraestrutura como código
Git e práticas de CI/CD
2512120202501126806