Descrição:
Requisitos essenciais:
Experiência relevante com Python e SQL.
Sólidos conhecimentos em serviços AWS, incluindo:
Amazon S3 para armazenamento de dados.
Amazon Athena para consultas serverless.
Experiência com Trino (anteriormente PrestoSQL) para queries distribuídas.
Domínio do Databricks e Delta Lake para processamento de dados.
Experiência com PySpark para processamento de dados em larga escala.
Conhecimento em modelagem de dados e data warehousing.
Experiência com particionamento e otimização de performance em data lakes.
Domínio de versionamento Git e metodologias ágeis usando Azure DevOps.
Experiência com formatos de dados modernos (Parquet, Delta, Iceberg).
Diferenciais:
Certificações AWS (Data Analytics, Solutions Architect ou Data Engineer).
Experiência com Apache Airflow para orquestração.
Experiência com streaming de dados (Kinesis, Kafka).
Conhecimento em dbt (Data Build Tool) para transformações.
Experiência com Great Expectations para qualidade de dados.
Familiaridade com ferramentas de CDC (Change Data Capture).
Conhecimento em observabilidade e monitoramento (Elastic Search com Kibana).
Experiência com APIs RESTful.
Conhecimento em containerização (Docker, Kubernetes).
Experiência com Terraform ou CloudFormation para IaC.
O que esperamos que você realize:
Projetar e construir pipelines de dados eficientes utilizando AWS Athena, PySpark e Databricks.
Implementar e gerenciar data lakes no Amazon S3 com estruturas otimizadas
Desenvolver queries e análises complexas com Amazon Athena, Trino e Databricks.
Implementar processos de ETL/ELT para integração de múltiplas fontes de dados.
Otimizar a performance de queries e o processamento de dados em larga escala.
Participar de code reviews e fornecer mentoria técnica à equipe.
Colaborar com stakeholders de negócios para traduzir requisitos em soluções técnicas.
Implementar rotinas de monitoramento e observabilidade dos pipelines de dados
Agendar a execução de rotinas de ETL usando Apache Airflow.
251006020229693213