Preparando-se para o exame de certificação AWS Data Engineer — Associate
Fiz o exame DEA-C01 em dezembro de 2023. Essa certificação ainda está em Beta, então o resultado levará até 90 dias para ser recebido.
O exame AWS Data Engineer Associate é uma nova certificação AWS. Ele valida as habilidades e conhecimentos em serviços AWS relacionados a dados essenciais, capacidade de implementar pipelines de dados, monitorar e solucionar problemas e otimizar custos e desempenho de acordo com as práticas recomendadas. Portanto, esteja preparado para esses tipos de perguntas e respostas durante o exame.
Como este exame está em versão beta, ele apresenta algumas diferenças em relação às certificações habituais de associados: A duração do exame é de 170 minutos, o formato do exame consiste em 85 questões de múltipla escolha ou de múltiplas respostas, o custo é de 75 USD (dos normalmente 150 USD), o teste pode ser feito pessoalmente ou online, o único idioma disponível é o inglês e o período para realização do exame Beta foi de 27 de novembro de 2023 a 12 de janeiro de 2024.
Nunca trabalhei com vários serviços da AWS que caíram nesse exame e não tinham muitos cursos por ser beta, então estudei alguns com os testes práticos especiais do AWS Data Analytics. Meu caminho de estudo completo durou cerca de 1 mês (porque acabei de estudar e obter o AWS Solutions Architect — Professional, então aproveitei parte do conteúdo para este), desde a leitura de algumas perguntas frequentes, experimentando as práticas do exame e revisando os serviços e recursos que tive que aprender.
Minha rotina de estudo geralmente era no final do dia (depende se eu tinha alguma reunião ou atividade de trabalho até tarde e se tinha tentado estudar de manhã para compensar) e entre 2 ou 3 horas de estudo por dia durante a semana .
Sua rotina diária depende apenas de você. Se você é uma pessoa matinal ou mais ativa à noite, como está sua agenda de trabalho, horário de academia e etc. Só você sabe qual é o melhor horário ou o horário com o qual você se sente mais confortável.
Melhores Cursos e Simulados
Alguns cursos e simulados que foram utilizados para os estudos: Hand-On e o Simulado na Udemy.
Não se esqueça dos FAQ’s. E para os exames práticos, usei o teste Data Analytics — Specialty Practice do Tutorial Dojo.
Roadmap de Certificações AWS
- AWS Cloud Practitioner
- AWS Solutions Architect — Associate
O foco desta certificação está no design de soluções com custo e desempenho otimizados, demonstrando um forte entendimento do AWS Well-Architected Framework. Esta certificação pode melhorar o perfil de carreira e os ganhos dos indivíduos certificados e aumentar a sua credibilidade e confiança nas interações com as partes interessadas e os clientes. Por AWS certification documentation.
- AWS Data Engineer — Associate
Este exame foi desenvolvido para candidatos com 2 a 3 anos de experiência em funções relacionadas a dados na nuvem ou em funções relacionadas a dados locais, migrando para a Nuvem AWS. Candidatos em funções de nuvem, como engenheiro de dados, analista de dados, arquiteto de dados ou engenheiro de inteligência de negócios, podem obter esta certificação e ganhar credibilidade e confiança.
Aqueles em funções adjacentes, como engenheiro de software, engenheiro de nuvem, analista de relatórios, analista de qualidade de dados e funções de dados locais, também podem se preparar e obter esta certificação. Por blog AWS
NÃO APRESSE O PROCESSO.
Estudar para as certificações leva tempo, principalmente se você está entrando no mundo da nuvem agora, então é natural amadurecer o conteúdo com o tempo e ganhar experiência durante com trabalho do dia a dia.
Domínios do Exame
- Domínio 1: Ingestão e Transformação de Dados (34% do conteúdo pontuado)
- Domínio 2: Gestão de Data Store (26% do conteúdo pontuado)
Domínio 3: Operações de Dados e Suporte (22% do conteúdo pontuado) - Domínio 4: Segurança e Governança de Dados (18% do conteúdo pontuado)
Caminho de Estudos
Existem alguns caminhos para você estudar para as certificações:
- Lento: assista a todo o curso para obter a certificação, faça as demonstrações, entenda o serviço, entenda como ele se integra a outros serviços da AWS, leia os whitepapers e perguntas frequentes, faça os exames práticos, volte ao curso ou leia os artigos novamente, mais praticar exames e, finalmente, fazer o exame de certificação. Esse é o caminho que recomendo, você aprenderá muito com ele e será um profissional de TI melhor com todo esse conhecimento.
- Rápido: Comece fazendo um simulado com todos os domínios e ao final ele lhe dará uma nota e qual domínio você não atende às expectativas. Concentre-se em estudar o domínio e repita o processo. Eu só recomendo isso se você tiver um prazo curto para tirar a certificação. ESTEJA CIENTE de que isso é apenas para passar no exame, você NÃO aprenderá muito com isso.
Tópicos do Exame:
Aqui estão alguns dos serviços AWS e seus recursos que caíram no exame. Lembre-se de que as perguntas são sempre sobre casos de uso, então você enfrentará perguntas com pelo menos 2 serviços e mais recursos neles.
Athena
Notebooks Athena: podem ser usados para consultar dados diretamente no S3 e aproveitar o Apache Spark para transformações e análises avançadas de dados; com sua integração com notebook Jupyter e Apache Spark fornece uma plataforma robusta para consulta direta de dados S3
Desempenho ruim ao ler vários objetos pequenos no S3: otimize o tamanho dos arquivos em objetos maiores
Agregue funções para obter uma visão resumida dos dados.
Exemplos de consulta
AWS Lake Formation
Usa um modelo de permissão centralizado para acesso granular aos dados.
Projetado para gerenciar permissões em diferentes serviços analíticos da AWS.
Controle de acesso baseado em tags. Marcar dados confidenciais.
O recurso de compartilhamento de dados simplifica e protege o processo de compartilhamento de dados entre diferentes contas da AWS ou com organizações externas
S3
Infrequent Access
S3 Archive
Eventos
Object Lock
Cross-Account
Macie
PII data
Integração com S3
Integração com AWS Lake Formation: permite gerenciamento e governança robustos de acesso aos dados PII
ElastiCache
Lazy-Loading strategy: Ideal para cenários de dados com muita leitura e atualização pouco frequente; Como a carga de trabalho principal do aplicativo envolve consultas complexas e com uso intensivo de leitura, essa abordagem minimiza a sobrecarga de manutenção do cache e garante que apenas os dados mais solicitados sejam armazenados em cache
Amazon QuickSight
SPICE Engine: Oferece a capacidade de criar painéis interativos com conexões diretas e em tempo real com diversas fontes de dados, incluindo Amazon RDS; O recurso de atualização automática do SPICE garante que os painéis exibam as informações mais atualizadas do banco de dados RDS PostgreSQL
AWS SCT
KMS
SSE-KMS com customer managed keys
AWS DMS
AWS SCT (Schema Conversion Tool)
Schema Copy
AWS CloudTrail
Logs enviados para S3
Query trail logs
AWS CloudTrail Lake: Fornece uma solução otimizada e centralizada para armazenar, gerenciar e analisar logs do CloudTrail; Ele permite a retenção e consulta de logs por até sete anos, o que se alinha bem com a necessidade da empresa de análise de dados ao longo do ano
AWS CloudTrail Lake
AWS CloudWatch
Logs
Logs Insights
AWS Glue
AWS Glue Crawler
AWS Glue Jobs
AWS Glue Jobs Bookmark
AWS Glue Data Brew: Dados ausentes; Dados inconsistentes; Dados duplicados
AWS Glue Schema Registry: É crucial porque armazena os esquemas de seus dados de streaming e gerencia diferentes versões; Isso garante que o formato dos seus dados permaneça consistente, o que é essencial para evitar problemas devido a alterações na estrutura dos dados ao longo do tempo; Essa consistência é fundamental para evitar falhas ou corrupção no processamento de dados, garantindo que a integridade dos dados de streaming permaneça intacta.
ETL
Apache Spark no AWS Glue
De e para S3
Conexões JDBC/ODBC
KMS
SSE-KMS com customer managed keys
AWS DMS
AWS SCT (Schema Conversion Tool)
Schema Copy
AWS CloudTrail
Logs enviados para S3
Query trail logs
AWS CloudTrail Lake: Fornece uma solução otimizada e centralizada para armazenar, gerenciar e analisar logs do CloudTrail; Ele permite a retenção e consulta de logs por até sete anos, o que se alinha bem com a necessidade da empresa de análise de dados ao longo do ano
AWS CloudTrail Lake
AWS CloudWatch
Logs
Logs Insights
AWS Glue
AWS Glue Crawler
AWS Glue Jobs
AWS Glue Jobs Bookmark
AWS Glue Data Brew: Dados ausentes; Dados inconsistentes; Dados duplicados
AWS Glue Schema Registry: É crucial porque armazena os esquemas de seus dados de streaming e gerencia diferentes versões; Isso garante que o formato dos seus dados permaneça consistente, o que é essencial para evitar problemas devido a alterações na estrutura dos dados ao longo do tempo; Essa consistência é fundamental para evitar falhas ou corrupção no processamento de dados, garantindo que a integridade dos dados de streaming permaneça intacta.
ETL
Apache Spark no AWS Glue
De e para S3
Conexões JDBC/ODBC
Amazon Redshift
Amazon Redshift Advisor: Para recomendações sobre o desempenho de query, fornece recomendações automatizadas para otimizar o desempenho dos clusters Redshift, como mudanças no estilo de distribuição, adições de chaves de classificação e muito mais.
Amazon Redshift Query Performance
Amazon Redshift Query Performance Insights: Para monitorar o desempenho da consulta; Fornece uma visão abrangente do desempenho da consulta, permitindo que os engenheiros de dados identifiquem rapidamente consultas problemáticas ou de longa duração. Isso ajuda a compreender as características de desempenho de consultas individuais e da carga de trabalho geral.
Redshift Serverless: Otimiza a capacidade do data warehouse, cobrando apenas pelos recursos de computação usados e não incorre em cobrança quando ocioso; O compartilhamento de dados no Redshift permite o compartilhamento contínuo de dados ao vivo entre clusters Redshift e endpoints Redshift Serverless sem incorrer em custos adicionais; Minimize os custos de computação.
Amazon Redshift Row Level Security (RLS): Controlar o acesso a linhas de dados com base nos atributos do usuário (como funções de equipe, controle refinado em tabelas compartilhadas); A segurança em nível de linha no Amazon Redshift permite que o administrador do banco de dados configure políticas de segurança para controlar o acesso às linhas em uma tabela de banco de dados com base nos atributos do usuário, como funções ou equipe. Isso o torna a escolha ideal para situações em que as necessidades de compartilhamento de dados são complexas e estão intimamente ligadas às identidades ou funções dos usuários.
Amazon Redshift Data Sharing: Permite o compartilhamento de dados em tempo real entre clusters Redshift
Exemplos de query que começam com “string”
Problema de importação de .csv devido ao comando IGNOREHEADER no comando de COPY
Operação VACUUM
Comando de COPY
Amazon Redshift Spectrum
File de Workload Management(WLM) no Amazon Redshift
AWS SAM
API Gateway
Data Pipeline
AWS Lambda
Provisioned concurrency para instancias de warm pool
AWS EFS para armazenamento adicional para processamento de arquivos grandes
AWS Step Functions
AWS Sagemaker
AWS Sagemaker ML Lineate Tracking
AWS Sagemaker Data Wrangler: A utilização de suas funções de data integradas simplifica o processo de padronização de formatos de data, e o emprego de funções de string para limpeza de campos categóricos é um uso eficiente dos recursos da ferramenta, tornando esta a opção mais adequada.
EMR
EMR com Apache Spark: Pode processar e anonimizar com eficiência grandes conjuntos de dados, e o Amazon Redshift permite recursos analíticos robustos após o anonimato
CodeCommit
CodeBuild
CodeDeploy
CodePipeline
AWS Neptune
Para estrutura gráfica
AWS Kinesis Data Firehose
Casos de uso de quase em tempo real(Near Real-Time)
AWS Kinesis Data Streams
Casos de uso de tempo real(Real-Time)
AWS Kinesis Data Analytics
Amazon MSK
DynamoDB
GSI
TTL
Streams
RDS
RDS Read Replica
RDS Multi-AZ
Engines suportadas
AWS Aurora
Aurora Read Replica
AWS EKS
HPA
AWS Lambda
Integração com Serviços
Deployment
Versões
Simultaneidade(Concurrency)
Others Technologies
Apache Spark
Apache Flink: Processamento avançado de fluxo
Hive
Parquet: Melhor desempenho que JSON
Use Cases
Melhorar a performance
Informação HIPAA e PII
Tempo Real/Quase Tempo Real
Custo-benefício
Transações steless and statefull
Insights estatisticamente significativos, garantindo ao mesmo tempo um uso mínimo de computação e armazenamento
Alguns Links Úteis
Pagina Oficial do AWS Certified Data Engineer — Associate
Guia do Exame AWS Certified Data Engineer — Associate
Preparação do Exame: AWS Certified Data Engineer — Associate
Curso Hands-On na Udemy
Testes Práticos na Udemy
Simulados do AWS Data Analytics — Specialty no Tutorial Dojo
Considerações
As questões do exame de certificação normalmente envolviam de 2 a 4 serviços e suas integrações e recursos, havia cenários da vida real, perguntas capciosas e assim por diante. Experimente sempre nos simulados porque eles realmente ajudam a estar mais preparado para as certificações.
Este exame é muito extenso, tem um total de 85 questões em 170 minutos(+30 minutos em acomodações caso o inglês não seja sua língua nativa) + 5/10 minutos para as pesquisas, então tente fazer de manhã enquanto você estão bem descansados.
Sinta-se à vontade para comentar caso você tenha obtido algo diferente em seu exame de certificação.
E, por fim, boa sorte com sua próxima certificação AWS e espero que estas dicas possam ser úteis!