Luis Carmona Villanueva
Participante desde 2024
Liga Diamante
45045 pontos
Participante desde 2024
Na última parte da série de cursos do Dataflow, vamos abordar os componentes do modelo operacional do Dataflow. Veremos ferramentas e técnicas para solucionar problemas e otimizar o desempenho do pipeline. Depois analisaremos as práticas recomendadas de teste, implantação e confiabilidade para pipelines do Dataflow. Por fim, faremos uma revisão dos modelos, que facilitam o escalonamento dos pipelines do Dataflow para organizações com centenas de usuários. Essas lições garantem que a plataforma de dados seja estável e resiliente a circunstâncias imprevistas.
Este é o último dos cinco cursos do Certificado Google Cloud Data Analytics. Neste curso, você vai combinar e aplicar o conhecimento e as habilidades básicas dos cursos anteriores em um projeto final focado em todo o ciclo de vida dos dados. Você também vai praticar o uso de ferramentas baseadas na nuvem para adquirir, armazenar, processar, analisar, visualizar e comunicar insights de dados de maneira eficaz. No final do curso, você terá concluído um projeto demonstrando sua proficiência em estruturar dados de várias fontes de maneira eficiente, oferecer soluções para outras partes interessadas e visualizar insights de dados usando um software com base na nuvem. Você também vai atualizar seu currículo e praticar técnicas que ajudam a preparar você para se candidatar e passar por entrevistas de emprego.
Este é o quarto de cinco cursos para o Certificado Google Cloud Data Analytics. Neste curso, você vai desenvolver habilidades nos cinco estágios principais da visualização de dados na nuvem: narrativa, planejamento, análise de dados, criação de visualizações e compartilhamento dos dados com outras pessoas. Você também vai adquirir experiência em atividades de UI/UX para criar visualizações impactantes e nativas da nuvem, além de trabalhar com ferramentas de visualização de dados para analisar conjuntos de dados, elaborar relatórios e criar painéis que auxiliam nas decisões e promovem a colaboração.
Este é o terceiro de cinco cursos para o Certificado Google Cloud Data Analytics. Nele, você vai começar com uma visão geral da jornada dos dados, desde a coleta até os insights. Você vai aprender a usar o SQL para converter dados brutos para um formato usável. Depois vai saber como transformar grandes volumes de dados com um pipeline de dados. Por último, você vai ganhar experiência aplicando estratégias de transformação em conjuntos de dados reais para atender necessidades comerciais.
Este é o segundo dos cinco cursos do Certificado Google Cloud Data Analytics. O assunto deste curso é a estruturação e a organização dos dados. Você vai adquirir experiência prática com a arquitetura de data lakehouse e os componentes de nuvem como o BigQuery, o Google Cloud Storage e o DataProc, usados para armazenar, analisar e processar grandes conjuntos de dados.
Este curso ajuda estudantes a criar um plano de estudo para o exame de certificação PDE (Professional Data Engineer). É possível conferir a amplitude e o escopo dos domínios abordados no exame. Os estudantes também podem acompanhar os preparativos para o exame e criar planos de estudos individuais.
Conclua o selo de habilidade intermediário Dados de engenharia para modelagem preditiva com o BigQuery ML para mostrar que você sabe: criar pipelines de transformação de dados no BigQuery usando o Dataprep by Trifacta; usar o Cloud Storage, o Dataflow e o BigQuery para criar fluxos de trabalho de extração, transformação e carregamento de dados (ELT); e criar modelos de machine learning usando o BigQuery ML. Os selos de habilidade são digitais e exclusivos. Eles são emitidos pelo Google Cloud como forma de reconhecer sua proficiência com os produtos e serviços do Cloud e comprovam sua habilidade de aplicar seu conhecimento em um ambiente prático e interativo. Conclua o curso com selo de habilidade e o laboratório com desafio da avaliação final para receber um selo digital que pode ser compartilhado com sua rede.
Este é o primeiro dos cinco cursos do Certificado Google Cloud Data Analytics. Neste curso, vamos definir o campo da análise de dados em nuvem e descrever as funções e responsabilidades de um analista de dados em nuvem relacionadas à aquisição, visualização de dados, ao armazenamento e processamento. Você vai conhecer a arquitetura das ferramentas baseadas no Google Cloud, como BigQuery e Cloud Storage, e descobrir como são usadas para estruturar, apresentar e relatar dados de maneira eficaz.
Conclua o selo de habilidade introdutório Como criar uma malha de dados com o Dataplex para mostrar sua capacidade de usar o Dataplex para criar uma malha de dados e assim facilitar a segurança, a governança e a descoberta de dados no Google Cloud. Você vai praticar e testar suas habilidades em aplicar tags a recursos, atribuir papéis do IAM e avaliar a qualidade dos dados no Dataplex. Os selos de habilidade são digitais e exclusivos. Eles são emitidos como forma de reconhecer sua proficiência com os produtos e serviços do Google Cloud e comprovam sua habilidade de aplicar seu conhecimento em um ambiente prático e interativo. Conclua este curso e o laboratório com desafio da avaliação final para receber um selo digital que pode ser compartilhado com seus contatos.
Na segunda parte desta série, vamos nos aprofundar no desenvolvimento de pipelines usando o SDK do Beam. Primeiro, vamos conferir um resumo dos conceitos do Apache Beam. Depois disso, falaremos sobre como processar dados de streaming usando janelas, marcas d’água e gatilhos. Em seguida, vamos ver as opções de origens e coletores para seus pipelines, além de esquemas para expressar seus dados estruturados e como fazer transformações com estado usando as APIs State e Timer. A próxima tarefa será conferir as práticas recomendadas para maximizar o desempenho do pipeline. No final do curso, apresentaremos as APIs SQL e Dataframes, que representam sua lógica de negócios no Beam. Além disso, veremos como desenvolver pipelines de maneira iterativa usando os notebooks do Beam.
A incorporação de machine learning em pipelines de dados aumenta a capacidade de extrair insights dessas informações. Neste curso, mostramos as várias formas de incluir essa tecnologia em pipelines de dados do Google Cloud. Para casos de pouca ou nenhuma personalização, vamos falar sobre o AutoML. Para usar recursos de machine learning mais personalizados, vamos apresentar os Notebooks e o machine learning do BigQuery (BigQuery ML). No curso, você também vai aprender sobre a produção de soluções de machine learning usando a Vertex AI.
O processamento de dados de streaming é cada vez mais usado pelas empresas para gerar métricas sobre as operações comerciais em tempo real. Neste curso, você vai aprender a criar pipelines de dados de streaming no Google Cloud. O Pub/Sub é apresentado como a ferramenta para gerenciar dados de streaming de entrada. No curso, também abordamos a aplicação de agregações e transformações a dados de streaming usando o Dataflow, além de formas de armazenar registros processados no BigQuery ou no Bigtable para análise. Os participantes vão ganhar experiência prática na criação de componentes de pipelines de dados de streaming no Google Cloud usando o Qwiklabs.
Os pipelines de dados geralmente se encaixam em um desses três paradigmas: extração e carregamento (EL), extração, carregamento e transformação (ELT) ou extração, transformação e carregamento (ETL). Este curso descreve qual paradigma deve ser usado em determinadas situações e quando isso ocorre com dados em lote. Além disso, vamos falar sobre várias tecnologias no Google Cloud para transformação de dados, incluindo o BigQuery, a execução do Spark no Dataproc, gráficos de pipeline no Cloud Data Fusion e processamento de dados sem servidor com o Dataflow. Os participantes vão ganhar experiência prática na criação de componentes de pipelines de dados no Google Cloud usando o Qwiklabs.
Os dois principais componentes de um pipeline de dados são data lakes e warehouses. Neste curso, destacamos os casos de uso para cada tipo de armazenamento e as soluções de data lake e warehouse disponíveis no Google Cloud de forma detalhada e técnica. Além disso, também descrevemos o papel de um engenheiro de dados, os benefícios de um pipeline de dados funcional para operações comerciais e analisamos por que a engenharia de dados deve ser feita em um ambiente de nuvem. Este é o primeiro curso da série "Engenharia de dados no Google Cloud". Após a conclusão, recomendamos que você comece o curso "Como criar pipelines de dados em lote no Google Cloud".
Conquiste o selo de habilidade introdutório Preparar dados para APIs de ML no Google Cloud para demonstrar que você é capaz de: limpar dados com o Dataprep by Trifacta, executar pipelines de dados no Dataflow, criar clusters e executar jobs do Apache Spark no Dataproc e chamar APIs de ML, incluindo as APIs Cloud Natural Language, Google Cloud Speech-to-Text e Video Intelligence. Os selos de habilidade são digitais e exclusivos. Eles são emitidos pelo Google Cloud como forma de reconhecer sua proficiência com os produtos e serviços do Google Cloud e testam sua habilidade de aplicar esse conhecimento em um ambiente prático e interativo. Conclua este curso com selo de habilidade e o laboratório com desafio da avaliação final para receber um selo digital que pode ser compartilhado nas suas redes sociais e currículo.
Este é o primeiro de uma série de três cursos sobre processamento de dados sem servidor com o Dataflow. Nele, vamos relembrar o que é o Apache Beam e qual é a relação entre ele e o Dataflow. Depois, falaremos sobre a visão do Apache Beam e os benefícios do framework de portabilidade desse modelo de programação. Com esse processo, o desenvolvedor pode usar a linguagem de programação favorita com o back-end de execução que quiser. Em seguida, mostraremos como o Dataflow permite a separação entre a computação e o armazenamento para economizar dinheiro. Além disso, você vai aprender como as ferramentas de identidade, acesso e gerenciamento interagem com os pipelines do Dataflow. Por fim, vamos ver como implementar o modelo de segurança ideal para seu caso de uso no Dataflow.
Conclua o selo de habilidade intermediário Criar um data warehouse com o BigQuery para mostrar que você sabe mesclar dados para criar novas tabelas; solucionar problemas de mesclagens; adicionar dados ao final com uniões; criar tabelas particionadas por data; além de trabalhar com JSON, matrizes e structs no BigQuery. Os selos de habilidade são digitais e exclusivos. Eles são emitidos pelo Google Cloud como forma de reconhecer sua proficiência nos produtos e serviços do Cloud, comprovando sua capacidade de aplicar o conhecimento em um ambiente prático e interativo. Conclua o curso com selo de habilidade e o laboratório com desafio da avaliação final para receber uma certificação digital que você pode compartilhar com seus contatos.
Este curso apresenta os produtos e serviços de Big Data e machine learning do Google Cloud que auxiliam no ciclo de vida de dados para IA. Ele explica os processos, os desafios e os benefícios de criar um pipeline de Big Data e modelos de machine learning com a Vertex AI no Google Cloud.