Checkpoints
Find datasets in Analytics Hub
/ 50
Bringing it all together
/ 50
Navegar pelo Dataplex
- Informações gerais da atividade
- Cenário
- Configuração
- Tarefa 1: pesquisar conjuntos de dados no BigQuery
- Tarefa 2: encontrar conjuntos de dados no Dataplex
- Tarefa 3: encontrar conjunto de dados no Analytics Hub
- Tarefa 4: identificar as fontes de dados com linhagem
- Tarefa 5: resumo geral
- Conclusão
- Finalize o laboratório
Conclua este laboratório prático usando um computador ou notebook.
Só 5 tentativas são permitidas por laboratório.
É comum não acertar todas as questões na primeira tentativa e precisar refazer uma tarefa. Isso faz parte do processo de aprendizado.
Depois que o laboratório é iniciado, não é possível pausar o tempo. Depois de 1h30, o laboratório será finalizado, e você vai precisar recomeçar.
Para saber mais, confira as Dicas técnicas do laboratório.
Informações gerais da atividade
O Dataplex é uma ferramenta poderosa que simplifica o gerenciamento de dados entre data lakes, data warehouses e data marts. Ele oferece controles consistentes e facilita a navegação por ambientes de dados complexos, reduzindo significativamente o tempo e o esforço necessários para encontrar os dados certos para sua análise.
Um dos principais recursos do Dataplex é uma interface fácil de usar que permite pesquisar fontes de dados entre data warehouses e data lakes. Compatível vários serviços como BigQuery e Dataproc, o Dataplex permite que você identifique e gerencie fontes de dados com eficiência de uma forma integrada.
Neste laboratório, você vai usar a pesquisa integrada no BigQuery, Dataplex e Analytics Hub para identificar fontes de dados. Como analista de dados, essa habilidade pode melhorar bastante a eficiência e a precisão dos seus processos de análise de dados.
Cenário
Meredith é líder da área de produtos da TheLook eCommerce, uma empresa global de roupas especializada em moda inovadora e suprimento ético e sustentável. Ela tem interesse em descobrir o possível impacto do clima nas vendas de camisetas. Especificamente, ela quer gerar um relatório com uma lista dos pedidos mais recentes, que inclua também a marca do produto e a faixa de temperatura.
Meredith pediu sua ajuda para identificar as fontes de dados que ela pode usar para gerar esse relatório. Você vai usar o Dataplex para identificar tabelas no BigQuery que contêm as informações de pedidos e marcas, além de conjuntos de dados públicos que contêm dados de temperatura.
Para esta tarefa, primeiro você vai usar o BigQuery para pesquisar tabelas que contenham o termo "orders" ou "brand". Segundo, você vai pesquisar os dados de marcas no Dataplex. Em terceiro lugar, você vai pesquisar dados de temperatura em conjuntos de dados públicos no BigQuery. Quarto, você vai usar linhagem para pesquisar a fonte dos dados de nomes de produtos. Por fim, você vai mostrar que tem acesso a todos os dados necessários para o relatório da Meredith.
Configuração
Antes de clicar em "Começar o laboratório"
Leia as instruções a seguir. Os laboratórios são cronometrados e não podem ser pausados. O timer é iniciado quando você clica em Começar o laboratório e mostra por quanto tempo os recursos do Google Cloud vão ficar disponíveis.
Neste laboratório prático, você pode fazer as atividades por conta própria em um ambiente cloud de verdade, não em uma simulação ou demonstração. Você vai receber novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.
Confira os requisitos para concluir o laboratório:
- Acesso a um navegador de Internet padrão (recomendamos o Chrome).
- Tempo para concluir o laboratório---não se esqueça: depois de começar, não será possível pausar o laboratório.
Como iniciar seu laboratório e fazer login no console do Google Cloud
-
Clique no botão Começar o laboratório. No painel Detalhes do laboratório à esquerda, você verá o seguinte:
- Tempo restante
- O botão Abrir console do Google Cloud
- As credenciais temporárias que você vai usar neste laboratório
- Outras informações, se forem necessárias
Observação: se for preciso pagar pelo laboratório, um pop-up vai aparecer para você escolher a forma de pagamento. -
Se você estiver usando o navegador Chrome, clique em Abrir console do Google Cloud (ou clique com o botão direito do mouse e selecione Abrir link em uma janela anônima). A página de login será aberta em uma nova guia do navegador.
Dica: é possível organizar as guias em janelas separadas, lado a lado, para alternar facilmente entre elas.
Observação: se a caixa de diálogo Escolha uma conta aparecer, clique em Usar outra conta. -
Se necessário, copie o Nome de usuário do Google Cloud abaixo e cole na caixa de diálogo de login. Clique em Próximo.
Você também encontra o Nome de usuário do Google Cloud no painel Detalhes do laboratório.
- Copie a Senha do Google Cloud abaixo e cole na caixa de diálogo seguinte. Clique em Próximo.
Você também encontra a Senha do Google Cloud no painel Detalhes do laboratório.
- Nas próximas páginas:
- Aceite os Termos e Condições
- Não adicione opções de recuperação nem autenticação de dois fatores nesta conta temporária
- Não se inscreva em testes gratuitos
Depois de alguns instantes, o console será aberto nesta guia.
Tarefa 1: pesquisar conjuntos de dados no BigQuery
Nesta tarefa, você vai pesquisar as tabelas disponíveis que incluam as informações de marcas e pedidos que a Meredith precisa para o relatório. Para isso, você vai usar o BigQuery para pesquisar tabelas que incluam os termos orders ou brand.
- No console do Google Cloud, no Menu de navegação (), selecione BigQuery.
- No campo de pesquisa do Explorador, digite order e pressione ENTER.
O console vai listar as tabelas order_items, orders e orders_by_state como resultados.
Em seguida, pesquise as tabelas que contêm dados de marcas.
- Na caixa de pesquisa do Explorador, digite brand e pressione ENTER.
A pesquisa não retorna nenhum resultado.
Tarefa 2: encontrar conjuntos de dados no Dataplex
Você precisa encontrar os dados de marcas, mas pesquisar em cada fonte e coluna para localizar os dados demoraria muito. Então, acaba pedindo ajuda a Artem, o arquiteto de dados. Ele recomenda usar o Dataplex, o catálogo mais atualizado da empresa, para encontrar as informações que procura.
Nesta tarefa, você vai pesquisar os dados de marcas no Dataplex.
- No campo de pesquisa da barra de título do console do Google Cloud, digite Dataplex.
- Nos resultados da pesquisa, selecione Dataplex.
- No painel de navegação, na seção Descobrir, selecione Pesquisar se a página Pesquisa não for carregada automaticamente.
- No campo de pesquisa Encontrar recursos de dados nos seus projetos e organizações, digite brand e pressione ENTER.
Pesquisar brand no BigQuery não retornou nenhum resultado, mas o Dataplex mostra as tabelas que incluem dados de marca. Isso ocorre porque o Dataplex pode pesquisar nomes de colunas e descrições dentro das tabelas.
- Selecione a tabela products nos resultados da pesquisa.
- Na página de produtos, observe o Horário da última modificação, que indica se os dados são atuais.
- No campo Rótulos, clique em Editar no BigQuery. Essa ação abre uma nova janela do navegador que mostra a tabela "products" no BigQuery.
- Clique na guia Visualização para examinar os dados.
- Examine a coluna brand. Esses são os dados que Meredith precisa para adicionar informações de marca ao relatório de pedidos.
Os itens de um pedido estão na tabela order_items. Para gerar um relatório com os itens pedidos, como camisetas, com as informações de marca, é preciso conectar as tabelas order_items e products. Para isso, você precisa encontrar uma coluna em comum.
-
Na área do Explorador, expanda o conjunto de dados thelook_gcda para exibir a lista de tabelas.
-
Clique na tabela order_items. A guia Esquema é mostrada. Examine a lista de colunas para responder a próxima pergunta.
Tarefa 3: encontrar conjunto de dados no Analytics Hub
Meredith pediu as informações de faixa de temperatura no relatório, mas Artem diz que esses dados não estão disponíveis no lakehouse. Então, você pesquisa na Internet e descobre que o BigQuery tem conjuntos de dados públicos disponíveis.
Nesta tarefa, você vai pesquisar os dados de temperatura em conjuntos de dados públicos do BigQuery.
- Na barra do Explorador, clique em + Adicionar para adicionar uma fonte de dados ao projeto.
- Na página Adicionar, na lista Fontes adicionais, selecione Analytics Hub. A página do Analytics Hub é aberta listando as fontes de dados compartilhadas.
- No campo de pesquisa, digite weather e pressione ENTER.
- Selecione GHCN Daily, da NOAA. Esse conjunto de dados inclui resumos climáticos diários de estações terrestres de todo o mundo.
- Na página GHCN Daily, clique em + Adicionar conjunto de dados ao projeto.
-
Na página Criar conjunto de dados vinculado, clique em Salvar.
-
No painel do Explorador, na lista de conjuntos de dados, abra ghcn_daily.
-
Selecione a tabela ghcnd_1763.
-
Selecione a guia Visualização para examinar os dados. Os valores TMAX exibidos na coluna element representam os valores máximos de temperatura em um dia específico.
-
Feche o conjunto de dados ghcn_daily. Essa etapa oculta as tabelas no conjunto de dados ghcn_daily e torna o conjunto de dados thelook_gcda visível para a próxima tarefa.
Clique em Verificar meu progresso para confirmar que você concluiu a tarefa corretamente.
Tarefa 4: identificar as fontes de dados com linhagem
Meredith se preocupa em ter um relatório que usa a tabela on_hand_inventory e pede a fonte dos nomes de produtos. Ela menciona que já teve problemas com nomes de produtos incorretos antes.
Meredith quer mais informações sobre a fonte dos dados de nomes de produtos usados na coluna product_name_logistics da tabela on_hand_inventory. É importante observar que a tabela on_hand_inventory é gerada a cada hora e é derivada de outras tabelas.
Nesta tarefa, você vai usar Linhagem para determinar a tabela e a coluna usadas para preencher os dados de nomes de produtos na coluna product_name_logistics.
- Na lista de conjuntos de dados, expanda o conjunto thelook_gcda e selecione a tabela on_hand_inventory.
- Selecione a guia Linhagem.
Quando a guia "Linhagem" for preenchida, um gráfico semelhante a este será exibido:
O diagrama de fluxo mostra as linhas de fluxo dos dados das tabelas products e inventory_items para a tabela on_hand_inventory. Isso significa que os dados contidos na tabela on_hand_inventory foram originados nas tabelas products e inventory_items.
- Clique na lupa laranja vinculada às tabelas products e inventory_items. A lupa laranja indica uma transformação SQL entre as fontes à esquerda e a tabela à direita.
A consulta que gerou a tabela on_hand_inventory aparece no painel Consulta.
Observe as duas tabelas que você identificou no diagrama após a cláusula FROM
da consulta: inventory_items
e products
. As consultas às vezes identificam um alias, ou um apelido, para as tabelas. Um alias é definido após a palavra-chave AS
. Por exemplo, nesta consulta a tabela inventory_items
tem o alias inv
. Um alias de tabela ajuda a manter o código compacto e pode ser usado para especificar de onde uma coluna veio na parte SELECT
da consulta. Por exemplo, inv.id
é a coluna id
que veio da tabela com o alias inv
.
A cláusula SELECT
de uma consulta pode ser usada para renomear uma coluna na saída. Por exemplo, a fórmula COUNT(inv.id)
é renomeada para on_hand_count
.
A linhagem dos dados mostra qual coluna e tabela é a fonte dos nomes de produtos na saída "product_name_logistics".
Tarefa 5: resumo geral
Meredith pediu para você garantir que tem todos os dados necessários para concluir o relatório.
Nesta tarefa, você vai executar cinco consultas para exibir os dados de brand, orders, order_items, weather, product_id e product_name e ter todas as informações necessárias para o relatório da Meredith.
Mostrar dados de marca
Primeiro, execute uma consulta que retorna as primeiras 10 linhas da tabela products que inclui informações de marca.
- No BigQuery Studio, clique no botão Consulta para abrir o Editor de consultas e selecione Em uma nova guia. Uma guia "Sem título" pré-preenchida aparece.
- Substitua o texto padrão na guia Sem título pela consulta SQL a seguir:
- Clique em Executar.
Mostrar dados de pedidos
Em seguida, execute uma consulta que recupera as 10 primeiras linhas de dados da tabela orders.
- Copie a consulta a seguir no Editor de consultas:
- Clique em Executar.
Mostrar dados de itens do pedido
Terceiro, execute uma consulta que recupera as 10 primeiras linhas da tabela order_items.
- Copie a consulta a seguir no Editor de consultas:
- Clique em Executar.
Mostrar dados climáticos
Quarto, execute uma consulta que recupera as 10 primeiras linhas da tabela ghcnd_1763 com os dados climáticos.
- Copie a consulta a seguir no Editor de consultas:
- Clique em Executar.
Mostrar dados de produtos
Por fim, execute uma consulta que recupera as 10 primeiras linhas da tabela products usando aliases para o nome do produto e o ID.
- Copie a consulta a seguir no Editor de consultas:
Essa consulta recupera os nomes de produtos e IDs da tabela products no conjunto de dados thelook_gcda. Ela recebe um subconjunto de colunas na tabela e retorna somente os nomes de produtos e IDs usando aliases para alterar os nomes de colunas retornados.
- Clique em Executar.
Clique em Verificar meu progresso para confirmar que você concluiu a tarefa corretamente.
Conclusão
Bom trabalho!
Agora você tem experiência prática em usar o BigQuery, o Analytics Hub e o Dataplex para identificar fontes de dados no BigQuery. O Dataplex oferece uma interface fácil de usar para identificar fontes de dados em ambientes complexos, enquanto o BigQuery permite pesquisar tabelas específicas e acessar os dados necessários para análises.
Usando essas ferramentas com eficácia, você encontrou e visualizou rapidamente os dados que procurava Isso ajudou a Meredith a ter todos os dados necessários para gerar um relatório que inclui uma lista dos pedidos mais recentes, a marca do produto e a faixa de temperatura.
Agora você sabe como encontrar conjuntos de dados no BigQuery, no Dataplex e no Analytics Hub.
Finalize o laboratório
Antes de encerrar o laboratório, certifique-se de que você concluiu todas as tarefas. Quando tudo estiver pronto, clique em Terminar o laboratório e depois em Enviar.
Depois que você finalizar um laboratório, não será mais possível acessar o ambiente do laboratório nem o trabalho que você concluiu nele.
Copyright 2024 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de empresas e produtos podem ser marcas registradas das empresas a que estão associados.