arrow_back

Coletar, processar e armazenar dados no BigQuery

Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Coletar, processar e armazenar dados no BigQuery

Lab 1 hora 30 minutos universal_currency_alt 2 créditos show_chart Introdutório
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses
ícone de "importante" IMPORTANTE:

ícone de captura de tela Faça capturas de tela durante cada tarefa para adicionar ao seu portfólio.

ícone de computador/notebook Conclua este laboratório prático usando um computador ou notebook.

ícone de verificação Só 5 tentativas são permitidas por laboratório.

ícone de alvo do teste É comum não acertar todas as questões na primeira tentativa e precisar refazer uma tarefa. Isso faz parte do processo de aprendizado.

ícone de cronômetro Depois que o laboratório é iniciado, não é possível pausar o tempo. Depois de 1h30, o laboratório será finalizado, e você vai precisar recomeçar.

ícone de dica Para saber mais, confira as Dicas técnicas do laboratório.

Visão geral da atividade

Este laboratório faz parte de um projeto final. Nele, você vai aplicar seu conhecimento sobre análise de dados na nuvem e as três primeiras fases da jornada de dados: coleta, processamento e armazenamento.

Vamos apresentar um cenário e um conjunto de tarefas a serem concluídas usando o BigQuery. Essas tarefas vão exigir o uso das suas habilidades para trabalhar e transformar dados no ambiente do BigQuery, responder perguntas sobre os dados e completar desafios que testam seus conhecimentos em transformação de dados.

Ao concluir este laboratório com sucesso, você vai demonstrar sua capacidade de utilizar uma plataforma de dados na nuvem, como o BigQuery, para armazenar e analisar dados e também ganhar experiência prática na aplicação do SQL para explorar, filtrar, eliminar duplicação e agregar dados para atender a uma necessidade comercial específica.

Cenário

A TheLook Fintech é uma nova empresa de tecnologia financeira que faz empréstimos a proprietários de lojas on-line independentes que precisam de recursos financeiros para adquirir estoque. A missão da empresa é mudar a forma como as pessoas têm acesso a empréstimos para expandir os negócios. Como uma startup em crescimento, a TheLook Fintech identificou o mercado-alvo dela e está trabalhando muito para crescer rapidamente.

Contrataram você como analista de dados em nuvem. Sua primeira atribuição é desenvolver e implementar um plano para ajudar o departamento financeiro a usar os dados de forma eficaz com objetivo de acompanhar a performance e o crescimento da TheLook.

Três questões de negócios foram identificadas durante uma reunião com Tiago, líder do departamento financeiro.

São elas:

  • Como monitorar melhor nosso fluxo de caixa para garantir que o volume dos empréstimos liberados a cada mês não supere o montante que entra no caixa?
  • Como identificar os principais motivos que levam os clientes a pegar empréstimos conosco?
  • Como rastrear os locais onde os mutuários estavam quando contrataram os empréstimos?

Durante a reunião com Tiago, também surgiram informações importantes sobre as principais métricas necessárias para responder a essas perguntas de negócios.

Fluxo de caixa é a quantidade de dinheiro que entra e sai de uma empresa ao longo do tempo. A TheLook Fintech precisa garantir que a quantidade de dinheiro proveniente de pagamentos de empréstimos e de outras fontes seja maior do que o montante que sai para financiar empréstimos e pagar outras despesas.

O propósito do empréstimo é outra métrica importante que precisa ser monitorada. Tiago explicou que há uma forte correlação entre as razões que levam os mutuários a tomar empréstimos e a probabilidade da quitação. Para garantir que está tudo certo com os financiamentos, é importante acompanhar o propósito principal deles.

A localização do mutuário também é uma preocupação importante. O departamento financeiro está tentando entender a distribuição geográfica dos empréstimos. Isso é necessário porque uma grande concentração de empréstimos em uma mesma região aumenta os riscos de inadimplência coletiva. Uma distribuição uniforme entre diferentes regiões ajuda a reduzir esse risco, garantindo que os credores não dependam excessivamente de uma única área para a amortização.

Sua análise vai se concentrar nessas três métricas principais.

Neste laboratório, você vai usar o BigQuery para coletar, processar e armazenar dados para responder essas perguntas de negócios e preparar vários relatórios para Tiago.

Para fazer isso, primeiro você vai configurar o ambiente de trabalho do BigQuery e, em seguida, analisar os dados dos empréstimos para encontrar as informações solicitadas pelo Tiago. Depois, vai importar um arquivo com uma nova classificação dos estados e armazenar os dados em uma tabela padrão. Agora, você vai mesclar duas tabelas para preparar um relatório com os dados combinados. Depois, vai eliminar a duplicação dos dados sobre a finalidade dos empréstimos e, por fim, você vai produzir um relatório com o valor total dos empréstimos emitidos por dia e ano.

Configuração

Antes de clicar em "Começar o laboratório"

Leia as instruções a seguir. Os laboratórios são cronometrados e não podem ser pausados. O timer é iniciado quando você clica em Começar o laboratório e mostra por quanto tempo os recursos do Google Cloud vão ficar disponíveis.

Neste laboratório prático, você pode fazer as atividades por conta própria em um ambiente cloud de verdade, não em uma simulação ou demonstração. Você vai receber novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.

Confira os requisitos para concluir o laboratório:

  • Acesso a um navegador de Internet padrão (recomendamos o Chrome).
Observação: para executar este laboratório, use o modo de navegação anônima ou uma janela anônima do navegador. Isso evita conflitos entre sua conta pessoal e a conta de estudante, o que poderia causar cobranças extras na sua conta pessoal.
  • Tempo para concluir o laboratório---não se esqueça: depois de começar, não será possível pausar o laboratório.
Observação: não use seu projeto ou conta do Google Cloud neste laboratório para evitar cobranças extras na sua conta.

Como iniciar seu laboratório e fazer login no console do Google Cloud

  1. Clique no botão Começar o laboratório. No painel Detalhes do laboratório à esquerda, você verá o seguinte:

    • Tempo restante
    • O botão Abrir console do Google Cloud
    • As credenciais temporárias que você vai usar neste laboratório
    • Outras informações, se forem necessárias
    Observação: se for preciso pagar pelo laboratório, um pop-up vai aparecer para você escolher a forma de pagamento.
  2. Se você estiver usando o navegador Chrome, clique em Abrir console do Google Cloud (ou clique com o botão direito do mouse e selecione Abrir link em uma janela anônima). A página de login será aberta em uma nova guia do navegador.

    Dica: é possível organizar as guias em janelas separadas, lado a lado, para alternar facilmente entre elas.

    Observação: se a caixa de diálogo Escolha uma conta aparecer, clique em Usar outra conta.
  3. Se necessário, copie o Nome de usuário do Google Cloud abaixo e cole na caixa de diálogo de login. Clique em Próximo.

{{{user_0.username | "Nome de usuário do Google Cloud"}}}

Você também encontra o Nome de usuário do Google Cloud no painel Detalhes do laboratório.

  1. Copie a Senha do Google Cloud abaixo e cole na caixa de diálogo seguinte. Clique em Próximo.
{{{user_0.password | "Senha do Google Cloud"}}}

Você também encontra a Senha do Google Cloud no painel Detalhes do laboratório.

Importante: você precisa usar as credenciais fornecidas no laboratório, e não as da sua conta do Google Cloud. Observação: usar sua própria conta do Google Cloud neste laboratório pode gerar cobranças extras.
  1. Nas próximas páginas:
    • Aceite os Termos e Condições
    • Não adicione opções de recuperação nem autenticação de dois fatores nesta conta temporária
    • Não se inscreva em testes gratuitos

Depois de alguns instantes, o console será aberto nesta guia.

Observação: para acessar a lista dos produtos e serviços do Google Cloud, clique no Menu de navegação no canto superior esquerdo. Menu do console do Google Cloud com o ícone do menu de navegação em destaque

Tarefa 1. Noções básicas sobre o BigQuery

Como analista de dados em nuvem, uma das primeiras coisas para fazer em um projeto é abrir seu ambiente de trabalho e localizar os dados com que vai trabalhar na sua análise.

Nesta tarefa, você vai abrir o ambiente do BigQuery, selecionar um projeto do BigQuery que já existe e achar o conjunto de dados de fintech.

  1. Abra o BigQuery no console do Google Cloud.
  2. Localize o conjunto de dados de fintech. Esse é o conjunto de dados que você vai usar na próxima tarefa.

Tarefa 2. Analisar os dados de fintech

O conjunto de dados de fintech contém informações sobre empréstimos que podem ser usadas para responder às perguntas de negócios de Tiago. Uma informação importante é o valor total dos empréstimos.

Nesta tarefa, você vai analisar as tabelas do conjunto de dados de fintech para encontrar a tabela e a coluna que contém o valor total dos empréstimos. Isso é uma informação importante que ajudará o Tiago a acompanhar a saída de recursos financeiros da empresa.

  1. Abra cada uma das tabelas do conjunto de dados de fintech.
  2. Use a guia Detalhes para saber mais sobre cada tabela.
  3. Na guia Esquema, identifique quais colunas estão incluídas em cada tabela e o tipo de dados de cada coluna.
  4. Use a guia Visualização para conferir uma prévia dos dados. Localize a coluna com o valor dos empréstimos e verifique se ela contém as informações necessárias.

Tiago explica que, quando a TheLook Fintech concede os empréstimos, a data em que o dinheiro fica disponível ao cliente é conhecida como a data "de emissão". Essa é outra informação importante, necessária para ajudar a equipe do Tiago a controlar o volume total de dinheiro que sai a cada dia ou mês.

Localize a tabela no conjunto de dados de fintech que contém a data em que cada empréstimo foi liberado e, em seguida, responda às perguntas abaixo.

Tarefa 3. Importar um arquivo CSV e criar uma tabela padrão

A maior parte dos dados necessários para a análise pode ser encontrada no conjunto de dados de fintech, mas alguns devem ser coletados de outra fonte. Tiago forneceu um arquivo CSV que mapeia os estados dos EUA em regiões e sub-regiões. Com essas importantes informações, Tiago poderá rastrear os empréstimos com base no estado ou região em que o mutuário estava quando contratou o empréstimo.

O arquivo CSV está no Cloud Storage, no seguinte local:

gs://sureskills-lab-dev/future-workforce/da-capstone/temp_35_us/state_region_mapping/

Veja abaixo um exemplo dos dados no arquivo CSV:

Imagem com uma amostra de dados em um arquivo csv

Nesta tarefa, você vai importar o arquivo CSV para o BigQuery e armazená-lo como uma tabela padrão.

  1. Analise o código a seguir que você vai usar para importar o arquivo CSV. Em seguida, responda às perguntas abaixo.
LOAD DATA OVERWRITE fintech.state_region ( state string, subregion string, region string ) FROM FILES ( format = 'CSV', uris = ['gs://sureskills-lab-dev/future-workforce/da-capstone/temp_35_us/state_region_mapping/state_region_*.csv']);

  1. Copie e cole o comando acima na guia Sem título para criar a tabela padrão com os dados do arquivo CSV.

  2. Clique em Executar.

Em seguida, analise a tabela que você criou e a compare com o arquivo CSV original:

Imagem com uma amostra de dados em um arquivo csv

  1. No painel Explorador, selecione a tabela state_region. Se a tabela não for exibida, talvez seja necessário atualizar o conjunto de dados.

  2. Clique na guia Visualização e analise os dados que você acabou de importar para o BigQuery.

Clique em Verificar meu progresso para conferir se você concluiu a tarefa corretamente.

Importar um arquivo CSV e criar uma tabela padrão

Tarefa 4. Unir os dados de duas tabelas

Agora que você analisou e coletou os dados necessários, já pode processá-los para uso na análise.

Tiago quer um único relatório que inclua loan_id, loan_amount e o nome da região, mas essas informações estão em duas tabelas.

Nesta tarefa, você vai identificar as tabelas que contêm as colunas necessárias e usar o SQL para mesclar as duas tabelas e criar o relatório.

  1. Analise as tabelas do conjunto de dados de fintech e responda às perguntas abaixo.

  1. No "Editor de consultas", execute Consulta A e Consulta B e analise os resultados. Em seguida, responda à pergunta abaixo:

Consulta A

SELECT lo.loan_id, lo.loan_amount, sr.region FROM fintech.loan lo INNER JOIN fintech.state_region sr ON lo.region = sr.region;

Consulta B

SELECT lo.loan_id, lo.loan_amount, sr.region FROM fintech.loan lo INNER JOIN fintech.state_region sr ON lo.state = sr.state;

Tarefa 5. Criar uma tabela baseada nos resultados de uma consulta usando CTAS

Tiago quer ir além na filtragem e análise dos dados do relatório usando o app Planilhas Google,

mas, para isso, primeiro você precisa criar uma tabela para armazenar os dados.

Uma instrução CTAS, ou CREATE TABLE AS SELECT, é uma instrução SQL que cria uma nova tabela com base nos resultados de uma instrução SELECT. É uma ferramenta poderosa que pode ser usada para criar novas tabelas de forma rápida e fácil. As tabelas feitas com instruções CTAS também podem ser exportadas facilmente no BigQuery para serem compartilhadas com outras pessoas.

Nesta tarefa, você vai criar uma nova tabela com CREATE TABLE AS SELECT e, em seguida, conectá-la ao app Planilhas Google.

  1. Copie e cole o seguinte comando no Editor de consultas:
CREATE OR REPLACE TABLE fintech.loan_with_region AS SELECT lo.loan_id, lo.loan_amount, sr.region FROM fintech.loan lo INNER JOIN fintech.state_region sr ON lo.state = sr.state; Observação: essa consulta é uma modificação da consulta usada para criar o relatório na tarefa anterior, mas, agora, CREATE OR REPLACE TABLE é utilizada para criar uma tabela ou substituir a existente toda vez que a consulta for executada.
  1. Clique em Executar.

  2. Localize a nova tabela. Talvez seja necessário atualizar.

Clique em Verificar meu progresso para conferir se você concluiu a tarefa corretamente.

Criar uma tabela baseada nos resultados de uma consulta usando CTAS
  1. No painel Explorador, selecione a tabela recém-criada loan_with_region. Se a tabela não for exibida, clique em Atualizar para atualizar o conjunto de dados.

  2. Na barra de ferramentas, clique em Exportar e, em seguida, selecione Explorar com o Planilhas. Será aberta uma planilha Google que inclui o mesmo conteúdo da tabela loan_with_region.

  3. Revise os dados na planilha Google.

Agora você pode compartilhar a planilha Google com o Tiago. Assim, ele pode trabalhar com os dados no formato de planilha.

Tarefa 6. Trabalhar com dados aninhados

Tiago está pesquisando as principais razões que levam as pessoas a pegarem empréstimos com a TheLook Fintech, porque descobriu que essas motivações ajudam a prever com um bom grau de precisão se as dívidas serão pagas ou não.

Ele pede para que você crie um relatório simples que inclua o propósito citado por cada um dos mutuários ao solicitar o empréstimo. No entanto, encontrar esses dados pode ser uma tarefa complexa, porque são coletados durante o processo de solicitação e são armazenados em uma coluna aninhada chamada "propósito".

Nesta tarefa, você vai encontrar a coluna "propósito", que está aninhada no registro da solicitação de empréstimo, e vai executar uma consulta para descobrir os motivos que levam os mutuários a fazer empréstimos.

  1. No painel Explorador, selecione a tabela empréstimo.

  2. Selecione a guia Esquema e localize a coluna solicitação de empréstimo.

  3. Na guia "Esquema", clique na seta suspensa ao lado de solicitação de empréstimo para expandir o registro.

Imagem com o registro de solicitação de empréstimo aninhado

  1. Clique na guia Visualização e examine os dados de amostra da tabela de empréstimos.

Você acha que a consulta a seguir vai retornar da tabela "empréstimos" o propósito de cada empréstimo?

  1. Copie e cole o seguinte comando no Editor de consultas:
SELECT loan_id,purpose FROM fintech.loan;
  1. Clique em Executar.

  1. Copie e cole o seguinte comando no Editor de consultas:
SELECT loan_id,application.purpose FROM fintech.loan;
  1. Clique em Executar.

Essa consulta retorna o propósito de cada empréstimo na tabela empréstimos onde Tiago pode examinar os motivos mais comuns que levam as pessoas a pegar empréstimos da TheLook Fintech.

As colunas dentro dos registros (ou structs) são referenciadas pelo nome do registro seguido pelo nome da coluna, usando a notação por pontos. Por exemplo, para fazer referência à coluna propósito no registro da solicitação de empréstimo, você usaria a notação application.purpose.

Clique em Verificar meu progresso para conferir se você concluiu a tarefa corretamente.

Trabalhar com dados aninhados

Tarefa 7. Eliminar duplicação de dados

Depois que você criou a lista de propósitos do empréstimo para Tiago, alguns dos motivos aparecem mais de uma vez.

Por exemplo, o motivo "casamento" aparece várias vezes.

Aqui estão os resultados da consulta:

Imagem com dados duplicados para a coluna de propósitos

Dados duplicados é um problema encontrado com frequência por analistas de dados em nuvem. O processo de remoção de duplicatas de um conjunto de dados é conhecido como eliminação de duplicação.

Desafio: criar uma tabela de uma coluna com valores distintos

  • Escreva uma consulta para criar uma tabela fintech.loan_purposes com uma única coluna chamada purpose com valores distintos para purpose na tabela fintech.loan.
Dica: você pode usar uma instrução CREATE TABLE AS SELECT (CTAS).

Clique em Verificar meu progresso para conferir se você concluiu a tarefa corretamente.

Remover dados duplicados

Tarefa 8. Responder perguntas de negócios com um relatório

Tiago também precisa de um relatório com o valor total dos empréstimos concedidos por ano. Nesta tarefa, você vai escrever uma consulta que produzirá esses dados e, em seguida, vai criar uma tabela com os resultados.

Tiago explica que precisa de um relatório com uma estrutura semelhante a esta, que inclua as colunas issue_year e total_amount.

Imagem dos resultados da consulta com issue_year e total_amount

Em seguida, analise os dados.

  1. Copie e cole o seguinte comando no Editor de consultas:
SELECT issue_year, loan_amount FROM fintech.loan ORDER BY issue_year, issue_date;
  1. Clique em Executar.

A consulta deve retornar resultados semelhantes aos seguintes:

Imagem dos resultados da consulta com issue_year e loan_amount

Observação: há mais de uma linha por ano. Por exemplo, as primeiras linhas são de 2012. Tiago quer uma linha por ano, conforme mostrado no relatório de amostra.

  1. Copie e cole o seguinte comando no Editor de consultas:
SELECT issue_year, sum(loan_amount) AS total_amount FROM fintech.loan GROUP BY issue_year;
  1. Clique em Executar.

As palavras-chave GROUP BY e a função sum() foram usadas na consulta

Desafio: criar uma tabela que conte os empréstimos agrupados por ano

Escreva uma consulta para criar uma tabela chamada loan_count_by_year no conjunto de dados de fintech que contabiliza os empréstimos agrupados por issue_year.

Dica: está com dificuldades para prosseguir? As ferramentas de IA generativa, como Bard e Duet AI, podem ajudar com a sintaxe do SQL e identificar possíveis erros no seu código, além de permitir uma melhor compreensão dele.

Clique em Verificar meu progresso para conferir se você concluiu a tarefa corretamente.

Responder perguntas de negócios com um relatório

Conclusão

Como analista de dados em nuvem da TheLook Fintech, você forneceu os dados necessários para Tiago e a equipe do departamento financeiro entenderem melhor o fluxo de caixa da empresa e tomarem decisões de negócios bem fundamentadas.

Primeiro, você analisou os dados do empréstimo no conjunto de dados de fintech para encontrar as informações solicitadas pelo Tiago, como o valor total dos empréstimos.

Em seguida, importou um arquivo com uma nova classificação de estados, que Tiago queria usar para alterar a forma como os empréstimos são categorizados por região.

Depois, você criou uma nova tabela com os resultados de uma consulta, que Tiago utilizaria para criar um relatório com ID do empréstimo, o valor do empréstimo e o nome da região.

Você eliminou a duplicação dos dados para remover os registros duplicados.

Por fim, gerou um relatório com o valor total dos empréstimos emitidos por dia e ano, necessário para Tiago entender melhor o fluxo de caixa da empresa.

Você está no caminho certo para entender como coletar, processar e armazenar dados para análise.

Finalize o laboratório

Antes de encerrar o laboratório, certifique-se de que você concluiu todas as tarefas. Quando tudo estiver pronto, clique em Terminar o laboratório e depois em Enviar.

Depois que você finalizar um laboratório, não será mais possível acessar o ambiente do laboratório nem o trabalho que você concluiu nele.

Copyright 2024 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de empresas e produtos podem ser marcas registradas das empresas a que estão associados.