arrow_back

Melhorar a qualidade de dados

Acesse mais de 700 laboratórios e cursos

Melhorar a qualidade de dados

Laboratório 45 minutos universal_currency_alt 5 créditos show_chart Introdutório
info Este laboratório pode incorporar ferramentas de IA para ajudar no seu aprendizado.
Acesse mais de 700 laboratórios e cursos

Visão geral

Modelos de machine learning só podem consumir dados numéricos, que devem ser 1s ou 0s. Os dados bagunçados ou desordenados são aqueles com valores de atributos faltando, que contêm ruído ou outliers, que têm duplicatas, dados errados ou nomes de colunas com maiúsculas/minúsculas, ou basicamente que não estão preparados para ingestão por um algoritmo de machine learning.

Neste laboratório, você vai conhecer e resolver alguns dos problemas mais comuns de dados desordenados. Lembre-se de que outros problemas vão demandar métodos diferentes, que estão além do escopo deste notebook.

Objetivos

Neste laboratório, vamos mostrar como realizar as seguintes tarefas:

  • resolver os valores que estão faltando;
  • converter a coluna de atributo "Date" em um formato de data/hora;
  • renomear uma coluna de atributo e remover um valor de uma coluna de atributo;
  • criar atributos de codificação one-hot;
  • entender as conversões de atributos temporais.

Configuração e requisitos

Para cada laboratório, você recebe um novo projeto do Google Cloud e um conjunto de recursos por um determinado período e sem custos financeiros.

  1. Faça login no Qwiklabs em uma janela anônima.

  2. Confira o tempo de acesso do laboratório (por exemplo, 1:15:00) e finalize todas as atividades nesse prazo.
    Não é possível pausar o laboratório. Você pode reiniciar o desafio, mas vai precisar refazer todas as etapas.

  3. Quando tudo estiver pronto, clique em Começar o laboratório.

  4. Anote as credenciais (Nome de usuário e Senha). É com elas que você vai fazer login no Console do Google Cloud.

  5. Clique em Abrir Console do Google.

  6. Clique em Usar outra conta, depois copie e cole as credenciais deste laboratório nos locais indicados.
    Se você usar outras credenciais, vai receber mensagens de erro ou cobranças.

  7. Aceite os termos e pule a página de recursos de recuperação.

Tarefa 1: configurar o ambiente

Ativar a API Vertex AI

  1. No console do Google Cloud, abra o Menu de navegação e clique em Vertex AI > Painel.
  2. Clique em ATIVAR TODAS AS APIS RECOMENDADAS.

Tarefa 2: iniciar a instância de notebooks da Vertex AI

  1. No menu de navegação do console do Google Cloud, clique em Vertex AI > Workbench. Selecione Notebooks gerenciados pelo usuário.

  2. Na página "Instâncias de notebook", clique em Novo notebook > TensorFlow Enterprise > TensorFlow Enterprise 2.11 (com LTS) > Sem GPUs.

  3. Na caixa de diálogo Nova instância de notebook, confirme o nome da VM de aprendizado profundo. Se não quiser mudar a região e a zona, deixe todas as configurações como estão e clique em Criar. A nova VM leva de dois a três minutos para ser iniciada.

  4. Clique em Open JupyterLab.
    Uma janela desse ambiente vai ser aberta em uma nova guia.

  5. Se o pop-up “Build recomendado” aparecer, clique em Criar. Você pode ignorar avisos de falha nesse processo.

Tarefa 3: clonar o repositório do curso na sua instância de notebooks da Vertex AI

O repositório do GitHub contém o arquivo do laboratório e os arquivos das soluções do curso.

  1. Copie e execute o código a seguir na primeira célula do notebook para clonar o repositório training-data-analyst.
!git clone https://github.com/GoogleCloudPlatform/training-data-analyst

Clonar o repositório raining-data-analyst

  1. Para confirmar que você clonou o repositório, clique duas vezes no diretório training-data-analyst e veja se o conteúdo aparece.

confirmar o repositório training-data-analyst

Tarefa 4: melhorar a qualidade dos dados

  1. Na interface do notebook, navegue até training-data-analyst > courses > machine_learning > deepdive2 > launching_into_ml > labs e abra improve_data_quality.ipynb.

  2. Na interface do notebook, clique em Editar > Limpar todas as saídas.

  3. Leia com atenção as instruções do notebook e adicione o código necessário nas linhas marcadas com #TODO.

Observação: dicas

  • Para executar a célula atual, clique nela e pressione SHIFT+ENTER. Veja outros comandos de células na interface do notebook, em Run.
  • Você também vai encontrar dicas para realizar as tarefas. Destaque o texto para ler as dicas, que são exibidas em letras brancas.
  • Se precisar de mais ajuda, navegue até training-data-analyst > courses > machine_learning > deepdive2 > launching_into_ml > solutions e abra improve_data_quality.ipynb para ver a solução completa.

Finalize o laboratório

Após terminar seu laboratório, clique em End Lab. O Qwiklabs removerá os recursos usados e limpará a conta para você.

Você poderá avaliar sua experiência neste laboratório. Basta selecionar o número de estrelas, digitar um comentário e clicar em Submit.

O número de estrelas indica o seguinte:

  • 1 estrela = muito insatisfeito
  • 2 estrelas = insatisfeito
  • 3 estrelas = neutro
  • 4 estrelas = satisfeito
  • 5 estrelas = muito satisfeito

Feche a caixa de diálogo se não quiser enviar feedback.

Para enviar seu feedback, fazer sugestões ou correções, use a guia Support.

Copyright 2020 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de produtos e empresas podem ser marcas registradas das respectivas empresas a que estão associados.

Antes de começar

  1. Os laboratórios criam um projeto e recursos do Google Cloud por um período fixo
  2. Os laboratórios têm um limite de tempo e não têm o recurso de pausa. Se você encerrar o laboratório, vai precisar recomeçar do início.
  3. No canto superior esquerdo da tela, clique em Começar o laboratório

Usar a navegação anônima

  1. Copie o nome de usuário e a senha fornecidos para o laboratório
  2. Clique em Abrir console no modo anônimo

Fazer login no console

  1. Faça login usando suas credenciais do laboratório. Usar outras credenciais pode causar erros ou gerar cobranças.
  2. Aceite os termos e pule a página de recursos de recuperação
  3. Não clique em Terminar o laboratório a menos que você tenha concluído ou queira recomeçar, porque isso vai apagar seu trabalho e remover o projeto

Este conteúdo não está disponível no momento

Você vai receber uma notificação por e-mail quando ele estiver disponível

Ótimo!

Vamos entrar em contato por e-mail se ele ficar disponível

Um laboratório por vez

Confirme para encerrar todos os laboratórios atuais e iniciar este

Use a navegação anônima para executar o laboratório

Para executar este laboratório, use o modo de navegação anônima ou uma janela anônima do navegador. Isso evita conflitos entre sua conta pessoal e a conta de estudante, o que poderia causar cobranças extras na sua conta pessoal.