O Data Catalog foi descontinuado e não estará mais disponível a partir de 30 de janeiro de 2026. Você ainda pode concluir este laboratório, se quiser.
Para saber como fazer a transição dos usuários, das cargas de trabalho e do conteúdo do Data Catalog para o Dataplex Catalog, consulte "Fazer a transição do Data Catalog para o Dataplex Catalog" (https://cloud.google.com/dataplex/docs/transition-to-dataplex-catalog).
GSP789

Informações gerais
O Data Catalog é um serviço de administração de metadados totalmente gerenciado e escalonável no Dataplex.
Sem as ferramentas certas, o gerenciamento de recursos de dados pode ser demorado e caro. O Data Catalog fornece um local centralizado onde as organizações podem localizar, selecionar e descrever os recursos de dados.
Como usar o Data Catalog
Existem duas maneiras principais de interagir com o Data Catalog:
- Procurar os recursos de dados a que você tem acesso
- Incluir tags em recursos com metadados
O que você vai aprender
Neste curso, você vai aprender a:
- Analisar um ambiente corporativo simulado com dois projetos, dois conjuntos de dados e duas contas de usuário.
- Navegar manualmente em uma tabela do BigQuery usando a interface.
- Executar consultas para entender melhor as colunas de dados sensíveis que serão marcadas com tags.
- Usar o Data Catalog para procurar conjuntos de dados em projetos.
- Usar modelos de tags do Data Catalog para incluir tags em recursos com metadados avançados.
Por que isso é útil?
- Ver recursos de dados em vários projetos na organização
- Criar modelos de tags reutilizáveis e adicionar descrições de dados completas para suas equipes
- Destacar rapidamente os conjuntos de dados com PII (informações de identificação pessoal)
- Controlar o acesso aos metadados, o que é herdado com base nos usuários conectados (sem necessidade de ACLs separadas do Data Catalog)
Pré-requisitos
Importante: antes de iniciar este laboratório, saia da sua conta pessoal ou corporativa do Gmail ou faça o laboratório usando a navegação anônima. Isso evita confusão no processo de login enquanto o laboratório está em execução.
Configuração e requisitos
-
Clique em Começar o laboratório se ainda não tiver feito isso.
-
Dica: leva de três a cinco minutos para o ambiente do laboratório gerar automaticamente dois projetos do Google Cloud, dois conjuntos de dados pré-preenchidos e duas contas de usuário. Não é necessário esperar a conclusão dos recursos do laboratório para continuar lendo. Você não fará login após ler o cenário a seguir.
-
Clique em Abrir console de bicicletas no laboratório ou acesse o console do Cloud em uma janela anônima do navegador. Não faça login com as contas fornecidas até agora. Continue lendo o cenário. Você receberá instruções depois sobre qual conta usar.
Observação importante: uma vez iniciado, o laboratório não pode ser pausado. Se ele for encerrado, os projetos em execução do estudante serão excluídos.
Cenário: CEO da NYC Transportation Company
Você é CEO de uma empresa de transportes na cidade de Nova York. As equipes de analistas consultam os conjuntos de dados que você coletou sobre o transporte por bicicleta e carro em Nova York.
Desafios:
- Alguns conjuntos de dados contêm informações sensíveis e você quer controlar o acesso a elas.
- A equipe reclama que é difícil encontrar o conjunto de dados correto entre os vários que ela pode acessar.
- Para obedecer aos requisitos regulatórios recentes, você precisa de uma forma clara de indicar os conjuntos de dados com PII (informações de identificação pessoal).
Conjuntos de dados para sua organização
- Viagens em NY por aluguel de bicicletas
- Colisões de veículos motorizados em NY
Cada equipe de engenharia de dados mantém seu conjunto de dados em um projeto separado do Google Cloud. Assim fica mais fácil gerenciar o acesso e o faturamento. Embora isso seja melhor para elas, fica mais difícil para a equipe de analistas encontrar esses conjuntos de dados.
Nem todos os papéis de analista são iguais
Para complicar ainda mais, existem diferentes níveis de analistas de dados trabalhando para você na equipe de BI:
- Analistas de dados: com privilégios mínimos
- Proprietário: administrador total
Saiba o que está sendo criado automaticamente
Para simular melhor um ambiente corporativo real com vários projetos e conjuntos de dados para catalogar, sua equipe de engenharia permitiu que você acessasse recursos. O laboratório carrega esses recursos antecipadamente para que você não precise criá-los.

Como mostrado acima, sua equipe forneceu logins a você para:
- dois projetos;
- duas contas de usuário.
Além disso, ela adicionou as seguintes observações sobre a restrição do acesso:
- O proprietário deve ter acesso total aos projetos e conjuntos de dados.
- Os analistas de dados não podem ter acesso de leitura ou consulta ao conjunto de dados sobre colisões de veículos motorizados em NY (dados sensíveis).
Parte 1: analise o ambiente de dados atual com o papel de proprietário
Lembre que a equipe de engenharia de dados disponibilizou três projetos, cada um com um conjunto de dados diferente sobre a cidade de Nova York. Verifique se o Papel de proprietário pode acessar e consultar todos os conjuntos de dados.
-
Faça login usando o e-mail e a senha gerados automaticamente para o Proprietário (administrador total) como parte deste laboratório.
-
Aceite os Termos e Condições para usar o Google Cloud (se solicitado).
Encontre o projeto sobre colisões em Nova York
- Clique no menu suspenso do nome do projeto na parte de cima da página e selecione um projeto.

- Consulte o nome do projeto gerado automaticamente pelo Qwiklabs para
NYC Motor Vehicle Collisions Project
e encontre o valor da string no pop-up "Selecione um projeto":


Ative a API Data Catalog
- Use o Menu de navegação > Soluções > Todos os produtos para rolar a tela até o Data Catalog.
- Passe o cursor sobre o nome e clique no ícone de fixação. Isso move o Data Catalog para a parte superior do menu de navegação.
- Clique em Data Catalog. Se um pop-up aparecer, clique em Fechar.
- Verifique se a API já está ativada. Se a mensagem que solicita a ativação da API não for exibida, ela já estará ativada e você não precisa fazer nada.
Depois de pesquisar e consultar manualmente os conjuntos de dados no BigQuery, volte a este laboratório para usar o Data Catalog.
Acesse e fixe o BigQuery
- No Menu de navegação, role para baixo até encontrar o BigQuery.
- Passe o cursor sobre o nome e clique no ícone de fixação.
- Clique em BigQuery e depois em Concluído.
Tarefa 1: verifique se o papel de proprietário pode acessar e consultar o conjunto de dados new_york_mv_collisions
Verifique se o papel de proprietário pode visualizar o conjunto de dados new_york_mv_collisions
.
-
Em Explorer no BigQuery, clique no nome do seu projeto para abrir os conjuntos de dados aos quais você tem acesso de visualização.
-
Verifique se você pode ver o conjunto de dados new_york_mv_collisions
.
-
Clique no conjunto de dados new_york_mv_collisions
para abrir as tabelas que ele contém.
-
Clique na tabela nypd_mv_collisions
e analise os campos disponíveis no esquema.
O esquema será semelhante a este:

Responda às perguntas a seguir.
Embora a tabela não contenha informações de identificação pessoal, como número de telefone ou endereço de e-mail, ainda é preciso ter cuidado ao compartilhar esse conjunto de dados com toda a equipe.
No restante do laboratório, você vai aprender maneiras de acessar conjuntos de dados restritos e usar o Data Catalog para incluir tags de maneira proativa em conjuntos de dados e tabelas com metadados avançados para sua organização.
Observação: o conjunto de dados de colisões da polícia de NY é carregado automaticamente no projeto com base no conjunto de dados público do BigQuery original, que é atualizado diariamente. Clique no link para saber mais sobre como o conjunto de dados foi coletado e ver exemplos de consultas.
Verifique se o papel de proprietário pode consultar o conjunto de dados sobre colisões
Uma vez que você fez login como um proprietário global, confirme se é possível ver e acessar os projetos e conjuntos de dados. Verifique se você pode executar a consulta a seguir.
- Copie e cole a consulta a seguir no Editor de consultas do BigQuery e clique em Executar:
Quais são os 10 fatores mais comuns nas colisões de carros em NY?
SELECT
contributing_factor_vehicle_1 AS collision_factor,
COUNT(*) AS num_collisions
FROM
`new_york_mv_collisions.nypd_mv_collisions`
WHERE
contributing_factor_vehicle_1 != "Unspecified"
AND contributing_factor_vehicle_1 != ""
GROUP BY
collision_factor
ORDER BY
num_collisions DESC
LIMIT 10;
Clique em Verificar meu progresso para ver o objetivo.
Consulte os dados sobre colisões em Nova York
Tarefa 2: verifique se o papel de proprietário pode visualizar e consultar o conjunto de dados de aluguel de bicicletas
-
Clique em Selecionar um projeto na parte de cima da página.
-
Selecione a guia Todos.
-
Encontre o conjunto de dados de compartilhamento de bicicletas consultando o ID do projeto correto gerado automaticamente:


- Clique no ID do projeto.
Observação: se solicitado, clique em "SAIR" no trabalho não salvo.
- Na IU do BigQuery, abra a tabela ID do projeto >
new_york_citibike
> citibike_trips
.
Ao acessar o esquema, os detalhes e a prévia, responda às perguntas a seguir.
Quais são os trajetos mais usados pelo aluguel de bicicletas por gêneros?
O Conjunto de dados público sobre bicicletas na cidade de Nova York rastreia cada viagem (local de saída e de chegada), bem como outros campos dos usuários.
- Adicione a consulta abaixo ao editor de consultas e clique em Executar para conferir os trajetos mais usados por gênero. O conjunto de dados fornece somente três valores: desconhecido, masculino e feminino, que podem não representar todos os valores de gênero dos ciclistas:
WITH unknown AS (
SELECT
gender,
CONCAT(start_station_name, " to ", end_station_name) AS route,
COUNT(*) AS num_trips
FROM
`new_york_citibike.citibike_trips`
WHERE gender = 'unknown'
GROUP BY
gender,
start_station_name,
end_station_name
ORDER BY
num_trips DESC
LIMIT 5
)
, female AS (
SELECT
gender,
CONCAT(start_station_name, " to ", end_station_name) AS route,
COUNT(*) AS num_trips
FROM
`new_york_citibike.citibike_trips`
WHERE gender = 'female'
GROUP BY
gender,
start_station_name,
end_station_name
ORDER BY
num_trips DESC
LIMIT 5
)
, male AS (
SELECT
gender,
CONCAT(start_station_name, " to ", end_station_name) AS route,
COUNT(*) AS num_trips
FROM
`bigquery-public-data.new_york_citibike.citibike_trips`
WHERE gender = 'male'
GROUP BY
gender,
start_station_name,
end_station_name
ORDER BY
num_trips DESC
LIMIT 5
)
SELECT * FROM unknown
UNION ALL
SELECT * FROM female
UNION ALL
SELECT * FROM male;
Clique em Verificar meu progresso para conferir o objetivo.
Consulte o trajeto de bicicleta mais usado por gênero
A seguir, você vai aprender a incluir tags em conjuntos de dados e tabelas com dados confidenciais.
Resumo da análise
- Você analisou cada conjunto de dados sobre NY (colisões e viagens com aluguel de bicicletas).
- Cada conjunto de dados fica armazenado em um projeto diferente.
- O papel de proprietário (que você está usando agora) pode visualizar e consultar cada conjunto de dados.
Parte 2: analise o ambiente de dados com acesso de usuário restrito
Até o momento, você só usou a conta de proprietário fornecida pela equipe de engenharia de dados com as permissões de mais alto nível.
Você pediu para as equipes de engenharia limitarem o acesso aos usuários analistas de dados da seguinte maneira.
Os analistas de dados podem ver:
- Aluguel de bicicletas em NY
Os analistas de dados NÃO podem ver:
- Colisões de veículos motorizados em NY
Saia da conta de proprietário
-
Clique no ícone de perfil.
-
Saia da conta.
Tarefa 3: faça login com o usuário analista de dados e confirme o acesso restrito ao projeto
-
Clique em Usar outra conta.
-
Entre novamente no Google Cloud com o e-mail e a senha do Data Analyst User
[usuário analista de dados].
-
Em Selecionar um projeto, verifique se você pode ver somente um, e não dois projetos gerados automaticamente pelo Qwiklabs.
-
Selecione o projeto do Qwiklabs que você pode acessar.
-
Acesse o BigQuery.
Tarefa 4: tente consultar diretamente um conjunto de dados privado
No BigQuery, é possível consultar um projeto (se você tiver acesso) sem ele estar fixado ou disponível na seção "Explorer". Tente consultar o conjunto de dados sobre colisões em Nova York diretamente como um usuário analista de dados usando o ID do projeto.
- Adicione abaixo a consulta anterior e substitua o prefixo do ID do projeto pelo ID no
NYC Motor Vehicle Collisions Project
:
SELECT
contributing_factor_vehicle_1 AS collision_factor,
COUNT(*) AS num_collisions
FROM
`qwiklabs-gcp-REPLACE-HERE.new_york_mv_collisions.nypd_mv_collisions`
WHERE
contributing_factor_vehicle_1 != "Unspecified"
AND contributing_factor_vehicle_1 != ""
GROUP BY
collision_factor
ORDER BY
num_collisions DESC
LIMIT 10;
A mensagem de erro de acesso negado verifica seu nível de acesso de analista de dados.
Você já conheceu os diferentes privilégios e acessos concedidos aos papéis de proprietário (o conjunto de privilégios mais amplo) e analista de dados (mais limitado) na hora de acessar projetos, conjuntos de dados e consultas.
A seguir, você vai tentar encontrar um conjunto de dados escondido usando o recurso de pesquisa do Data Catalog. Você acha que ele aparecerá para os analistas de dados se o BigQuery bloquear você?
Parte 3: use o Data Catalog para incluir tags em conjuntos de dados de projetos
Você já conhece os conjuntos de dados e os níveis de acesso concedidos a diferentes papéis. Agora, você vai solucionar os desafios definidos anteriormente no cenário:
Desafios:
- Alguns conjuntos de dados contêm informações sensíveis e você quer controlar o acesso a elas.
- A equipe reclama que é difícil encontrar o conjunto de dados correto entre os vários que ela pode acessar.
Para obedecer aos requisitos regulatórios recentes, você precisa de uma forma clara de indicar os conjuntos de dados com PII (informações de identificação pessoal). Solucione esses desafios e conclua a tarefa com o serviço do Data Catalog.
- Abra o menu de navegação e clique em Data Catalog.
Observação: se solicitado, clique em "SAIR" no trabalho não salvo.
Observação: se uma tela pedir para você ativar a API, faça login novamente com o papel de proprietário e faça a ativação (uma etapa anterior deste laboratório).
- Na página inicial do Data Catalog, em Sistemas, filtre por BigQuery.
Observação: talvez você encontre linhas do projeto `qwiklabs-resources`. Elas podem ser ignoradas. O projeto conta com recursos compartilhados em todos os laboratórios.
-
Insira qwiklabs-gcp
na barra de pesquisa do Data Catalog para filtrar os recursos externos do Qwiklabs.
-
Confira se sua visualização como analista de dados é parecida com esta:

Qualquer que seja o projeto em que você fez login, o Data Catalog mostrará TODOS os conjuntos de dados do BigQuery que seu papel pode acessar.
Como analista de dados, não vai aparecer o new_york_mv_collisions
no Data Catalog, mesmo que esse valor exista, porque já consultou esse conjunto como proprietário.
Por quê? A seguir, saiba como funciona o controle de acesso no nível do Data Catalog.
Como o Data Catalog exibe metadados
Antes de pesquisar, descobrir ou exibir recursos do Google Cloud, o Data Catalog verifica se o usuário recebeu uma função do IAM com as permissões de leitura de metadados exigidas pelo BigQuery, o Pub/Sub ou outro sistema de origem para acessar o recurso.
Exemplo: o Data Catalog verifica se o usuário recebeu um papel com a permissão bigquery.tables.get
antes de exibir os metadados da tabela do BigQuery.
Tarefa 5: crie um modelo de tag do Data Catalog com base em um conjunto de dados do BigQuery
- Clique na entrada de nome
new_york_citibike
da tabela. Essa é uma subtarefa do conjunto de dados sobre aluguel de bicicletas que você tem permissão para visualizar.

Nas tabelas do BigQuery, o Data Catalog permite incluir tags:
- no conjunto de dados;
- na tabela;
- em colunas individuais.
-
Tente clicar no botão Anexar tag.
-
Verifique se este erro aparece:

- Nessa caixa de diálogo, passe o cursor sobre Saiba mais para saber o motivo do recurso não estar disponível.
Parece que o papel de analista de dados pode procurar metadados no Data Catalog, mas não pode anexar novas tags.
A seguir, você vai descobrir como funcionam as permissões de inclusão de tags e os modelos de tag do Data Catalog.
Modelos, tags e permissões do Data Catalog
Os modelos de tag do Data Catalog ajudam você a criar e gerenciar metadados comuns sobre recursos de dados em um único local. As tags são anexadas ao recurso de dados, o que significa que podem ser encontradas no sistema do Data Catalog. Ao usar esse recurso, você também pode criar mais aplicativos que consomem metadados contextuais sobre um recurso de dados.
Qual é a aparência de um modelo de tag?

Quem pode criar um modelo de tag?
Para criar modelos de tag, o usuário precisa ter, no mínimo, acesso para editar o recurso em questão (o BigQuery, neste laboratório) E datacatalog.tagTemplateUser
, se o modelo já tiver sido criado. Para saber mais, consulte o Guia de IAM do Data Catalog.
E se for preciso criar um modelo de tag novo? No mínimo, você precisaria ser datacatalog.tagTemplateCreator
ou roles/datacatalog.tagTemplateOwner
. O proprietário pode excluir modelos e outros privilégios de administrador.
Papéis do Cloud IAM mais comuns predefinidos para o Data Catalog:
roles/datacatalog.tagTemplateViewer
roles/datacatalog.tagTemplateUser
roles/datacatalog.tagTemplateCreator
roles/datacatalog.tagTemplateOwner
- Consulte papéis do Data Catalog para acessar uma lista completa de papéis
Tarefa 6: crie um novo modelo do Data Catalog
-
Faça login com o papel de proprietário que tem a permissão roles/datacatalog.tagTemplateOwner
.
-
Selecione o projeto de aluguel de bicicletas em Nova York
que você usou antes.
Observação: se aparecer um erro de permissão, faça login novamente com as credenciais corretas. É provável que você tenha escolhido o proprietário errado.
-
Navegue até o Data Catalog.
-
Clique em Modelos de tag > Criar modelo de tag.
-
Insira informações básicas no novo modelo e dê o nome Conjuntos de dados de Nova York.
-
Selecione como o local.

-
Clique em Adicionar campo.
-
Dê o nome Contém PII ao novo campo, marque Tornar este campo obrigatório, selecione o tipo Booleano e, por fim, clique em Concluído.
-
Selecione Adicionar campo.
-
Dê o nome de Tipo de PII ao campo, selecione o tipo Enumerado, adicione os valores a seguir e clique em Concluído quando terminar:
-
Valor 1: nenhum
-
Valor 2: data de nascimento
-
Valor 3: gênero
-
Valor 4: localização geográfica
-
Selecione Adicionar campo.
-
Dê o nome Equipe do proprietário dos dados ao campo, marque Tornar este campo obrigatório, selecione o tipo Enumerado, adicione os valores a seguir e clique em Concluído quando terminar:
-
Valor 1: marketing
-
Valor 2: ciência de dados
-
Valor 3: vendas
-
Valor 4: engenharia
- Clique em Criar.
Inclua tags no nível do conjunto de dados
-
Clique em Pesquisar entradas que não usam este modelo.
-
Clique no conjunto de dados new_york_mv_collisions.
-
Observe que não há tags abaixo do nome do conjunto de dados. Depois disso, clique em Anexar tags.
-
Escolha o modelo que você criou antes e clique em OK.
-
Use o menu suspenso para preencher os valores dos campos do modelo com os dados a seguir. Depois disso, clique em Salvar:
-
Contém PII: verdadeiro
-
Tipo de PII: localização geográfica
-
Equipe do proprietário dos dados: engenharia
- Confira as tags no nível do conjunto de dados.
Insira tags no nível da tabela e da coluna
É possível incluir tags no nível da tabela e da coluna para detalhar ainda mais o processo.
-
Volte aos recursos da pesquisa anterior e clique na tabela nypd_mv_collisions
.
-
Clique em Anexar tags e defina os campos a seguir como Tags de coluna e esquema:
-
Clique em Salvar.
-
Inclua a tag PII no campo para geolocalização e verifique se ela aparece quando você clica no nome do modelo.

Clique em Verificar meu progresso para conferir o objetivo.
Como criar um modelo de tag do Data Catalog
Pesquise conjuntos de dados por tag e chave de tag
Agora, com as tag incluídas, é possível pesquisar seu catálogo usando as que você adicionou.
- Na barra de pesquisa, copie e cole
tag:qwiklabs-YOUR-PROJECT-HERE.new_york_datasets.contains_pii
e substitua o prefixo do ID do projeto pelo ID atual no Qwiklabs.

- Para outros exemplos de como pesquisar rapidamente no seu catálogo, consulte Pesquisar e visualizar recursos de dados com o Data Catalog.
Parabéns!
Você aprendeu sobre outras funções do Data Catalog. como:
- Análise de um ambiente corporativo simulado com dois projetos, dois conjuntos de dados e duas contas de usuário.
- Execução de consultas para entender melhor as colunas de dados sensíveis em que você quer incluir tags depois.
- Uso do Data Catalog para procurar os conjuntos de dados em um projeto
- Uso dos modelos de tag do Data Catalog para incluir tags em recursos com metadados avançados
Próximas etapas / Saiba mais
Treinamento e certificação do Google Cloud
Esses treinamentos ajudam você a aproveitar as tecnologias do Google Cloud ao máximo. Nossas aulas incluem habilidades técnicas e práticas recomendadas para ajudar você a alcançar rapidamente o nível esperado e continuar sua jornada de aprendizado. Oferecemos treinamentos que vão do nível básico ao avançado, com opções de aulas virtuais, sob demanda e por meio de transmissões ao vivo para que você possa encaixá-las na correria do seu dia a dia. As certificações validam sua experiência e comprovam suas habilidades com as tecnologias do Google Cloud.
Manual atualizado em 30 de abril de 2024
Laboratório testado em 30 de abril de 2024
Copyright 2025 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de produtos e empresas podem ser marcas registradas das respectivas empresas a que estão associados.