arrow_back

Análisis exploratorio de datos con BigQuery y Colab Enterprise

Acceder Unirse
Obtén acceso a más de 700 labs y cursos

Análisis exploratorio de datos con BigQuery y Colab Enterprise

Lab 2 horas universal_currency_alt 1 crédito show_chart Intermedio
info Es posible que este lab incorpore herramientas de IA para facilitar tu aprendizaje.
Obtén acceso a más de 700 labs y cursos

Descripción general

En este lab, aprenderás el proceso de analizar un conjunto de datos almacenado en BigQuery con Colab Enterprise para realizar consultas y presentar los datos utilizando varias técnicas de representación de datos estadísticos. El análisis te ayudará a descubrir patrones en los datos.

Objetivos de aprendizaje

  • Crear un notebook de Colab Enterprise
  • Conectarte a conjuntos de datos de BigQuery
  • Realizar un análisis estadístico en un DataFrame de Pandas
  • Crear diagramas de Seaborn para realizar un análisis exploratorio de datos en Python
  • Escribir una consulta en SQL para seleccionar campos específicos de un conjunto de datos de BigQuery
  • Usar el historial de versiones para ver los cambios de código
  • Compartir un notebook de Colab Enterprise

Vertex AI es una plataforma unificada para compilar, implementar y administrar aplicaciones de aprendizaje automático (AA).

Vertex AI Colab Enterprise es una poderosa herramienta interactiva colaborativa creada para explorar, analizar, transformar y visualizar datos, además de compilar modelos de aprendizaje automático en Google Cloud. Ofrece las funciones de seguridad y cumplimiento necesarias para las organizaciones empresariales y se integra en otros servicios de Google Cloud, como Vertex AI y BigQuery, para mejorar el flujo de trabajo de ciencia de datos y aprendizaje automático.

BigQuery es un almacén de datos sin servidores, potente y completamente administrado que te permite analizar y administrar grandes conjuntos de datos con facilidad. Este producto utiliza un dialecto de SQL estándar conocido, lo que facilita su uso para los analistas y científicos de datos, que no necesitan aprender un lenguaje nuevo.

Vertex AI ofrece dos soluciones de notebook, Workbench y Colab Enterprise.

Colab

Colab Enterprise

El espacio de trabajo de Colab Enterprise consta de cinco secciones principales (como se muestra en la siguiente imagen): (1) almacenamiento de notebooks, (2) acciones para notebooks, (3) entornos de ejecución y plantillas de entornos de ejecución, (4) editor de notebooks y (5) celdas de código de notebooks. El almacenamiento de notebooks es la ubicación de los notebooks, las acciones para notebooks son acciones que se pueden realizar con un notebook, los entornos de ejecución te permiten "ejecutar" el notebook, el editor de notebooks sirve para realizar cambios en el notebook y las celdas de código te permiten ingresar código.

Entorno de ejecución de Colab

Configura tus entornos de Qwiklabs

Configuración de Qwiklabs

En cada lab, recibirá un proyecto de Google Cloud y un conjunto de recursos nuevos por tiempo limitado y sin costo adicional.

  1. Accede a Qwiklabs desde una ventana de incógnito.

  2. Ten en cuenta el tiempo de acceso del lab (por ejemplo, 1:15:00) y asegúrate de finalizarlo en el plazo asignado.
    No existe una función de pausa. Si lo necesita, puede reiniciar el lab, pero deberá hacerlo desde el comienzo.

  3. Cuando esté listo, haga clic en Comenzar lab.

  4. Anote las credenciales del lab (el nombre de usuario y la contraseña). Las usarás para acceder a la consola de Google Cloud.

  5. Haga clic en Abrir Google Console.

  6. Haga clic en Usar otra cuenta, copie las credenciales para este lab y péguelas en el mensaje emergente que aparece.
    Si usa otras credenciales, se generarán errores o incurrirá en cargos.

  7. Acepta las condiciones y omite la página de recursos de recuperación.

Tarea 1. Configura tu entorno

  1. Habilita la API de Vertex AI

Navega a la sección Vertex AI de la consola de Cloud y haz clic en HABILITAR TODAS LAS APIS RECOMENDADAS.

Tarea 2. Crea un notebook de Colab Enterprise

  1. En la sección Vertex AI, desplázate hacia abajo hasta Notebooks. Haz clic en Colab Enterprise.

select_colab

A continuación, aparece la página "Te damos la bienvenida a Colab Enterprise".

screate_nb

  1. En el menú Región, selecciona la región en la que crearás el notebook.

  2. Haz clic en + CREAR NOTEBOOK en la sección Acciones rápidas.

Se abrirá un notebook nuevo.

get_started

Para ejecutar las celdas, debes crear un entorno de ejecución. Recuerda que los entornos de ejecución son instancias derivadas de las plantillas de entornos de ejecución que permiten a los usuarios ejecutar notebooks de Colab. Para crear un entorno de ejecución, primero debes crear una plantilla de entorno de ejecución.

  1. Haz clic en PLANTILLAS DE ENTORNOS DE EJECUCIÓN. En esa página, haz clic en + NUEVA PLANTILLA.

Entorno de ejecución de Colab

Conceptos básicos del entorno de ejecución

Son tres pasos. Los pasos 2 y 3 son opcionales.

Paso 1: Proporciona información básica sobre el entorno de ejecución y selecciona la región como

Entorno de ejecución de Colab

Configura el procesamiento

Paso 2: Configura el procesamiento (opcional)

Entorno de ejecución de Colab

Redes y seguridad

Paso 3: Redes y seguridad (opcional)

Entorno de ejecución de Colab

Haz clic en Crear.

Tarea 3. Ejecuta código en un notebook de Colab Enterprise

En este ejemplo, la celda de código debajo de "Comenzar" usa NumPy para generar algunos datos aleatorios y matplotlib para visualizarlos.

  1. Haz clic en Colab Enterprise y, luego, en el notebook que creaste.

  2. Copia el código que se muestra a continuación y haz clic en el ícono Ejecutar para ejecutar la celda.

    import numpy as np from matplotlib import pyplot as plt ys = 200 + np.random.randn(100) x = [x for x in range(len(ys))] plt.plot(x, ys, '-') plt.fill_between(x, ys, 195, where=(ys > 195), facecolor='g', alpha=0.6) plt.title("Sample Visualization") plt.show()

run_icon

Cuando ejecutas la celda, aparece un mensaje que indica que el entorno de ejecución está activo y que se está iniciando una conexión, como se muestra en la siguiente imagen.

Entorno de ejecución de Colab

  1. Haz clic en Abrir para abrir la ventana emergente de OAuth, luego, selecciona tu Nombre de usuario y haz clic en Permitir.

  2. Ahora, revisa la celda que ejecutaste. Debería haber una marca de verificación verde junto a ella, lo que indica que la celda se ejecutó correctamente.

Resultado de Colab

  1. Ahora, haz un cambio en el código. Por ejemplo, cambia el título del gráfico de "Visualización de muestra" a "Colab Enterprise". Luego, ejecuta la celda.

Resultado de Colab 2

Tarea 4. Muestra el historial de revisión

Una de las características más importantes del desarrollo de software es la capacidad de hacer un seguimiento del historial de versiones.

  1. Ve a la sección Almacenamiento de notebooks. Haz clic en los tres puntos junto al notebook que creaste.

acciones

  1. Selecciona Historial de revisión (como se muestra en la burbuja 1 de la imagen que aparece a continuación).

Cuando se selecciona el historial de revisión, verás los cambios uno al lado del otro con una fecha y un código de color para ver el "antiguo" en rojo y el "nuevo" en verde (como se muestra en la burbuja 2). Hay tres opciones para visualizar el historial de revisión: el código fuente sin procesar, las diferencias intercaladas o el resultado del código fuente (como se muestra en la burbuja 3).

revision_history

Tarea 5. Agrega código a las celdas

Para agregar código o texto a un notebook, solo debes hacer clic en el código o el texto en la barra de menú sobre el editor de notebooks.

add_code

Ahora, agregarás varios bloques de código al notebook. Después de copiar un bloque de código, ejecútalo para ver el resultado. Nota: Algunas celdas no tendrán resultado (como cuando importas las bibliotecas). Cuando termines, comparte el notebook.

  1. Vuelve a la sección de almacenamiento de notebooks y, luego, haz clic en tu notebook.
  2. Vuelve a ejecutar el primer código.
  3. Agrega una celda de código.
  4. Copia el código que se muestra a continuación en la nueva celda.

Importa las bibliotecas

import seaborn as sns import pandas as pd import numpy as np from google.cloud import bigquery bq = bigquery.Client()
  1. Haz clic en el ícono Ejecutar para ejecutar la celda.

No debería aparecer ningún resultado.

Inserta el siguiente código como celdas para importar los módulos necesarios y así inicializar un cliente de BigQuery. El cliente de BigQuery se usará para enviar y recibir mensajes de la API de BigQuery.

Importa el cliente de BigQuery

client = bigquery.Client() query = """SELECT * FROM `bigquery-public-data.catalonian_mobile_coverage_eu.mobile_data_2015_2017` LIMIT 1000""" job = client.query(query) df = job.to_dataframe()

No se muestra ningún resultado.

Descarga una tabla de BigQuery en un DataFrame de Pandas

En Google, %%bigquery es un comando mágico que se usa en los notebooks de Jupyter y otros entornos interactivos para interactuar con BigQuery. Por lo tanto, %%bigquery le indica a tu entorno que cambie al modo de BigQuery: prepara el entorno para aceptar y ejecutar consultas de BigQuery. BigQuery ejecutará la consulta, recuperará los datos y los presentará en el entorno del notebook, a menudo, como un DataFrame de Pandas (p. ej., el "df" que se muestra en el código).

%%bigquery df SELECT * FROM `bigquery-public-data.catalonian_mobile_coverage_eu.mobile_data_2015_2017`

Se muestra el resultado: abq_df_output

Muestra las primeras cinco filas del DataFrame de Pandas

df.head()

Se muestra el resultado: adf.headoutput

Obtén información sobre el DataFrame de Pandas

df.info()

Se muestra el resultado: adf.infooutput

Obtén estadísticas sobre el DataFrame de Pandas

df.describe()

Se muestra el resultado: df.describeoutput

Traza una correlación con Seaborn

numeric_df = df.select_dtypes(include=[np.number]) corr_matrix = numeric_df.corr() plt.figure(figsize=(10, 5)) sns.heatmap(corr_matrix, annot=True, vmin=0, vmax=1, cmap='viridis') plt.show()

Se muestra el resultado: df.corroutput

Escribe una consulta en SQL para seleccionar campos específicos de un conjunto de datos de BigQuery

%%bigquery df2 SELECT signal, status FROM `bigquery-public-data.catalonian_mobile_coverage_eu.mobile_data_2015_2017`

Se muestra el resultado: abq_df_output

Obtén las primeras cinco filas de los nuevos campos

df2.head()

Se muestra el resultado: asql_output

Tarea 6. Comparte el notebook

A continuación, comparte tu notebook.

  1. Cuando seleccionas "Compartir" haciendo clic con el botón derecho en el notebook, aparece una ventana de permisos de uso compartido que te permite editar o borrar permisos, o seleccionar "Agregar principal" para otorgar acceso nuevo.

compartir

  1. Cuando otorgas a las principales acceso a un recurso, también agregas roles para especificar qué acciones pueden realizar. De manera opcional, puedes agregar condiciones para otorgar acceso a las principales solo cuando se cumplan criterios específicos.

Las principales son usuarios, grupos, dominios o cuentas de servicio. Los roles se componen de conjuntos de permisos y determinan lo que la principal puede hacer con este recurso.

¡Felicitaciones!

En este lab, aprendiste a realizar las siguientes tareas:

  • Crear un notebook de Colab Enterprise
  • Conectarte a conjuntos de datos de BigQuery
  • Realizar un análisis estadístico en un DataFrame de Pandas
  • Crear diagramas de Seaborn para realizar un análisis exploratorio de datos en Python
  • Escribir una consulta en SQL para seleccionar campos específicos de un conjunto de datos de BigQuery
  • Usar el historial de versiones para ver los cambios de código
  • Compartir un notebook de Colab Enterprise

Finalice su lab

Cuando haya completado su lab, haga clic en Finalizar lab. Qwiklabs quitará los recursos que usó y limpiará la cuenta por usted.

Tendrá la oportunidad de calificar su experiencia en el lab. Seleccione la cantidad de estrellas que corresponda, ingrese un comentario y haga clic en Enviar.

La cantidad de estrellas indica lo siguiente:

  • 1 estrella = Muy insatisfecho
  • 2 estrellas = Insatisfecho
  • 3 estrellas = Neutral
  • 4 estrellas = Satisfecho
  • 5 estrellas = Muy satisfecho

Puede cerrar el cuadro de diálogo si no desea proporcionar comentarios.

Para enviar comentarios, sugerencias o correcciones, use la pestaña Asistencia.

Última actualización del manual: 11 de diciembre de 2024

Prueba más reciente del lab: 11 de diciembre de 2024

Copyright 2024 Google LLC. Todos los derechos reservados. Google y el logotipo de Google son marcas de Google LLC. El resto de los nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que están asociados.

Antes de comenzar

  1. Los labs crean un proyecto de Google Cloud y recursos por un tiempo determinado
  2. .
  3. Los labs tienen un límite de tiempo y no tienen la función de pausa. Si finalizas el lab, deberás reiniciarlo desde el principio.
  4. En la parte superior izquierda de la pantalla, haz clic en Comenzar lab para empezar

Usa la navegación privada

  1. Copia el nombre de usuario y la contraseña proporcionados para el lab
  2. Haz clic en Abrir la consola en modo privado

Accede a la consola

  1. Accede con tus credenciales del lab. Si usas otras credenciales, se generarán errores o se incurrirá en cargos.
  2. Acepta las condiciones y omite la página de recursos de recuperación
  3. No hagas clic en Finalizar lab, a menos que lo hayas terminado o quieras reiniciarlo, ya que se borrará tu trabajo y se quitará el proyecto

Este contenido no está disponible en este momento

Te enviaremos una notificación por correo electrónico cuando esté disponible

¡Genial!

Nos comunicaremos contigo por correo electrónico si está disponible

Un lab a la vez

Confirma para finalizar todos los labs existentes y comenzar este

Usa la navegación privada para ejecutar el lab

Usa una ventana de navegación privada o de Incógnito para ejecutar el lab. Así evitarás cualquier conflicto entre tu cuenta personal y la cuenta de estudiante, lo que podría generar cargos adicionales en tu cuenta personal.