Cargando…
No se encontraron resultados.

Aplica tus habilidades en la consola de Google Cloud

Google Cloud Big Data and Machine Learning Fundamentals - Español

Obtén acceso a más de 700 labs y cursos

Crea una canalización de transmisión de datos para un panel en tiempo real con Dataflow

Lab 1 hora universal_currency_alt 5 créditos show_chart Introductorio
info Es posible que este lab incorpore herramientas de IA para facilitar tu aprendizaje.
Obtén acceso a más de 700 labs y cursos

Descripción general

En este lab, eres dueño de una flota de taxis de la ciudad de Nueva York y quieres supervisar el rendimiento de tu negocio en tiempo real. Compilarás una canalización de transmisión de datos para capturar los ingresos de taxis, el recuento de pasajeros, el estado del viaje y mucho más. Luego, visualizarás los resultados en un panel de administración.

Objetivos

En este lab, aprenderás a realizar lo siguiente:

  • Crear un trabajo de Dataflow a partir de una plantilla
  • Transmitir una canalización de Dataflow a BigQuery
  • Supervisar una canalización de Dataflow en BigQuery
  • Analizar resultados con SQL
  • Visualizar métricas clave en Looker Studio

Configuración y requisitos

En cada lab, recibirás un proyecto de Google Cloud y un conjunto de recursos nuevos por tiempo limitado y sin costo adicional.

  1. Haz clic en el botón Comenzar lab. Si debes pagar por el lab, se abrirá una ventana emergente para que selecciones tu forma de pago. A la izquierda, se encuentra el panel Detalles del lab, que tiene estos elementos:

    • El botón Abrir la consola de Google Cloud
    • El tiempo restante
    • Las credenciales temporales que debes usar para el lab
    • Otra información para completar el lab, si es necesaria
  2. Haz clic en Abrir la consola de Google Cloud (o haz clic con el botón derecho y selecciona Abrir el vínculo en una ventana de incógnito si ejecutas el navegador Chrome).

    El lab inicia recursos y abre otra pestaña en la que se muestra la página de acceso.

    Sugerencia: Ordena las pestañas en ventanas separadas, una junto a la otra.

    Nota: Si ves el diálogo Elegir una cuenta, haz clic en Usar otra cuenta.
  3. De ser necesario, copia el nombre de usuario a continuación y pégalo en el diálogo Acceder.

    {{{user_0.username | "Username"}}}

    También puedes encontrar el nombre de usuario en el panel Detalles del lab.

  4. Haz clic en Siguiente.

  5. Copia la contraseña que aparece a continuación y pégala en el diálogo Te damos la bienvenida.

    {{{user_0.password | "Password"}}}

    También puedes encontrar la contraseña en el panel Detalles del lab.

  6. Haz clic en Siguiente.

    Importante: Debes usar las credenciales que te proporciona el lab. No uses las credenciales de tu cuenta de Google Cloud. Nota: Usar tu propia cuenta de Google Cloud para este lab podría generar cargos adicionales.
  7. Haga clic para avanzar por las páginas siguientes:

    • Acepta los Términos y Condiciones.
    • No agregues opciones de recuperación o autenticación de dos factores (esta es una cuenta temporal).
    • No te registres para obtener pruebas gratuitas.

Después de un momento, se abrirá la consola de Google Cloud en esta pestaña.

Nota: Para ver un menú con una lista de productos y servicios de Google Cloud, haz clic en el menú de navegación que se encuentra en la parte superior izquierda o escribe el nombre del servicio o producto en el campo Búsqueda.

Activa Google Cloud Shell

Google Cloud Shell es una máquina virtual que cuenta con herramientas para desarrolladores. Ofrece un directorio principal persistente de 5 GB y se ejecuta en Google Cloud.

Google Cloud Shell proporciona acceso de línea de comandos a tus recursos de Google Cloud.

  1. En la consola de Cloud, en la barra de herramientas superior derecha, haz clic en el botón Abrir Cloud Shell.

  2. Haz clic en Continuar.

El aprovisionamiento y la conexión al entorno demorarán unos minutos. Cuando te conectes, habrás completado la autenticación, y el proyecto estará configurado con tu PROJECT_ID. Por ejemplo:

gcloud es la herramienta de línea de comandos de Google Cloud. Viene preinstalada en Cloud Shell y es compatible con el completado de línea de comando.

  • Puedes solicitar el nombre de la cuenta activa con este comando:
gcloud auth list

Resultado:

Credentialed accounts: - @.com (active)

Resultado de ejemplo:

Credentialed accounts: - google1623327_student@qwiklabs.net
  • Puedes solicitar el ID del proyecto con este comando:
gcloud config list project

Resultado:

[core] project =

Resultado de ejemplo:

[core] project = qwiklabs-gcp-44776a13dea667a6 Nota: La documentación completa de gcloud está disponible en la guía de descripción general de gcloud CLI .

Tarea 1: Crea un conjunto de datos de BigQuery

En esta tarea, crearás el conjunto de datos taxirides con una de las dos opciones disponibles: Google Cloud Shell o la consola de Google Cloud.

En este lab, usarás un extracto del conjunto de datos abierto de la Comisión de Taxis y Limusinas de la Ciudad de Nueva York. Usarás un archivo de datos pequeño y separado por comas para simular actualizaciones periódicas de datos de los taxis.

BigQuery es un almacén de datos sin servidores. Las tablas en BigQuery están organizadas en conjuntos de datos. En este lab, los datos de los taxis fluirán desde el archivo independiente a través de Dataflow para almacenarlos en BigQuery. Con esta configuración, cualquier archivo de datos nuevo depositado en el bucket fuente de Cloud Storage se procesaría automáticamente para la carga.

Para crear un nuevo conjunto de datos de BigQuery, usa una de las siguientes opciones:

Opción 1: Herramienta de línea de comandos

  1. En Cloud Shell (), ejecuta el siguiente comando para crear el conjunto de datos taxirides.
bq --location={{{project_0.default_region|Region}}} mk taxirides
  1. Ejecuta este comando para crear la tabla taxirides.realtime (esquema vacío al que transmitirás datos más adelante).
bq --location={{{project_0.default_region|Region}}} mk \ --time_partitioning_field timestamp \ --schema ride_id:string,point_idx:integer,latitude:float,longitude:float,\ timestamp:timestamp,meter_reading:float,meter_increment:float,ride_status:string,\ passenger_count:integer -t taxirides.realtime

Opción 2: IU de la consola de BigQuery

Nota: Omite estos pasos si creaste las tablas con la línea de comandos.
  1. En el menú de navegación () de la consola de Google Cloud, haz clic en BigQuery.

  2. Si aparece el diálogo de bienvenida, haz clic en Listo.

  3. Haz clic en Ver acciones () junto al ID del proyecto y, luego, haz clic en Crear conjunto de datos.

  4. En ID del conjunto de datos, escribe taxirides.

  5. En Ubicación de los datos, selecciona:

{{{project_0.default_region|Region}}}

Luego, haz clic en Crear conjunto de datos.

  1. En el panel Explorador, haz clic en expand node () para revelar el nuevo conjunto de datos taxirides.

  2. Haz clic en Ver acciones () junto al conjunto de datos taxirides y, luego, en Abrir.

  3. Haz clic en Crear tabla.

  4. En Tabla, escribe realtime

  5. En el esquema, haz clic en Editar como texto y pega el siguiente texto:

ride_id:string, point_idx:integer, latitude:float, longitude:float, timestamp:timestamp, meter_reading:float, meter_increment:float, ride_status:string, passenger_count:integer
  1. En Configuración de particiones y clústeres, selecciona timestamp.

  2. Haz clic en Crear tabla.

Tarea 2: Copia los artefactos del lab requeridos

En esta tarea, moverás los archivos requeridos a tu proyecto.

Cloud Storage permite almacenar y recuperar cualquier cantidad de datos en todo el mundo y en cualquier momento. Cloud Storage se puede usar en varias situaciones, como la entrega de contenido de un sitio web, el almacenamiento de datos con fines de archivo y recuperación ante desastres, o la distribución de grandes objetos de datos a los usuarios a través de una descarga directa.

Se creó un bucket de Cloud Storage para ti durante el inicio del lab.

  1. En Cloud Shell (), ejecuta los siguientes comandos para mover los archivos necesarios para el trabajo de Dataflow.
gcloud storage cp gs://cloud-training/bdml/taxisrcdata/schema.json gs://{{{project_0.project_id|Project_ID}}}-bucket/tmp/schema.json gcloud storage cp gs://cloud-training/bdml/taxisrcdata/transform.js gs://{{{project_0.project_id|Project_ID}}}-bucket/tmp/transform.js gcloud storage cp gs://cloud-training/bdml/taxisrcdata/rt_taxidata.csv gs://{{{project_0.project_id|Project_ID}}}-bucket/tmp/rt_taxidata.csv

Tarea 3: Configura una canalización de Dataflow

En esta tarea, configurarás una canalización de transmisión de datos para leer archivos desde tu bucket de Cloud Storage y escribir datos en BigQuery.

Dataflow permite llevar a cabo el análisis de datos sin servidores.

Reinicia la conexión a la API de Dataflow.

  1. En Cloud Shell, ejecuta los siguientes comandos para asegurarte de que la API de Dataflow esté bien habilitada en tu proyecto.
gcloud services disable dataflow.googleapis.com gcloud services enable dataflow.googleapis.com

Crea una nueva canalización de transmisión:

  1. En el menú de navegación () de la consola de Cloud, haz clic en Ver todos los productos > Análisis > Dataflow.

  2. En la barra del menú superior, haz clic en Crear trabajo a partir de una plantilla.

  3. Escribe streaming-taxi-pipeline como nombre de tu trabajo en Dataflow.

  4. En Extremo regional, selecciona lo siguiente:

{{{project_0.default_region|Region}}}
  1. En Plantilla de Dataflow, selecciona la plantilla Cloud Storage Text to BigQuery (Stream) en Process Data Continuously (stream).
Nota: Asegúrate de seleccionar la opción de plantilla que coincida con los siguientes parámetros.
  1. En Archivos de GCS de entrada, pega o escribe lo siguiente:
{{{project_0.project_id|Project_ID}}}-bucket/tmp/rt_taxidata.csv
  1. En la ubicación de Cloud Storage de tu archivo de esquema de BigQuery, descrito como archivo JSON, pega o escribe lo siguiente:
{{{project_0.project_id|Project_ID}}}-bucket/tmp/schema.json
  1. En Tabla de salida de BigQuery, pega o escribe lo siguiente:
{{{project_0.project_id|Project_ID}}}:taxirides.realtime
  1. En el directorio temporal del proceso de carga de BigQuery, pega o escribe lo siguiente:
{{{project_0.project_id|Project_ID}}}-bucket/tmp
  1. Haz clic en Parámetros obligatorios.

  2. En Ubicación temporal, que se usa para escribir archivos temporales, pega o escribe lo siguiente:

{{{project_0.project_id|Project_ID}}}-bucket/tmp
  1. En Ruta de acceso de UDF de JavaScript en Cloud Storage, pega o escribe lo siguiente:
{{{project_0.project_id|Project_ID}}}-bucket/tmp/transform.js
  1. En el nombre de la UDF de JavaScript, pega o escribe lo siguiente:
transform
  1. En Máx. de trabajadores, escribe 2.

  2. En Cantidad de trabajadores, escribe 1.

  3. Desmarca Usar el tipo de máquina predeterminado.

  4. En De uso general, selecciona lo siguiente:

Serie: E2
Tipo de máquina: e2-medium (2 CPU virtuales, 4 GB de memoria)

  1. Haz clic en Ejecutar trabajo.

Se inició un nuevo trabajo de transmisión. Ahora puedes ver una representación visual de la canalización de datos. Los datos tardarán entre 3 y 5 minutos en comenzar a moverse a BigQuery.

Nota: Si el trabajo de Dataflow falla por primera vez, vuelve a crear una nueva plantilla de trabajo, asígnale un nombre nuevo al trabajo y ejecútalo.

Tarea 4: Analiza los datos de los taxis con BigQuery

En esta tarea, analizarás los datos mientras se están transmitiendo.

  1. En el menú de navegación () de la consola de Cloud, haz clic en BigQuery.

  2. Si aparece el diálogo de bienvenida, haz clic en Listo.

  3. En el Editor de consultas, escribe lo siguiente y, luego, haz clic en Ejecutar:

SELECT * FROM taxirides.realtime LIMIT 10 Nota: Si no se muestran registros, espera otro minuto y vuelve a ejecutar la consulta anterior (Dataflow tarda entre 3 y 5 minutos para configurar la transmisión).

El resultado será similar al siguiente:

Tarea 5: Realiza agregaciones en la transmisión para obtener informes

En esta tarea, calcularás agregaciones en la transmisión para obtener informes.

  1. En el Editor de consultas, borra la consulta actual.

  2. Copia y pega la consulta y, luego, haz clic en Ejecutar.

WITH streaming_data AS ( SELECT timestamp, TIMESTAMP_TRUNC(timestamp, HOUR, 'UTC') AS hour, TIMESTAMP_TRUNC(timestamp, MINUTE, 'UTC') AS minute, TIMESTAMP_TRUNC(timestamp, SECOND, 'UTC') AS second, ride_id, latitude, longitude, meter_reading, ride_status, passenger_count FROM taxirides.realtime ORDER BY timestamp DESC LIMIT 1000 ) # calcula las agregaciones en la transmisión para obtener informes: SELECT ROW_NUMBER() OVER() AS dashboard_sort, minute, COUNT(DISTINCT ride_id) AS total_rides, SUM(meter_reading) AS total_revenue, SUM(passenger_count) AS total_passengers FROM streaming_data GROUP BY minute, timestamp Nota: Asegúrate de que Dataflow esté registrando datos en BigQuery antes de continuar con la siguiente tarea.

El resultado muestra métricas clave por minuto por cada parada de taxi.

  1. Haz clic en Guardar > Guardar consulta.

  2. En el diálogo para guardar la consulta, en el campo Nombre, escribe Mi consulta guardada.

  3. En Región, asegúrate de que la región coincida con la región del lab de Qwiklabs.

  4. Haz clic en Guardar.

Tarea 6: Detén el trabajo de Dataflow

En esta tarea, detendrás el trabajo de Dataflow para liberar recursos para tu proyecto.

  1. En el menú de navegación () de la consola de Cloud, haz clic en Ver todos los productos > Análisis > Dataflow.

  2. Haz clic en streaming-taxi-pipeline o en el nombre del trabajo nuevo.

  3. Haz clic en Detener y selecciona Cancelar > Detener trabajo.

Tarea 7: Crea un panel en tiempo real

En esta tarea, crearás un panel en tiempo real para visualizar los datos.

  1. En el menú de navegación () de la consola de Cloud, haz clic en BigQuery.

  2. En el panel Explorador, expande el ID del proyecto.

  3. Expande Consultas y, luego, haz clic en Mi consulta guardada.

Tu consulta se cargó en el editor de consultas.

  1. Haz clic en Ejecutar.

  2. En la sección Resultados de la consulta, haz clic en Abrir en > Looker Studio.

    Se abrirá Looker Studio. Haz clic en Empezar.

  3. En la ventana de Looker Studio, haz clic en tu gráfico de barras.

(

Aparecerá el panel Gráfico.

  1. Haz clic en Añadir un gráfico y, luego, selecciona Gráfico combinado.

  2. En el panel Configuración, en Dimensión de periodo, coloca el cursor sobre minute (Fecha) y haz clic en X para quitarla.

  3. En el panel Datos, haz clic en dashboard_sort y arrástralo a Configuración > Dimensión de período > Añadir dimensión.

  4. En Configuración > Dimensión, haz clic en minute y, luego, selecciona dashboard_sort.

  5. En Configuración > Métrica, haz clic en dashboard_sort y, luego, selecciona total_rides.

  6. En Configuración > Métrica, haz clic en Record Count y, luego, selecciona total_passengers.

  7. En Configuración > Métrica, haz clic en Añadir métrica y, luego, selecciona total_revenue.

  8. En Configuración > Ordenar, haz clic en total_rides y, luego, selecciona dashboard_sort.

  9. En Configuración > Ordenar, haz clic en Ascendente.

Tu gráfico debería verse similar al siguiente:

Nota: Actualmente, Looker Studio no permite visualizar datos al nivel de detalle por minuto como marca de tiempo. Por este motivo, creamos nuestra propia dimensión dashboard_sort.
  1. Cuando estés conforme con el panel, haz clic en Save and share para guardar esta fuente de datos.

  2. Si se te solicita completar la configuración de la cuenta, escribe los detalles de tu país y empresa, acepta los términos y condiciones, y haz clic en Continuar.

  3. Si se te pregunta qué actualizaciones quieres recibir, responde no a todo y haz clic en Continuar.

  4. Si se abre la ventana Revisar el acceso a los datos antes de guardar, haz clic en Confirmar y guardar.

  5. Si se te solicita elegir una cuenta, selecciona tu cuenta de estudiante.

  6. Cada vez que alguien visite tu panel, estará actualizado con las transacciones más recientes. Si deseas probarlo, haz clic en Más opciones () y, luego, en Actualizar datos.

Tarea 8: Crea un panel de serie temporal

En esta tarea, crearás un gráfico de serie temporal.

  1. Haz clic en este vínculo de Looker Studio para abrir la herramienta en una nueva pestaña del navegador.

  2. En la página Informes, en la sección Empezar con una plantilla, haz clic en la plantilla [+] Informe vacío.

  3. Se abrirá un informe vacío nuevo con la ventana Añadir datos al informe.

  4. En la lista Google Connectors, selecciona el mosaico BigQuery.

  5. Haz clic en Consulta personalizada y, luego, selecciona el ID del proyecto. Se debería mostrar en el siguiente formato: qwiklabs-gcp-xxxxxxx.

  6. En Introduce una consulta personalizada, pega la siguiente consulta:

SELECT * FROM taxirides.realtime WHERE ride_status='enroute'
  1. Haz clic en Añadir > Añadir al informe.

    Se mostrará un informe nuevo sin título. Es posible que la pantalla tarde hasta un minuto en terminar de actualizarse.

Crea un gráfico de serie temporal

  1. En el panel Datos, haz clic en Añadir un campo > Añadir campo calculado.

  2. En la esquina izquierda, haz clic en Todos los campos.

  3. Cambia el tipo de campo timestamp por Fecha y hora > Fecha, hora y minuto (YYYYMMDDhhmm).

  4. En el diálogo para cambiar timestamp, haz clic en Continuar y, luego, haz clic en Listo.

  5. En el menú superior, haz clic en Añadir un gráfico.

  6. Selecciona Gráfico de serie temporal.

  7. Coloca el gráfico en la esquina inferior izquierda (en el espacio vacío).

  8. En Configuración > Dimensión, haz clic en timestamp (Fecha) y, luego, selecciona timestamp.

  9. En Configuración > Dimensión, haz clic entimestamp y, luego, selecciona calendar.

  10. En Tipo de datos, selecciona Fecha y hora > Fecha, hora y minuto.

  11. Haz clic fuera del diálogo para cerrarlo. No es necesario que agregues un nombre.

  12. En Configuración > Métrica, haz clic en Record Count y, luego, selecciona meter reading.

¡Felicitaciones!

En este lab, usaste Dataflow para transmitir datos a través de una canalización a BigQuery.

Finalice su lab

Cuando haya completado el lab, haga clic en Finalizar lab. Google Cloud Skills Boost quitará los recursos que usó y limpiará la cuenta.

Tendrá la oportunidad de calificar su experiencia en el lab. Seleccione la cantidad de estrellas que corresponda, ingrese un comentario y haga clic en Enviar.

La cantidad de estrellas indica lo siguiente:

  • 1 estrella = Muy insatisfecho
  • 2 estrellas = Insatisfecho
  • 3 estrellas = Neutral
  • 4 estrellas = Satisfecho
  • 5 estrellas = Muy satisfecho

Puede cerrar el cuadro de diálogo si no desea proporcionar comentarios.

Para enviar comentarios, sugerencias o correcciones, use la pestaña Asistencia.

Copyright 2024 Google LLC. Todos los derechos reservados. Google y el logotipo de Google son marcas de Google LLC. El resto de los nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que están asociados.

Anterior Siguiente

Antes de comenzar

  1. Los labs crean un proyecto de Google Cloud y recursos por un tiempo determinado
  2. .
  3. Los labs tienen un límite de tiempo y no tienen la función de pausa. Si finalizas el lab, deberás reiniciarlo desde el principio.
  4. En la parte superior izquierda de la pantalla, haz clic en Comenzar lab para empezar

Este contenido no está disponible en este momento

Te enviaremos una notificación por correo electrónico cuando esté disponible

¡Genial!

Nos comunicaremos contigo por correo electrónico si está disponible

Un lab a la vez

Confirma para finalizar todos los labs existentes y comenzar este

Usa la navegación privada para ejecutar el lab

Usa una ventana de navegación privada o de Incógnito para ejecutar el lab. Así evitarás cualquier conflicto entre tu cuenta personal y la cuenta de estudiante, lo que podría generar cargos adicionales en tu cuenta personal.
Vista previa