arrow_back

Identifica diferentes fuentes de datos por lotes y de transmisión

Acceder Unirse
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Identifica diferentes fuentes de datos por lotes y de transmisión

Lab 1 hora 30 minutos universal_currency_alt 2 créditos show_chart Introductorio
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses
ícono de información importante IMPORTANTE:

ícono de computadora de escritorio/laptop Asegúrate de completar este lab práctico únicamente en una computadora de escritorio o laptop.

ícono de verificación Se permiten solo 5 intentos por lab.

ícono de diana del cuestionario A modo de recordatorio, es habitual no responder de forma correcta a todas las preguntas en el primer intento o incluso tener que volver a realizar una tarea; esto forma parte del proceso de aprendizaje.

ícono de cronómetro Una vez comenzado el lab, no se puede detener el cronómetro. Después de 1 hora y 30 minutos, el lab terminará y tendrás que volver a empezar.

ícono de sugerencia Para obtener más información, consulta la lectura Sugerencias técnicas para el lab.

Descripción general de la actividad

Acceder a los datos de manera oportuna es fundamental para que las organizaciones respondan rápidamente a los cambios del mercado, las necesidades de los clientes y los problemas operativos.

El procesamiento por lotes es un método con el que se recopilan grandes volúmenes de datos durante un período para, luego, procesarlos todos al mismo tiempo. Es ideal para procesar grandes cantidades de datos y realizar tareas que no requieren un procesamiento casi en tiempo real.

El procesamiento de transmisión es un método idóneo para procesar datos de manera continua en tiempo real a medida que se reciben. Es importante que los analistas y científicos de datos comprendan la diferencia entre ambos procesos, ya que tienen ventajas y desventajas.

Como analista de datos, saber cuándo y cómo aplicarlos te permite optimizar el rendimiento de las tareas y minimizar las demoras en el procesamiento de datos, y proporcionar estadísticas más precisas y oportunas.

En este lab, procesarás y recopilarás datos para un propósito específico, y observarás los datos que se cargan en las tablas de BigQuery a través de métodos asistidos por computadora para el procesamiento por lotes y de transmisión.

Situación

Se te solicitó ayudar a Marta, jefa de Distribución de Productos del comercio electrónico TheLook, a supervisar los resultados de los cambios en sus precios y promociones.

Las personas con este cargo definen precios y se aseguran de vender el inventario que compran. Por ejemplo, si hay un exceso de stock de camisetas de un equipo deportivo en el año de un campeonato, un comercio puede disminuir su precio para que se vendan más rápido. De esta forma, la tienda no se quedaría con stock sin vender.

Para esta tarea, Marta necesita ver de dos formas la cantidad de artículos que se agregaron a los carritos de compras. Una supervisión casi en tiempo real le permitirá ver la cantidad de artículos que se agregan a los carritos de compras a medida que están disponibles.

Y una supervisión minuto a minuto le permitirá conocer la cantidad de artículos que se agregan a cada carrito de compras en incrementos de un minuto.

Con esto datos, Marta podrá hacer un seguimiento de la eficacia de los cambios en sus promociones y precios a lo largo del tiempo, lo que le permitirá ayudar a mejorar la experiencia de compra de los clientes y aumentar las ventas.

Arturo, el arquitecto de datos, indica que la actividad de los carritos de compras se transmite a una de las tablas de BigQuery. Debes ayudar a Marta a comprender cómo encontrar los datos que necesita para supervisar sus artículos.

Sigue estos pasos para completar esta tarea: Primero, deberás buscar el conjunto de datos y la tabla asociada. Luego, deberás ejecutar una consulta para mostrar la hora a la que se agregó cada producto al carrito de compras. Después, deberás volver a ejecutar la consulta. Finalmente, deberás examinar las propiedades de las tablas shopping_cart y order.

Configuración

Antes de hacer clic en Comenzar lab

Lee estas instrucciones. Los labs son cronometrados y no se pueden pausar. El cronómetro, que comienza a funcionar cuando haces clic en Comenzar lab, indica por cuánto tiempo tendrás a tu disposición los recursos de Google Cloud.

En este lab práctico, puedes realizar las actividades por tu cuenta en un entorno de nube real, en lugar de una simulación o un entorno de demostración. Para ello, se te proporcionan credenciales temporales nuevas que usarás para acceder a Google Cloud durante todo el lab.

Para completar este lab, necesitarás lo siguiente:

  • Acceso a un navegador de Internet estándar (se recomienda el navegador Chrome)
Nota: Usa una ventana del navegador privada o de Incógnito para ejecutar este lab. Así evitarás cualquier conflicto entre tu cuenta personal y la cuenta de estudiante, lo que podría generar cargos adicionales en tu cuenta personal.
  • Tiempo para completar el lab: Recuerda que, una vez que comienzas un lab, no puedes pausarlo.
Nota: Si ya tienes un proyecto o una cuenta personal de Google Cloud, no los uses en este lab para evitar cargos adicionales en tu cuenta.

Cómo iniciar tu lab y acceder a la consola de Google Cloud

  1. Haz clic en el botón Comenzar lab. A la izquierda, se encuentra el panel Detalles del lab, que tiene estos elementos:

    • Tiempo restante
    • El botón Abrir la consola de Google
    • Las credenciales temporales que debes usar para el lab
    • Otra información para completar el lab, si es necesaria
    Nota: Si debes pagar por el lab, se abrirá una ventana emergente para que selecciones tu forma de pago.
  2. Haz clic en Abrir la consola de Google (o haz clic con el botón derecho y selecciona Abrir el vínculo en una ventana de incógnito) si ejecutas el navegador Chrome. La página Acceder se abre en una pestaña del navegador nueva.

    Sugerencia: Puedes organizar las pestañas de manera independiente (una ventana al lado de la otra) para alternar fácilmente entre ellas.

    Nota: Si aparece el diálogo Elige una cuenta, haz clic en Usar otra cuenta.
  3. Si es necesario, copia el nombre de usuario de Google Cloud a continuación, y pégalo en el diálogo Ingresar. Haz clic en Siguiente.

{{{user_0.username | "nombre de usuario de Google Cloud"}}}

También puedes encontrar el nombre de usuario de Google Cloud en el panel Detalles del lab.

  1. Copia la contraseña de Google Cloud a continuación y pégala en el diálogo te damos la bienvenida. Haz clic en Siguiente.
{{{user_0.password | "contraseña de Google Cloud"}}}

También puedes encontrar la contraseña de Google Cloud en el panel Detalles del lab.

Importante: Debes usar las credenciales que te proporciona el lab. No uses las credenciales de tu cuenta de Google Cloud. Nota: Usar tu propia cuenta de Google Cloud podría generar cargos adicionales.
  1. Haz clic para avanzar por las páginas siguientes:
    • Acepta los Términos y Condiciones.
    • No agregues opciones de recuperación o autenticación de dos factores (esta es una cuenta temporal).
    • No te registres para las pruebas gratuitas.

Después de un momento, se abrirá la consola de Cloud en esta pestaña.

Nota: Para ver el menú con una lista de los productos y servicios de Google Cloud, haz clic en el menú de navegación que se encuentra en la parte superior izquierda de la pantalla. Menú de la consola de Google Cloud con el ícono de menú de navegación destacado

Tarea 1: Determina cuándo usar las fuentes por lotes y las de transmisión

En esta tarea, ayudarás a Marta a crear una tabla en la que se almacenen los datos con la cantidad de pedidos y la hora a la que se agregó cada uno al carrito del cliente.

  1. En el menú de navegación (Menú de navegación) de la consola de Google Cloud, selecciona BigQuery.
Nota: Puede aparecer un mensaje de Te damos la bienvenida a BigQuery en la consola de Cloud, que proporciona vínculos a la guía de inicio rápido y las notas de la versión por actualizaciones de la IU. Haz clic en Listo para continuar.
  1. Expande la lista de conjuntos de datos haciendo clic en la flecha desplegable junto al ID del proyecto.
Nota: Es probable que primero necesites seleccionar un proyecto. Para hacerlo, haz clic en Seleccionar un proyecto en la barra de título de la consola de Google Cloud y, luego, elige el vínculo del proyecto en el diálogo Selecciona un proyecto.

Si te aparece una ventana emergente, haz clic en Aceptar.

  1. Encuentra el conjunto de datos llamado thelook_gcda, y haz clic en la flecha desplegable que está junto a él.

  2. Selecciona la tabla llamada shopping_cart.

  3. Haz clic en el botón Consultar para abrir el editor de consultas y selecciona Pestaña. Se abrirá una pestaña Sin título completada previamente.

  4. Reemplaza los datos prepropagados copiando y pegando la siguiente consulta en el editor de consultas:

    SELECT * FROM `thelook_gcda.shopping_cart` ORDER BY created_at DESC LIMIT 10;

Esta consulta muestra las primeras 10 filas de la tabla shopping_cart.

  1. Haz clic en Ejecutar.

Los resultados de la consulta deberían aparecer en formato de tabla debajo del editor de consultas.

Sugerencia: En el editor de consultas, puedes hacer clic en el ícono “+” para crear una consulta nueva.

  1. Ten en cuenta la hora de la entrada más reciente, que es la que aparecerá en la parte superior de la tabla en la fila 1.
  2. Haz clic en el botón Ejecutar para ejecutar la consulta de nuevo.

Los datos se agregan de forma continua a esta tabla, así que se pueden ejecutar consultas en función de los datos más recientes a medida que estén disponibles. Esto cambiará los resultados de la consulta.

  1. Haz clic en la tabla shopping_cart en el área del Explorador y, luego, en la pestaña Detalles en el área de consulta. Examina las propiedades de la tabla shopping_cart en BigQuery. En la sección Estadísticas de búfer de transmisión, se muestra que los datos se están transmitiendo a la tabla.
Nota: Actualiza la página si no aparece de inmediato. Es posible que te debas desplazar para navegar por las estadísticas.
  1. Ahora, examina las propiedades de la tabla orders. Haz clic en la tabla orders en el área del Explorador, luego, en la pestaña Detalles en el área de consulta.

  1. Copia lo siguiente en el editor de consultas:
SELECT * FROM `thelook_gcda.orders` ORDER BY created_at DESC LIMIT 10;
  1. Haz clic en Ejecutar para mostrar las filas más recientes en la tabla de pedidos.
  2. Vuelve a hacer clic en Ejecutar para ver si los resultados cambian.

  1. Copia la siguiente consulta en el editor de consultas:
SELECT p.category, FORMAT_TIMESTAMP("%H:%M", sc.created_at) as added_at_minute, sum(sc.quantity) as sum_quantity FROM `thelook_gcda.shopping_cart` sc INNER JOIN `thelook_gcda.products` p ON p.id = sc.product_id WHERE p.category = 'Jeans' AND sc.created_at > timestamp_sub(current_timestamp(), INTERVAL 1 HOUR) GROUP BY p.category, added_at_minute ORDER BY added_at_minute DESC;

Con esta consulta, se muestra la cantidad de artículos de la categoría de producto “Jeans” que se agregaron a la tabla shopping_cart en cada minuto durante la última hora.

  1. Ejecuta la consulta al menos tres veces y espera alrededor de diez segundos entre cada ejecución para observar los resultados.

Esta consulta es un ejemplo de una fuente de datos para un panel. Dado que la consulta se basa en la tabla shopping_cart, que se actualiza constantemente a través de una fuente de transmisión, el panel recibe datos nuevos cada vez que se ejecuta la consulta.

Haz clic en Revisar mi progreso para verificar que completaste esta tarea correctamente. Determinar cuándo usar las fuentes por lotes y las de transmisión

Ahora, obtén más información sobre esta consulta y sus componentes principales.

  1. Ubica los nombres en las tablas que usaste en esta consulta.

La consulta une las tablas thelook_gcda.shopping_cart y thelook_gcda.products con la columna product_id. De esta manera, se garantiza que solo las filas que coincidan con el ID del producto en ambas tablas se incluyan en los resultados.

  1. Identifica el tipo de unión que usaste en la consulta:
FROM `thelook_gcda.shopping_cart` sc INNER JOIN `thelook_gcda.products` p ON p.id = sc.product_id;

En esta consulta se usó INNER JOIN. No se incluirán en los resultados las filas de los carritos de compras con valores de product_id que no existan en la tabla de productos, por lo que estos datos no se registrarán.

Como Marta solicitó información minuto a minuto, la consulta le da a la columna created_at el formato de HH:MM; por ejemplo, 10:15 para representar un cuarto después de las diez de la mañana.

  1. Observa la siguiente sentencia en la porción SELECT de la consulta:
FORMAT_TIMESTAMP("%H:%M", sc.created_at) AS added_at_minute,

Darles formato a las fechas y horas es una tarea muy común para un analista de datos en la nube. Puedes obtener más información y ejemplos para usar la función integrada FORMAT_TIMESTAMP en la documentación sobre las funciones de marcas de tiempo de BigQuery.

  1. Ubica la sentencia WHERE en esta consulta.

La sentencia WHERE en esta consulta filtra los artículos del carrito de compras por categoría de producto y por la hora de su creación:

WHERE p.category = 'Jeans' AND sc.created_at > timestamp_sub(current_timestamp(), INTERVAL 1 HOUR);

Como a Marta solo le interesan los vaqueros (jeans), la siguiente parte de la consulta quita los productos que no se encuentran en esa categoría con la primera parte de la cláusula WHERE:

p.category = 'Jeans'

La tabla del carrito de compras es muy activa y puede ser muy grande, por lo que Marta también pidió ver los datos solo de la última hora. Para lograrlo, la cláusula WHERE filtra las filas a través de la columna created_at y usa dos funciones integradas, una para obtener la fecha y hora en la que se ejecuta la consulta (current_timestamp) y otra para incluir en el cálculo el período de una hora atrás (timestamp_add). La consulta solo devolverá las filas que se hayan creado antes de el momento actual menos una hora. El momento actual lo determina la función current_timestamp. El período de menos una hora se calcula restando 1 del tiempo actual.

Nota: La hora que aparece en los resultados de la consulta está en la zona horaria UTC (hora universal coordinada) y es posible que no coincida con la de tu ubicación. Calcular el tiempo en UTC es una práctica común en las empresas globales.

Para obtener más información, consulta la documentación sobre las funciones de marcas de tiempo.

  1. Ubica la siguiente línea en la consulta:
GROUP BY p.category, added_at_minute;

En la siguiente línea, se agrupan los resultados minuto a minuto y se suman las cantidades que se agregan por cada uno de ellos, ya que usamos la función SUM() en la sentencia SELECT. Como debes hacer una lista de las categorías de producto en los resultados, también debes realizar agrupaciones por categoría de producto.

Ten en cuenta que usas el alias de la columna added_at_minute que se definió en la porción SELECT de la consulta.

  1. Ubica la cláusula ORDER BY en la consulta:
ORDER BY added_at_minute DESC;

La cláusula ORDER BY propaga los resultados con los datos disponibles más recientes, minuto a minuto, en la parte superior.

Conclusión

¡Muy bien!

Lograste ubicar la información que Marta necesitaba para estar al tanto de las tendencias de compras de los clientes, lo que le permitirá tomar decisiones empresariales oportunas sobre los precios y los artículos en stock.

Lo hiciste determinando si la tabla usaba un procesamiento por lotes o de transmisión y, luego, exploraste y ejecutaste una consulta para completar una tabla con datos sobre la cantidad de vaqueros que se agregaron a los carritos de compras en la última hora, minuto a minuto.

También aprendiste sobre la importancia de acceder a los datos de manera oportuna y la diferencia entre el procesamiento por lotes y de transmisión.

Como examinaste la forma en que se cargan los datos en las tablas de BigQuery con ambos métodos, desarrollaste habilidades que te permitirán elegir el enfoque apropiado para el procesamiento de datos.

Finaliza el lab

Antes de que finalices el lab, asegúrate de estar conforme con la forma en que completaste todas las tareas. Cuando estés conforme, haz clic en Finalizar Lab y luego haz clic en Enviar.

Finalizar el lab te quitará el acceso al entorno del lab y no podrás volver a acceder al trabajo que completaste.

Copyright 2024 Google LLC. Todos los derechos reservados. Google y el logotipo de Google son marcas de Google LLC. El resto de los nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que están asociados.