Puntos de control
Determine batch versus streaming sources
/ 100
Identifica diferentes fuentes de datos por lotes y de transmisión
Asegúrate de completar este lab práctico únicamente en una computadora de escritorio o laptop.
Se permiten solo 5 intentos por lab.
A modo de recordatorio, es habitual no responder de forma correcta a todas las preguntas en el primer intento o incluso tener que volver a realizar una tarea; esto forma parte del proceso de aprendizaje.
Una vez comenzado el lab, no se puede detener el cronómetro. Después de 1 hora y 30 minutos, el lab terminará y tendrás que volver a empezar.
Para obtener más información, consulta la lectura Sugerencias técnicas para el lab.
Descripción general de la actividad
Acceder a los datos de manera oportuna es fundamental para que las organizaciones respondan rápidamente a los cambios del mercado, las necesidades de los clientes y los problemas operativos.
El procesamiento por lotes es un método con el que se recopilan grandes volúmenes de datos durante un período para, luego, procesarlos todos al mismo tiempo. Es ideal para procesar grandes cantidades de datos y realizar tareas que no requieren un procesamiento casi en tiempo real.
El procesamiento de transmisión es un método idóneo para procesar datos de manera continua en tiempo real a medida que se reciben. Es importante que los analistas y científicos de datos comprendan la diferencia entre ambos procesos, ya que tienen ventajas y desventajas.
Como analista de datos, saber cuándo y cómo aplicarlos te permite optimizar el rendimiento de las tareas y minimizar las demoras en el procesamiento de datos, y proporcionar estadísticas más precisas y oportunas.
En este lab, procesarás y recopilarás datos para un propósito específico, y observarás los datos que se cargan en las tablas de BigQuery a través de métodos asistidos por computadora para el procesamiento por lotes y de transmisión.
Situación
Se te solicitó ayudar a Marta, jefa de Distribución de Productos del comercio electrónico TheLook, a supervisar los resultados de los cambios en sus precios y promociones.
Las personas con este cargo definen precios y se aseguran de vender el inventario que compran. Por ejemplo, si hay un exceso de stock de camisetas de un equipo deportivo en el año de un campeonato, un comercio puede disminuir su precio para que se vendan más rápido. De esta forma, la tienda no se quedaría con stock sin vender.
Para esta tarea, Marta necesita ver de dos formas la cantidad de artículos que se agregaron a los carritos de compras. Una supervisión casi en tiempo real le permitirá ver la cantidad de artículos que se agregan a los carritos de compras a medida que están disponibles.
Y una supervisión minuto a minuto le permitirá conocer la cantidad de artículos que se agregan a cada carrito de compras en incrementos de un minuto.
Con esto datos, Marta podrá hacer un seguimiento de la eficacia de los cambios en sus promociones y precios a lo largo del tiempo, lo que le permitirá ayudar a mejorar la experiencia de compra de los clientes y aumentar las ventas.
Arturo, el arquitecto de datos, indica que la actividad de los carritos de compras se transmite a una de las tablas de BigQuery. Debes ayudar a Marta a comprender cómo encontrar los datos que necesita para supervisar sus artículos.
Sigue estos pasos para completar esta tarea: Primero, deberás buscar el conjunto de datos y la tabla asociada. Luego, deberás ejecutar una consulta para mostrar la hora a la que se agregó cada producto al carrito de compras. Después, deberás volver a ejecutar la consulta. Finalmente, deberás examinar las propiedades de las tablas shopping_cart y order.
Configuración
Antes de hacer clic en Comenzar lab
Lee estas instrucciones. Los labs son cronometrados y no se pueden pausar. El cronómetro, que comienza a funcionar cuando haces clic en Comenzar lab, indica por cuánto tiempo tendrás a tu disposición los recursos de Google Cloud.
En este lab práctico, puedes realizar las actividades por tu cuenta en un entorno de nube real, en lugar de una simulación o un entorno de demostración. Para ello, se te proporcionan credenciales temporales nuevas que usarás para acceder a Google Cloud durante todo el lab.
Para completar este lab, necesitarás lo siguiente:
- Acceso a un navegador de Internet estándar (se recomienda el navegador Chrome)
- Tiempo para completar el lab: Recuerda que, una vez que comienzas un lab, no puedes pausarlo.
Cómo iniciar tu lab y acceder a la consola de Google Cloud
-
Haz clic en el botón Comenzar lab. A la izquierda, se encuentra el panel Detalles del lab, que tiene estos elementos:
- Tiempo restante
- El botón Abrir la consola de Google
- Las credenciales temporales que debes usar para el lab
- Otra información para completar el lab, si es necesaria
Nota: Si debes pagar por el lab, se abrirá una ventana emergente para que selecciones tu forma de pago. -
Haz clic en Abrir la consola de Google (o haz clic con el botón derecho y selecciona Abrir el vínculo en una ventana de incógnito) si ejecutas el navegador Chrome. La página Acceder se abre en una pestaña del navegador nueva.
Sugerencia: Puedes organizar las pestañas de manera independiente (una ventana al lado de la otra) para alternar fácilmente entre ellas.
Nota: Si aparece el diálogo Elige una cuenta, haz clic en Usar otra cuenta. -
Si es necesario, copia el nombre de usuario de Google Cloud a continuación, y pégalo en el diálogo Ingresar. Haz clic en Siguiente.
También puedes encontrar el nombre de usuario de Google Cloud en el panel Detalles del lab.
- Copia la contraseña de Google Cloud a continuación y pégala en el diálogo te damos la bienvenida. Haz clic en Siguiente.
También puedes encontrar la contraseña de Google Cloud en el panel Detalles del lab.
- Haz clic para avanzar por las páginas siguientes:
- Acepta los Términos y Condiciones.
- No agregues opciones de recuperación o autenticación de dos factores (esta es una cuenta temporal).
- No te registres para las pruebas gratuitas.
Después de un momento, se abrirá la consola de Cloud en esta pestaña.
Tarea 1: Determina cuándo usar las fuentes por lotes y las de transmisión
En esta tarea, ayudarás a Marta a crear una tabla en la que se almacenen los datos con la cantidad de pedidos y la hora a la que se agregó cada uno al carrito del cliente.
- En el menú de navegación () de la consola de Google Cloud, selecciona BigQuery.
- Expande la lista de conjuntos de datos haciendo clic en la flecha desplegable junto al ID del proyecto.
Si te aparece una ventana emergente, haz clic en Aceptar.
-
Encuentra el conjunto de datos llamado thelook_gcda, y haz clic en la flecha desplegable que está junto a él.
-
Selecciona la tabla llamada shopping_cart.
-
Haz clic en el botón Consultar para abrir el editor de consultas y selecciona Pestaña. Se abrirá una pestaña Sin título completada previamente.
-
Reemplaza los datos prepropagados copiando y pegando la siguiente consulta en el editor de consultas:
SELECT * FROM `thelook_gcda.shopping_cart` ORDER BY created_at DESC LIMIT 10;
Esta consulta muestra las primeras 10 filas de la tabla shopping_cart
.
- Haz clic en Ejecutar.
Los resultados de la consulta deberían aparecer en formato de tabla debajo del editor de consultas.
- Ten en cuenta la hora de la entrada más reciente, que es la que aparecerá en la parte superior de la tabla en la fila 1.
- Haz clic en el botón Ejecutar para ejecutar la consulta de nuevo.
Los datos se agregan de forma continua a esta tabla, así que se pueden ejecutar consultas en función de los datos más recientes a medida que estén disponibles. Esto cambiará los resultados de la consulta.
- Haz clic en la tabla
shopping_cart
en el área del Explorador y, luego, en la pestaña Detalles en el área de consulta. Examina las propiedades de la tablashopping_cart
en BigQuery. En la sección Estadísticas de búfer de transmisión, se muestra que los datos se están transmitiendo a la tabla.
- Ahora, examina las propiedades de la tabla
orders
. Haz clic en la tablaorders
en el área del Explorador, luego, en la pestaña Detalles en el área de consulta.
- Copia lo siguiente en el editor de consultas:
- Haz clic en Ejecutar para mostrar las filas más recientes en la tabla de pedidos.
- Vuelve a hacer clic en Ejecutar para ver si los resultados cambian.
- Copia la siguiente consulta en el editor de consultas:
Con esta consulta, se muestra la cantidad de artículos de la categoría de producto “Jeans” que se agregaron a la tabla shopping_cart
en cada minuto durante la última hora.
- Ejecuta la consulta al menos tres veces y espera alrededor de diez segundos entre cada ejecución para observar los resultados.
Esta consulta es un ejemplo de una fuente de datos para un panel. Dado que la consulta se basa en la tabla shopping_cart
, que se actualiza constantemente a través de una fuente de transmisión, el panel recibe datos nuevos cada vez que se ejecuta la consulta.
Haz clic en Revisar mi progreso para verificar que completaste esta tarea correctamente.
Ahora, obtén más información sobre esta consulta y sus componentes principales.
- Ubica los nombres en las tablas que usaste en esta consulta.
La consulta une las tablas thelook_gcda.shopping_cart y thelook_gcda.products con la columna product_id. De esta manera, se garantiza que solo las filas que coincidan con el ID del producto en ambas tablas se incluyan en los resultados.
- Identifica el tipo de unión que usaste en la consulta:
En esta consulta se usó INNER JOIN
. No se incluirán en los resultados las filas de los carritos de compras con valores de product_id que no existan en la tabla de productos, por lo que estos datos no se registrarán.
Como Marta solicitó información minuto a minuto, la consulta le da a la columna created_at
el formato de HH:MM; por ejemplo, 10:15 para representar un cuarto después de las diez de la mañana.
- Observa la siguiente sentencia en la porción
SELECT
de la consulta:
Darles formato a las fechas y horas es una tarea muy común para un analista de datos en la nube. Puedes obtener más información y ejemplos para usar la función integrada FORMAT_TIMESTAMP
en la documentación sobre las funciones de marcas de tiempo de BigQuery.
- Ubica la sentencia
WHERE
en esta consulta.
La sentencia WHERE
en esta consulta filtra los artículos del carrito de compras por categoría de producto y por la hora de su creación:
Como a Marta solo le interesan los vaqueros (jeans), la siguiente parte de la consulta quita los productos que no se encuentran en esa categoría con la primera parte de la cláusula WHERE
:
La tabla del carrito de compras es muy activa y puede ser muy grande, por lo que Marta también pidió ver los datos solo de la última hora. Para lograrlo, la cláusula WHERE
filtra las filas a través de la columna created_at
y usa dos funciones integradas, una para obtener la fecha y hora en la que se ejecuta la consulta (current_timestamp
) y otra para incluir en el cálculo el período de una hora atrás (timestamp_add
). La consulta solo devolverá las filas que se hayan creado antes de el momento actual menos una hora. El momento actual lo determina la función current_timestamp
. El período de menos una hora se calcula restando 1 del tiempo actual.
Para obtener más información, consulta la documentación sobre las funciones de marcas de tiempo.
- Ubica la siguiente línea en la consulta:
En la siguiente línea, se agrupan los resultados minuto a minuto y se suman las cantidades que se agregan por cada uno de ellos, ya que usamos la función SUM()
en la sentencia SELECT
. Como debes hacer una lista de las categorías de producto en los resultados, también debes realizar agrupaciones por categoría de producto.
Ten en cuenta que usas el alias de la columna added_at_minute
que se definió en la porción SELECT
de la consulta.
- Ubica la cláusula
ORDER BY
en la consulta:
La cláusula ORDER BY
propaga los resultados con los datos disponibles más recientes, minuto a minuto, en la parte superior.
Conclusión
¡Muy bien!
Lograste ubicar la información que Marta necesitaba para estar al tanto de las tendencias de compras de los clientes, lo que le permitirá tomar decisiones empresariales oportunas sobre los precios y los artículos en stock.
Lo hiciste determinando si la tabla usaba un procesamiento por lotes o de transmisión y, luego, exploraste y ejecutaste una consulta para completar una tabla con datos sobre la cantidad de vaqueros que se agregaron a los carritos de compras en la última hora, minuto a minuto.
También aprendiste sobre la importancia de acceder a los datos de manera oportuna y la diferencia entre el procesamiento por lotes y de transmisión.
Como examinaste la forma en que se cargan los datos en las tablas de BigQuery con ambos métodos, desarrollaste habilidades que te permitirán elegir el enfoque apropiado para el procesamiento de datos.
Finaliza el lab
Antes de que finalices el lab, asegúrate de estar conforme con la forma en que completaste todas las tareas. Cuando estés conforme, haz clic en Finalizar Lab y luego haz clic en Enviar.
Finalizar el lab te quitará el acceso al entorno del lab y no podrás volver a acceder al trabajo que completaste.
Copyright 2024 Google LLC. Todos los derechos reservados. Google y el logotipo de Google son marcas de Google LLC. El resto de los nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que están asociados.