arrow_back

Administra una tabla particionada en BigQuery

Acceder Unirse
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Administra una tabla particionada en BigQuery

Lab 1 hora 30 minutos universal_currency_alt 2 créditos show_chart Introductorio
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses
ícono de información importante IMPORTANTE:

ícono de computadora de escritorio/laptop Asegúrate de completar este lab práctico únicamente en una computadora de escritorio o laptop.

ícono de verificación Se permiten solo 5 intentos por lab.

ícono de diana del cuestionario A modo de recordatorio, es habitual no responder de forma correcta a todas las preguntas en el primer intento o incluso tener que volver a realizar una tarea; esto forma parte del proceso de aprendizaje.

ícono de cronómetro Una vez comenzado el lab, no se puede detener el cronómetro. Después de 1 hora y 30 minutos, el lab terminará y tendrás que volver a empezar.

ícono de sugerencia Para obtener más información, consulta la lectura Sugerencias técnicas para el lab.

Descripción general de la actividad

Las tablas particionadas son una herramienta potente que pueden usar los analistas de datos en la nube para mejorar el rendimiento de las consultas y reducir los costos.

Las tablas particionadas se dividen en segmentos, denominados particiones, que hacen más fácil administrar y consultar los datos. Dividir una tabla grande en particiones más pequeñas puede mejorar el rendimiento de las consultas y brindarte ayuda para controlar tus costos, ya que se reduce la cantidad de bytes que lee una consulta.

En este lab, especificarás una columna de partición, que se usa para segmentar la tabla, para particionar las tablas, administrarás las tablas con parámetros de configuración predeterminados y personalizados, agregarás y exportarás los datos y consultarás tablas.

Situación

Marta, la jefa de Distribución de Productos del comercio electrónico TheLook, quiere comprender mejor el comportamiento de los clientes de las tiendas físicas de la empresa. Marta es responsable de supervisar la selección de productos de la empresa, pero le preocupa no comprender por completo cómo los clientes están usando las tiendas y los productos que quieren comprar.

Por ello, Marta le pide ayuda a Juan, un científico de datos que trabaja con el equipo de Distribución de Productos. Juan se encarga de estudiar la cantidad de personas que se bajan de un taxi cerca de las tiendas físicas porque considera que estos datos pueden proporcionar estadísticas valiosas sobre los patrones de compra de los clientes. Esta información puede ayudar al equipo de Distribución de Productos a tomar decisiones más fundamentadas sobre el stock de cada tienda.

Para visualizar los datos del equipo de Distribución de Productos, Juan creó un panel que muestra las distintas tiendas y la cantidad de personas que llegan cerca, pero parece que no funciona según lo esperado. Cuando revisó el correo electrónico, encontró numerosos reclamos de los usuarios porque el panel es demasiado lento. Juan también se da cuenta de que los costos operativos del panel son demasiado altos.

Como analista de datos en la nube del comercio electrónico TheLook, te pidieron que ayudes a hacer que el panel sea más eficiente y rentable para que el equipo de Distribución de Productos cuente con los datos que necesita.

Por ello, le pides ayuda a Arturo, el arquitecto de datos, quien señala que el problema podría relacionarse con cómo se particionan los datos. Cuantos más datos deba analizar cada consulta, más recursos consume. Arturo te sugiere que pruebes si las particiones se pueden usar para analizar menos datos en las consultas. De esta manera, se reducirá tanto el tiempo como los costos.

Sospechas que el problema podría relacionarse con cómo se particionan los datos, así que decides probar si las particiones se pueden usar para analizar menos datos en las consultas.

Sigue estos pasos para completar esta tarea: primero, haz un análisis de las tablas particionadas. Luego, verifica la cantidad de datos analizados. A continuación, ejecuta varias consultas y borra la caché después de cada una. Por último, usa particiones como filtros.

Configuración

Antes de hacer clic en Comenzar lab

Lee estas instrucciones. Los labs son cronometrados y no se pueden pausar. El cronómetro, que comienza a funcionar cuando haces clic en Comenzar lab, indica por cuánto tiempo tendrás a tu disposición los recursos de Google Cloud.

En este lab práctico, puedes realizar las actividades por tu cuenta en un entorno de nube real, en lugar de una simulación o un entorno de demostración. Para ello, se te proporcionan credenciales temporales nuevas que usarás para acceder a Google Cloud durante todo el lab.

Para completar este lab, necesitarás lo siguiente:

  • Acceso a un navegador de Internet estándar (se recomienda el navegador Chrome)
Nota: Usa una ventana del navegador privada o de Incógnito para ejecutar este lab. Así evitarás cualquier conflicto entre tu cuenta personal y la cuenta de estudiante, lo que podría generar cargos adicionales en tu cuenta personal.
  • Tiempo para completar el lab: Recuerda que, una vez que comienzas un lab, no puedes pausarlo.
Nota: Si ya tienes un proyecto o una cuenta personal de Google Cloud, no los uses en este lab para evitar cargos adicionales en tu cuenta.

Cómo iniciar tu lab y acceder a la consola de Google Cloud

  1. Haz clic en el botón Comenzar lab. A la izquierda, se encuentra el panel Detalles del lab, que tiene estos elementos:

    • Tiempo restante
    • El botón Abrir la consola de Google
    • Las credenciales temporales que debes usar para el lab
    • Otra información para completar el lab, si es necesaria
    Nota: Si debes pagar por el lab, se abrirá una ventana emergente para que selecciones tu forma de pago.
  2. Haz clic en Abrir la consola de Google (o haz clic con el botón derecho y selecciona Abrir el vínculo en una ventana de incógnito) si ejecutas el navegador Chrome. La página Acceder se abre en una pestaña del navegador nueva.

    Sugerencia: Puedes organizar las pestañas de manera independiente (una ventana al lado de la otra) para alternar fácilmente entre ellas.

    Nota: Si aparece el diálogo Elige una cuenta, haz clic en Usar otra cuenta.
  3. Si es necesario, copia el nombre de usuario de Google Cloud a continuación, y pégalo en el diálogo Ingresar. Haz clic en Siguiente.

{{{user_0.username | "nombre de usuario de Google Cloud"}}}

También puedes encontrar el nombre de usuario de Google Cloud en el panel Detalles del lab.

  1. Copia la contraseña de Google Cloud a continuación y pégala en el diálogo te damos la bienvenida. Haz clic en Siguiente.
{{{user_0.password | "contraseña de Google Cloud"}}}

También puedes encontrar la contraseña de Google Cloud en el panel Detalles del lab.

Importante: Debes usar las credenciales que te proporciona el lab. No uses las credenciales de tu cuenta de Google Cloud. Nota: Usar tu propia cuenta de Google Cloud podría generar cargos adicionales.
  1. Haz clic para avanzar por las páginas siguientes:
    • Acepta los Términos y Condiciones.
    • No agregues opciones de recuperación o autenticación de dos factores (esta es una cuenta temporal).
    • No te registres para las pruebas gratuitas.

Después de un momento, se abrirá la consola de Cloud en esta pestaña.

Nota: Para ver el menú con una lista de los productos y servicios de Google Cloud, haz clic en el menú de navegación que se encuentra en la parte superior izquierda de la pantalla. Menú de la consola de Google Cloud con el ícono de menú de navegación destacado

Tarea 1: Analiza una tabla particionada

En esta tarea, analizarás una tabla particionada para identificar problemas de rendimiento y costos que podrían estar provocando que el panel de Juan sea lento y costoso.

  1. En el menú de navegación (Menú de navegación) de la consola de Cloud, selecciona BigQuery > BigQuery Studio.
Nota: Puede aparecer el mensaje Te damos la bienvenida a BigQuery en la consola de Cloud, que proporciona vínculos a la guía de inicio rápido y las notas de la versión por actualizaciones de la IU. Haz clic en Listo para continuar.
  1. Para expandir la lista de conjuntos de datos, haz clic en la flecha desplegable junto al ID del proyecto.
Nota: Tal vez primero debas seleccionar un proyecto. Para ello, haz clic en Seleccionar un proyecto en la barra de título de la consola de Google Cloud y, luego, elige el vínculo del proyecto en el diálogo Seleccionar un proyecto.
  1. Expande el conjunto de datos thelook_gcda.
  2. Selecciona la tabla taxi_trips.

Observa el ícono que indica que la tabla taxi_trips está particionada.

El ícono de tabla particionada

Sugerencia: Para encontrar la información de la partición, haz clic en la pestaña Detalles.

Tarea 2: Usa particiones para reducir la cantidad de datos examinados

En esta tarea, descubrirás cómo la partición limita la cantidad de datos que se deben examinar cada vez que se ejecuta una consulta. Las particiones aumentan el rendimiento de las consultas y ayudan a reducir los costos.

  1. En BigQuery Studio, haz clic en + Redactar consulta nueva. Se abrirá una nueva pestaña Sin título.
  2. Copia y pega la siguiente consulta en la pestaña Sin título:
SELECT * FROM `thelook_gcda.taxi_trips`LIMIT 10;
  1. Haz clic en Ejecutar.

  2. En la barra de acciones del editor de consultas en SQL, haz clic en Más > Configuración de consulta. Se abrirá el cuadro de diálogo Configuración de consulta.

Nota: Si tu vista de pantalla es demasiado pequeña, tal vez primero debas hacer clic en el ícono de menú ampliado, que se muestra en la barra de acciones de la pestaña Sin título de la consulta, para acceder al menú Más. Cuadro de diálogo de consulta, en el que se destaca el ícono de menú ampliado.

Ahora, inhabilita la preferencia de caché de la consulta. En la sección Administración de las sesiones, asegúrate de que la casilla de verificación de Usar el modo de sesión esté desmarcada.

La página de configuración de la consulta, que incluye la casilla de Usar el modo de sesión desmarcada.

  1. Haz clic en Guardar.

  2. Reemplaza la consulta anterior en la pestaña Sin título por la siguiente consulta en SQL:

SELECT * FROM `thelook_gcda.taxi_trips` order by pickup_datetime DESC LIMIT 100;

Observa la cantidad de MB que procesará esta consulta cuando se ejecute. Si la ventana del navegador es pequeña, coloca el cursor sobre la marca de verificación verde para ver la cantidad de MB que procesará esta consulta cuando se ejecute.

  1. Haz clic en Ejecutar.
Nota: La cantidad de bytes procesados se muestra en la pestaña INFORMACIÓN DEL TRABAJO en la sección Resultados de la consulta. Nota: La fecha más reciente se encuentra en la columna pickup_datetime. Los primeros datos son de diciembre de 2022.
  1. Reemplaza la consulta anterior en la pestaña Sin título por la siguiente consulta en SQL:
SELECT * FROM `thelook_gcda.taxi_trips` WHERE pickup_datetime > '2022-11-01' order by pickup_datetime ASC;

Observa la cantidad de MB que procesará esta consulta cuando se ejecute. Si la ventana del navegador es pequeña, coloca el cursor sobre la marca de verificación verde para ver la cantidad de MB que procesará esta consulta cuando se ejecute.

  1. Haz clic en Ejecutar.

Nota: Observa que la cantidad de datos procesados es aproximadamente 50 veces menor que la de la consulta original. Si ejecutas la misma consulta varias veces y observas que se procesaron “0” bytes, eso indica que los resultados se están recuperando desde la caché. Nota: Si decides abrir una nueva pestaña Sin título, tendrás que configurar los pasos de la caché anteriores para asegurarte de que la casilla de verificación de Usar resultados almacenados en caché esté desmarcada.
  1. Reemplaza la consulta anterior en la pestaña Sin título por la siguiente consulta en SQL:
SELECT * FROM `thelook_gcda.taxi_trips` WHERE pickup_datetime > '1900-01-01' order by pickup_datetime ASC LIMIT 100;
  1. Haz clic en Ejecutar.
Nota: Ahora deberías ver que se analizaron 489 MB, ya que el filtro incluye todas las particiones. La fecha de la sentencia WHERE se remonta a la década de 1900, por lo que todas las filas de la tabla cumplirán ese criterio, ya que la fecha pickup_datetime más antigua de esta tabla es diciembre de 2008, como se muestra en la columna pickup_datetime.

Haz clic en Revisar mi progreso para verificar que completaste esta tarea correctamente.

Usar particiones para reducir la cantidad de datos examinados

Conclusión

¡Muy bien! Completaste con éxito un análisis de tablas particionadas en BigQuery y ayudaste a Juan a hacer que su panel sea más eficiente y rentable.

Con la evaluación de la cantidad de datos analizados y la ejecución de consultas, exploraste distintas maneras de abordar el rendimiento lento informado sobre el panel.

Además, con el uso de particiones como filtros, pusiste a prueba la eficacia de la reducción de los datos analizados en las consultas; esto posiblemente aportó información para optimizar la eficiencia de las consultas y reducir los costos del panel.

Estás en buen camino para comprender cómo usar las fuentes de datos en BigQuery.

Finaliza el lab

Antes de que finalices el lab, asegúrate de estar conforme con la forma en que completaste todas las tareas. Cuando estés conforme, haz clic en Finalizar Lab y luego haz clic en Enviar.

Finalizar el lab te quitará el acceso al entorno del lab y no podrás volver a acceder al trabajo que completaste.

Copyright 2024 Google LLC. Todos los derechos reservados. Google y el logotipo de Google son marcas de Google LLC. El resto de los nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que están asociados.