arrow_back

Practica métodos de transformación

Acceder Unirse
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Practica métodos de transformación

Lab 1 hora 30 minutos universal_currency_alt 2 créditos show_chart Introductorio
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses
ícono de información importante IMPORTANTE:

ícono de computadora de escritorio/laptop Asegúrate de completar este lab práctico únicamente en una computadora de escritorio o laptop.

ícono de verificación Se permiten solo 5 intentos por lab.

ícono de diana del cuestionario A modo de recordatorio, es habitual no responder de forma correcta a todas las preguntas en el primer intento o incluso tener que volver a realizar una tarea; esto forma parte del proceso de aprendizaje.

ícono de cronómetro Una vez comenzado el lab, no se puede detener el cronómetro. Después de 1 hora y 30 minutos, el lab terminará y tendrás que volver a empezar.

ícono de sugerencia Para obtener más información, consulta la lectura Sugerencias técnicas para el lab.

Descripción general de la actividad

Como analista de datos en la nube, usarás las transformaciones de datos para cambiar el formato, la estructura o el contenido de los datos como preparación para almacenarlos y analizarlos.

En general, las técnicas de transformación de datos ayudan a los profesionales de los datos a entender mejor cómo se distribuyen, sus características principales y su calidad general; por este motivo, las técnicas de transformación de datos suelen ser el primer paso que siguen los analistas durante el análisis exploratorio de datos.

Algunas técnicas comunes de transformación de datos que se usan para el análisis exploratorio de datos son la limitación, el muestreo y la agregación.

La limitación de datos es una técnica que restringe la cantidad de filas que se devuelven en una consulta. Esto es útil cuando quieres reducir la cantidad de datos que se muestran. Además, en algunos casos, la limitación de datos puede mejorar la velocidad y el rendimiento de las consultas.

El muestreo de datos implica seleccionar un segmento de un conjunto de datos representativo de un conjunto de datos completo para comprender mejor sus características.

La agregación de datos es una técnica que se usa para resumir los datos en un formato más manejable.

En esta actividad del lab, explorarás las diferentes maneras en las que puedes usar estas técnicas con SQL y BigQuery para explorar los datos y, así, identificar posibles problemas de calidad de los datos.

Situación

Eres analista de datos en la nube para el comercio electrónico TheLook y se te pidió colaborar con un equipo multidisciplinario que incluye a expertos en comercialización, logística y marketing. Este equipo debe encontrar maneras de mejorar los tiempos de entrega y aumentar la satisfacción del cliente en toda la línea de productos del comercio electrónico TheLook.

Preparaste un informe que analiza la cantidad de devoluciones para el equipo. Pero Marta, jefa de Distribución de Productos, planteó que le preocupa que la cantidad de productos devueltos no sea correcta.

Para resolver el problema, te pidieron que explores el conjunto de datos thelook_ecommerce, que contiene varias tablas con la información de los productos, los pedidos y los artículos pedidos. Tu trabajo es identificar los problemas potenciales, como datos duplicados, que podrían estar afectando los resultados que señaló Marta.Para ello, usarás SQL para limitar, muestrear y agregar los datos.

Sigue estos pasos para completar la tarea: Primero, deberás explorar la tabla de productos. Luego, recuperarás la cantidad total de filas y de productos con nombres diferentes. Tercero, determinarás la cantidad de artículos por categoría. Después, filtrarás los datos para quitar las categorías que tengan una pequeña cantidad de artículos. Quinto, harás un muestreo de la tabla de productos. Por último, deberás explorar los datos incluidos en la tabla order_items.

Configuración

Antes de hacer clic en Comenzar lab

Lee estas instrucciones. Los labs son cronometrados y no se pueden pausar. El cronómetro, que comienza a funcionar cuando haces clic en Comenzar lab, indica por cuánto tiempo tendrás a tu disposición los recursos de Google Cloud.

En este lab práctico, puedes realizar las actividades por tu cuenta en un entorno de nube real, en lugar de una simulación o un entorno de demostración. Para ello, se te proporcionan credenciales temporales nuevas que usarás para acceder a Google Cloud durante todo el lab.

Para completar este lab, necesitarás lo siguiente:

  • Acceso a un navegador de Internet estándar (se recomienda el navegador Chrome)
Nota: Usa una ventana del navegador privada o de Incógnito para ejecutar este lab. Así evitarás cualquier conflicto entre tu cuenta personal y la cuenta de estudiante, lo que podría generar cargos adicionales en tu cuenta personal.
  • Tiempo para completar el lab: Recuerda que, una vez que comienzas un lab, no puedes pausarlo.
Nota: Si ya tienes un proyecto o una cuenta personal de Google Cloud, no los uses en este lab para evitar cargos adicionales en tu cuenta.

Cómo iniciar tu lab y acceder a la consola de Google Cloud

  1. Haz clic en el botón Comenzar lab. A la izquierda, se encuentra el panel Detalles del lab, que tiene estos elementos:

    • Tiempo restante
    • El botón Abrir la consola de Google
    • Las credenciales temporales que debes usar para el lab
    • Otra información para completar el lab, si es necesaria
    Nota: Si debes pagar por el lab, se abrirá una ventana emergente para que selecciones tu forma de pago.
  2. Haz clic en Abrir la consola de Google (o haz clic con el botón derecho y selecciona Abrir el vínculo en una ventana de incógnito) si ejecutas el navegador Chrome. La página Acceder se abre en una pestaña del navegador nueva.

    Sugerencia: Puedes organizar las pestañas de manera independiente (una ventana al lado de la otra) para alternar fácilmente entre ellas.

    Nota: Si aparece el diálogo Elige una cuenta, haz clic en Usar otra cuenta.
  3. Si es necesario, copia el nombre de usuario de Google Cloud a continuación, y pégalo en el diálogo Ingresar. Haz clic en Siguiente.

{{{user_0.username | "nombre de usuario de Google Cloud"}}}

También puedes encontrar el nombre de usuario de Google Cloud en el panel Detalles del lab.

  1. Copia la contraseña de Google Cloud a continuación y pégala en el diálogo te damos la bienvenida. Haz clic en Siguiente.
{{{user_0.password | "contraseña de Google Cloud"}}}

También puedes encontrar la contraseña de Google Cloud en el panel Detalles del lab.

Importante: Debes usar las credenciales que te proporciona el lab. No uses las credenciales de tu cuenta de Google Cloud. Nota: Usar tu propia cuenta de Google Cloud podría generar cargos adicionales.
  1. Haz clic para avanzar por las páginas siguientes:
    • Acepta los Términos y Condiciones.
    • No agregues opciones de recuperación o autenticación de dos factores (esta es una cuenta temporal).
    • No te registres para las pruebas gratuitas.

Después de un momento, se abrirá la consola de Cloud en esta pestaña.

Nota: Para ver el menú con una lista de los productos y servicios de Google Cloud, haz clic en el menú de navegación que se encuentra en la parte superior izquierda de la pantalla. Menú de la consola de Google Cloud con el ícono de menú de navegación destacado

Tarea 1: Explora los datos de una tabla con la limitación de datos

En esta tarea, explorarás los datos de una tabla con la limitación de datos.

  1. En el menú de navegación (Menú de navegación) de la consola de Google Cloud, selecciona BigQuery.
Nota: Podría aparecer el mensaje Te damos la bienvenida a BigQuery en la consola de Cloud, que proporciona vínculos a la guía de inicio rápido y las notas de la versión con actualizaciones de la IU. Haz clic en Listo para continuar.

Se mostrará el menú de navegación, el panel Explorador y el Editor de consultas.

  1. Expande la lista de conjuntos de datos haciendo clic en la flecha desplegable junto al ID del proyecto.
  2. Desplázate al conjunto de datos thelook_ecommerce.
  3. Expande el conjunto de datos thelook_ecommerce. Se muestran las tablas del conjunto de datos.
  4. Selecciona la tabla de products. El esquema de la tabla te muestra dónde puedes explorar su información y su esquema.

Ahora, explora los datos ejecutando una consulta que devuelve diez filas de la tabla de productos. Esto es útil para obtener información sobre el contenido de la tabla.

Nota: Para inspeccionar rápidamente el contenido de una tabla en BigQuery sin ejecutar una consulta, también puedes usar la pestaña Vista previa. Esta muestra las primeras 1,000 filas de una tabla.
  1. En el Editor de consultas, haz clic en el ícono Redactar una nueva consulta (+). Se abre la pestaña Sin título.
  2. Copia y pega el siguiente comando en la pestaña Sin título:
SELECT * FROM `thelook_ecommerce.products` LIMIT 10;

Esta consulta limita los resultados a las primeras 10 filas de la tabla de productos del conjunto de datos thelook_ecommerce.

  1. Haz clic en Ejecutar.
Nota: Cada vez que ejecutes una nueva consulta en el Editor de consultas, puedes reemplazar la anterior copiando y pegando la consulta nueva en la misma pestaña Sin título, o bien puedes hacer clic en el ícono Redactar una nueva consulta (+) para abrir una nueva pestaña Sin título y ejecutar la consulta.

BigQuery también ofrece la capacidad de elegir una consulta entre varias en el panel Editor de consultas, lo que resulta útil cuando tienes muchas consultas en una sola pestaña del editor.

Haz clic en Revisar mi progreso para verificar que completaste esta tarea correctamente.

Explorar los datos de una tabla con la limitación de datos

Tarea 2: Identifica filas duplicadas con COUNT(DISTINCT name)

En esta tarea, determinarás la cantidad total de filas y de productos con nombres diferentes que se encuentran en la tabla products.

  1. Crea una nueva consulta; copia la siguiente consulta en el Editor de consultas:
SELECT COUNT(*) AS NumberOfRows, COUNT(DISTINCT name) AS NumberofProducts FROM `thelook_ecommerce.products`;

Esta consulta devuelve la cantidad total de entradas en la tabla de productos y la cantidad de nombres únicos de productos.

  1. Haz clic en Ejecutar.

En BigQuery, la función de agregación de SQL COUNT(DISTINCT name) se usa para calcular la cantidad de valores únicos en la columna de nombre de un conjunto de datos. Devuelve el recuento de valores diferentes (únicos) de esa columna.

Esto te puede ayudar a identificar los productos duplicados que haya en la tabla. Identificar y abordar los datos duplicados es un paso importante del análisis de datos porque los duplicados pueden provocar resultados sesgados y errores durante el análisis.

Haz clic en Revisar mi progreso para verificar que completaste esta tarea correctamente.

Identificar columnas duplicadas con COUNT(DISTINCT name)

Tarea 3: Usa GROUP BY para identificar la cantidad de artículos en la categoría

En esta tarea, determinarás la cantidad de artículos por categoría en la tabla de productos. Para ello, agregarás la cantidad de productos por categoría con la palabra clave GROUP BY de SQL.

  1. Crea una nueva consulta; copia la siguiente consulta en el Editor de consultas:
SELECT category, COUNT(*) AS itemCount FROM `thelook_ecommerce.products` GROUP BY category;

Esta consulta agrupa los productos en la tabla de productos por categoría y cuenta la cantidad de productos de cada categoría.

  1. Haz clic en Ejecutar.

  1. Crea una nueva consulta; copia la siguiente consulta en el Editor de consultas:
SELECT segment, COUNT(*) AS itemCount FROM `thelook_ecommerce.products` GROUP BY segment;

Esta consulta identifica a qué segmento se asignó cada artículo. Como puedes ver, se reemplazó category por segment en las cláusulas SELECT y GROUP BY.

  1. Haz clic en Ejecutar.

Haz clic en Revisar mi progreso para verificar que completaste esta tarea correctamente.

Usar GROUP BY para identificar la cantidad de artículos en la categoría

Tarea 4: Filtra los datos con GROUP BY y HAVING

En esta tarea, filtrarás los datos para quitar las categorías que tengan una pequeña cantidad de artículos antes de hacer un muestreo del conjunto de datos con las palabras clave GROUP BY y HAVING de SQL.

  1. Crea una nueva consulta; copia la siguiente consulta en el Editor de consultas:
SELECT category, COUNT(*) AS itemCount FROM `thelook_ecommerce.products` GROUP BY category HAVING itemCount > 1000;

Esta consulta devuelve las categorías que tengan una gran cantidad de artículos. Actualmente, el umbral es de 1,000, por lo que solo se devolverán las categorías que tengan más de 1,000 artículos. Puedes ajustar este umbral con un valor tan alto o bajo como desees para obtener los resultados que necesites.

  1. Haz clic en Ejecutar.

Haz clic en Revisar mi progreso para verificar que completaste esta tarea correctamente.

Filtrar los datos con GROUP BY y HAVING

Tarea 5: Haz un muestreo de una tabla de BigQuery con TABLESAMPLE

En esta tarea, usarás el muestreo de datos para obtener un subconjunto aleatorio de filas de la tabla products.

El muestreo de tablas es útil para distintos propósitos, como explorar los datos, probar las consultas o conseguir una descripción general rápida de un conjunto de datos grande.

El muestreo devuelve una selección aleatoria de filas al mismo tiempo que evita los costos relacionados con el análisis y el procesamiento de una tabla completa. Esto se debe a que el muestreo solo lee un subconjunto de los datos, lo que puede reducir de manera significativa la cantidad de tiempo y recursos necesarios para ejecutar la consulta.

A diferencia de la cláusula LIMIT que usaste en la tarea anterior, TABLESAMPLE devuelve un subconjunto de datos aleatorio de una tabla. Esto significa que los resultados de una consulta TABLESAMPLE pueden variar cada vez que se ejecuta.

BigQuery no almacena en caché los resultados de las consultas que incluyen una cláusula TABLESAMPLE. Esto se debe a que los resultados de una consulta de muestreo siempre son aleatorios, por lo que almacenarlos en caché no es útil.

  1. Crea una nueva consulta; copia la siguiente consulta en el Editor de consultas:
SELECT * FROM `thelook_ecommerce.products` TABLESAMPLE SYSTEM (10 PERCENT);
  1. Haz clic en Ejecutar.

Haz clic en Revisar mi progreso para verificar que completaste esta tarea correctamente.

Hacer un muestreo de una tabla de BigQuery con TABLESAMPLE

Tarea 6: Explora la tabla order_items

En esta tarea, explorarás los datos de la tabla order_items.

  1. Crea una nueva consulta; copia la siguiente consulta en el Editor de consultas:
SELECT * FROM `thelook_ecommerce.order_items` LIMIT 10;

Esta consulta devuelve las primeras 10 filas de la tabla order_items.

  1. Haz clic en Ejecutar.

  2. Crea una nueva consulta; copia la siguiente consulta en el Editor de consultas:

SELECT status, COUNT(*) AS total_orders FROM `thelook_ecommerce.order_items` GROUP BY status;

Esta consulta devuelve el recuento de pedidos agregado de varios estados.

  1. Haz clic en Ejecutar.

  2. Crea una nueva consulta; copia la siguiente consulta en el Editor de consultas:

SELECT user_id, SUM(sale_price) AS total_amount FROM `thelook_ecommerce.order_items` GROUP BY user_id ORDER BY total_amount DESC LIMIT 1;

Esta consulta devuelve el ID de usuario relacionado con el valor del pedido total más alto.

  1. Haz clic en Ejecutar.

Haz clic en Revisar mi progreso para verificar que completaste esta tarea correctamente.

Explorar la tabla order_items

Conclusión

¡Muy bien!

Exploraste los datos con éxito y encontraste problemas de calidad en los datos de ventas. Este es un primer paso importante para asegurarte de que estén optimizados los datos de ventas que se usan para la toma de decisiones.

En primer lugar, exploraste los datos con limitación para devolver una cantidad de resultados limitada.

En segundo lugar, identificaste las filas duplicadas con la técnica de agregación COUNT(DISTINCT name).

En tercer lugar, usaste GROUP BY para identificar la cantidad de artículos por categoría en la tabla de productos.

En cuarto lugar, filtraste los datos con GROUP BY y HAVING.

En quinto lugar, hiciste un muestreo de una tabla para devolver un subconjunto de datos aleatorio.

Por último, exploraste los datos de la tabla order_items.

Estás en buen camino para comprender cómo usar la limitación, el muestreo y la agregación de datos y, así, entender mejor tus datos y tus necesidades de transformación.

Finaliza el lab

Antes de que finalices el lab, asegúrate de estar conforme con la forma en que completaste todas las tareas. Cuando estés conforme, haz clic en Finalizar Lab y luego haz clic en Enviar.

Finalizar el lab te quitará el acceso al entorno del lab y no podrás volver a acceder al trabajo que completaste.

Copyright 2024 Google LLC. Todos los derechos reservados. Google y el logotipo de Google son marcas de Google LLC. El resto de los nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que están asociados.