Puntos de control
Identify duplicate rows
/ 30
Write basic SQL on ecommerce data
/ 70
Explora un conjunto de datos de comercio electrónico con SQL en BigQuery
GSP407
Descripción general
BigQuery es la base de datos analítica de bajo costo, no-ops y completamente administrada de Google. Con BigQuery, puedes consultar muchos terabytes de datos sin tener que administrar infraestructuras y sin necesitar un administrador de base de datos. BigQuery usa SQL y puede aprovechar el modelo de pago por uso. BigQuery te permite enfocarte en el análisis de datos para encontrar estadísticas valiosas.
En una tabla de BigQuery, se cargó un conjunto de datos de comercio electrónico recientemente disponible que incluye millones de registros de Google Analytics para Google Merchandise Store. En este lab, usarás una copia de ese conjunto de datos. Se proporcionan situaciones de muestra, en las cuales observarás los datos y buscarás maneras de quitar la información duplicada. Luego, en el lab, se te guiará para que analices aún más los datos.
Si deseas seguir las consultas de BigQuery que se proporcionan para analizar los datos y experimentar con ellas, consulta la Referencia de sintaxis de consultas de BigQuery.
Objetivos
En este lab, usarás BigQuery para hacer lo siguiente:
- Acceder a un conjunto de datos de comercio electrónico
- Observar los metadatos del conjunto de datos
- Quitar entradas duplicadas
- Escribir y ejecutar consultas
Configuración y requisitos
Antes de hacer clic en el botón Comenzar lab
Lee estas instrucciones. Los labs son cronometrados y no se pueden pausar. El cronómetro, que comienza a funcionar cuando haces clic en Comenzar lab, indica por cuánto tiempo tendrás a tu disposición los recursos de Google Cloud.
Este lab práctico te permitirá realizar las actividades correspondientes en un entorno de nube real, no en uno de simulación o demostración. Para ello, se te proporcionan credenciales temporales nuevas que utilizarás para acceder a Google Cloud durante todo el lab.
Para completar este lab, necesitarás lo siguiente:
- Acceso a un navegador de Internet estándar (se recomienda el navegador Chrome)
- Tiempo para completar el lab: Recuerda que, una vez que comienzas un lab, no puedes pausarlo.
Cómo iniciar tu lab y acceder a la consola de Google Cloud
-
Haga clic en el botón Comenzar lab. Si debe pagar por el lab, se abrirá una ventana emergente para que seleccione su forma de pago. A la izquierda, se encuentra el panel Detalles del lab, que tiene estos elementos:
- El botón Abrir la consola de Google Cloud
- El tiempo restante
- Las credenciales temporales que debe usar para el lab
- Otra información para completar el lab, si es necesaria
-
Haz clic en Abrir la consola de Google Cloud (o haz clic con el botón derecho y selecciona Abrir el vínculo en una ventana de incógnito si ejecutas el navegador Chrome).
El lab inicia recursos y abre otra pestaña en la que se muestra la página de acceso.
Sugerencia: Ordene las pestañas en ventanas separadas, una junto a la otra.
Nota: Si ves el diálogo Elegir una cuenta, haz clic en Usar otra cuenta. -
De ser necesario, copia el nombre de usuario a continuación y pégalo en el diálogo Acceder.
{{{user_0.username | "Username"}}} También puedes encontrar el nombre de usuario en el panel Detalles del lab.
-
Haz clic en Siguiente.
-
Copia la contraseña que aparece a continuación y pégala en el diálogo Te damos la bienvenida.
{{{user_0.password | "Password"}}} También puedes encontrar la contraseña en el panel Detalles del lab.
-
Haz clic en Siguiente.
Importante: Debes usar las credenciales que te proporciona el lab. No uses las credenciales de tu cuenta de Google Cloud. Nota: Usar tu propia Cuenta de Google podría generar cargos adicionales. -
Haga clic para avanzar por las páginas siguientes:
- Acepta los Términos y Condiciones.
- No agregues opciones de recuperación o autenticación de dos factores (esta es una cuenta temporal).
- No te registres para obtener pruebas gratuitas.
Después de un momento, se abrirá la consola de Google Cloud en esta pestaña.
Tarea 1. Fija el proyecto del lab en BigQuery
En esta sección, agregarás el proyecto data-to-insights a tus recursos de entorno.
- Haz clic en el menú de navegación > BigQuery.
Se abrirá el cuadro de mensaje de bienvenida a BigQuery en la consola de Cloud.
- Haz clic en Listo.
Los conjuntos de datos públicos de BigQuery no se muestran de forma predeterminada en la IU web de BigQuery. Para abrir el proyecto de conjuntos de datos públicos, copia “data-to-insights”.
- Haz clic en + Agregar > Destaca un proyecto por nombre y, luego, establece el nombre en
data-to-insights
. Haz clic en DESTACAR.
Ahora en la sección Explorador se muestra el proyecto data-to-insights.
Tarea 2. Explora los datos de comercio electrónico y también identifica los registros duplicados
Situación: Tu equipo de analistas de datos exportó a BigQuery los registros de Google Analytics para un sitio web de comercio electrónico y creó una nueva tabla de todos los datos de comercio electrónico sin procesar que provienen de sesiones de visitantes.
Explora los datos de la tabla all_sessions_raw
:
- Haz clic en el ícono Expandir nodo cerca de data-to-insights para expandir el proyecto.
- Expande ecommerce.
- Haz clic en all_sessions_raw.
En el panel de la derecha, se abrirá una sección que ofrece 3 vistas de los datos de la tabla:
- Pestaña Esquema: Nombre del campo, Tipo, Modo y Descripción; las restricciones lógicas que se usan para organizar los datos
- Pestaña Detalles: Metadatos de la tabla
- Pestaña Vista previa: Vista previa de la tabla
- Haz clic en la pestaña Detalles para ver los metadatos de la tabla.
Preguntas:
Identifica filas duplicadas
Ver una muestra de la cantidad de datos puede darte una mayor intuición de lo que se incluye en el conjunto de datos.
-
Para obtener una vista previa de las filas de muestra de la tabla sin usar SQL, haz clic en la pestaña Vista previa.
-
Desplázate por las filas y analízalas. No hay ningún campo singular que identifique una fila de manera inequívoca, por lo que necesitas lógica avanzada para identificar las filas duplicadas.
-
La consulta que usarás (debajo) utiliza la función
GROUP BY
de SQL en todos los campos y cuenta (COUNT
) las filas que tienen los mismos valores en todos los campos:
- Si cada campo es único,
COUNT
devuelve 1, ya que no hay otras agrupaciones de filas con el mismo valor en todos los campos. - Si hay varias filas con los mismos valores en todos los campos, se agrupan con las otras y
COUNT
será mayor que 1.
La última parte de la consulta es un filtro de agregación en el que se usa HAVING
para mostrar solo los resultados que tienen un COUNT
de duplicados mayor que 1. Por lo tanto, la cantidad de registros que tienen duplicados será la misma que la cantidad de filas de la tabla resultante.
- Copia y pega la siguiente consulta en el Editor de consultas y, luego, EJECÚTALA para encontrar los registros que están duplicados en todas las columnas.
Haz clic en Revisar mi progreso para verificar el objetivo.
Analiza la nueva tabla all_sessions
En esta sección, usarás una tabla con los duplicados anulados llamada all_sessions
.
Situación: Tu equipo de analistas de datos te dio esta consulta y los expertos en esquemas identificaron los campos clave que deben ser únicos para cada registro en función de tu esquema.
- Ejecuta la consulta para confirmar que no existan duplicados y, esta vez, hazlo en la tabla
all_sessions
:
Esta consulta no devuelve ningún registro.
GROUP BY 1
en lugar de GROUP BY fullVisitorId
.Tarea 3. Escribe SQL básico en los datos de comercio electrónico
En esta sección, harás consultas para obtener estadísticas sobre el conjunto de datos de comercio electrónico.
Escribe una consulta que muestre el total de visitantes únicos
Tu consulta hace un recuento de product_views
para determinar el total de vistas y un recuento de fullVisitorID
para determinar la cantidad de visitantes únicos.
- Haz clic en el ícono “+” (Redactar consulta nueva).
- Escribe esta consulta en el editor:
- Para asegurarte de que tu sintaxis sea correcta, confirma que el validador de consultas en tiempo real muestre el ícono de verificación verde.
- Haz clic en Ejecutar. Lee los resultados para ver la cantidad de visitantes únicos.
Resultados:
- Ahora, escribe una consulta que muestre el total de visitantes únicos (
fullVisitorID
) en función del sitio de referencia (channelGrouping
):
Resultados:
- Escribe una consulta para enumerar todos los nombres de productos únicos (
v2ProductName
) en orden alfabético:
Sugerencia: En SQL, la configuración predeterminada de las cláusulas ORDER BY es ascendente (ASC) de la A a la Z. Si quieres la opción inversa, prueba con ORDER BY field_name DESC.
Resultados:
Esta consulta devuelve un total de 633 productos (filas).
- Escribe una consulta para enumerar los cinco productos con la mayor cantidad de vistas (
product_views
) por parte de todos los visitantes (incluidas las personas que vieron el mismo producto más de una vez). Tu consulta cuenta la cantidad de veces que se vio (product_views
) un producto (v2ProductName
), usa el orden descendente para la lista y enumera las 5 entradas principales:
Sugerencia: En Google Analytics, un visitante puede “ver” un producto durante los siguientes tipos de interacción: “page”, “screenview”, “event”, “transaction”, “item”, “social”, “exception”, “timing”. Para nuestros fines, solo filtra por el tipo = “PAGE”.
Resultados:
- Actividad adicional: Ahora define mejor la consulta para dejar de contar por duplicado las vistas de visitantes que vieron un producto muchas veces. Cada vista de producto diferente solo debe registrarse una vez por visitante:
Sugerencia: Puedes usar la cláusula WITH
de SQL para dividir una consulta compleja en varios pasos. Aquí, primero creamos una consulta para buscar cada producto único por visitante y contarlo una vez. Luego, con la segunda consulta, se lleva a cabo la agregación de todos los visitantes y productos.
Resultados:
- Por último, expande la consulta anterior para incluir la cantidad total de productos diferentes pedidos y la cantidad total de unidades pedidas (
productQuantity
):
Resultados:
Preguntas:
- Expande la consulta para que incluya la cantidad promedio de productos por pedido (cantidad total de unidades pedidas/cantidad total de pedidos o
SUM(productQuantity)
/COUNT(productQuantity)
):
Resultados
Pregunta:
El producto 22 oz YouTube Bottle Infuser tuvo el promedio por pedido (avg_per_order) más alto: 9.38 unidades por pedido.
Haz clic en Revisar mi progreso para verificar el objetivo.
¡Felicitaciones!
¡Felicitaciones! En este lab, usaste BigQuery para ver y consultar datos para obtener estadísticas valiosas sobre distintos aspectos del marketing de productos. Aprendiste a acceder a un conjunto de datos de comercio electrónico, observar los metadatos del conjunto de datos, quitar las entradas duplicadas y escribir y ejecutar consultas.
Próximos pasos y más información
- Explora los conjuntos de datos públicos de BigQuery.
- ¿Tienes una cuenta de Google Analytics y deseas consultar tus propios conjuntos de datos en BigQuery? Sigue esta guía de exportación.
- Lee el artículo 15 Awesome things you probably didn’t know about Google BigQuery.
- Consulta otros labs para obtener más información sobre BigQuery:
Capacitación y certificación de Google Cloud
Recibe la formación que necesitas para aprovechar al máximo las tecnologías de Google Cloud. Nuestras clases incluyen habilidades técnicas y recomendaciones para ayudarte a avanzar rápidamente y a seguir aprendiendo. Para que puedas realizar nuestros cursos cuando más te convenga, ofrecemos distintos tipos de capacitación de nivel básico a avanzado: a pedido, presenciales y virtuales. Las certificaciones te ayudan a validar y demostrar tus habilidades y tu conocimiento técnico respecto a las tecnologías de Google Cloud.
Última actualización del manual: 2 de abril de 2024
Prueba más reciente del lab: 2 de abril de 2024
Copyright 2024 Google LLC. All rights reserved. Google y el logotipo de Google son marcas de Google LLC. Los demás nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que estén asociados.