arrow_back

Recopila, procesa y almacena datos en BigQuery

Acceder Unirse
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Recopila, procesa y almacena datos en BigQuery

Lab 1 hora 30 minutos universal_currency_alt 2 créditos show_chart Introductorio
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses
ícono de información importante IMPORTANTE:

ícono de captura de pantalla Toma capturas de pantalla de tu trabajo en cada tarea para agregarlas a tu cartera.

ícono de computadora de escritorio/laptop Asegúrate de completar este lab práctico únicamente en una computadora de escritorio o laptop.

ícono de verificación Se permiten solo 5 intentos por lab.

ícono de diana del cuestionario A modo de recordatorio, es habitual no responder de forma correcta a todas las preguntas en el primer intento o incluso tener que volver a realizar una tarea; esto forma parte del proceso de aprendizaje.

ícono de cronómetro Una vez comenzado el lab, no se puede detener el cronómetro. Después de 1 hora y 30 minutos, el lab terminará y tendrás que volver a empezar.

ícono de sugerencia Para obtener más información, consulta la lectura Sugerencias técnicas para el lab.

Descripción general de la actividad

Este lab forma parte de un proyecto final. En este lab, aplicarás tu conocimiento de análisis de datos en la nube y de las primeras tres etapas del recorrido de los datos: recopilar, procesar y almacenar.

Se te dará una situación determinada y un conjunto de tareas para completar con BigQuery. Estas tareas requerirán que uses tus habilidades para trabajar y transformar datos en el entorno de BigQuery, responder preguntas sobre los datos y completar desafíos que pondrán a prueba tus habilidades en la transformación de estos.

Si completas el lab correctamente, demostrarás tu habilidad para usar una plataforma de datos en la nube como BigQuery en el almacenamiento y el análisis de datos, y ganarás experiencia práctica en la aplicación de SQL que te permitirá explorar, filtrar, anular la duplicación y agregar datos para abordar una necesidad comercial específica.

Situación

TheLook Fintech es una nueva empresa de tecnología financiera que otorga préstamos a propietarios de tiendas en línea independientes que necesitan financiación para comprar inventario. Su misión es cambiar la manera en que las personas obtienen préstamos para hacer crecer sus negocios. Como startup en etapa de crecimiento, TheLook Fintech identificó con éxito su mercado objetivo y, actualmente, está trabajando duro para escalar verticalmente con rapidez.

Te contrataron como analista de datos en la nube. Tu primera tarea es desarrollar y, también, implementar un plan que te permita ayudar al Departamento de Tesorería a usar los datos eficazmente para hacer seguimiento de su rendimiento y crecimiento.

En una reunión con Trevor, jefe del Departamento de Tesorería, se identificaron tres preguntas comerciales.

Estas preguntas son las siguientes:

  • ¿Cómo podemos supervisar el flujo de dinero de mejor manera para asegurarnos de que el importe de los préstamos que otorgamos cada mes no sea mayor que los ingresos?
  • ¿Cómo podemos identificar las principales razones por las que los clientes obtienen un préstamo de nuestra empresa?
  • ¿Cómo podemos conocer la ubicación donde los clientes obtuvieron los préstamos?

En la reunión con Trevor, también se obtuvo información importante sobre las métricas claves necesarias para responder estas preguntas comerciales.

El flujo de dinero es el importe de dinero que entra y sale de una empresa en el tiempo. TheLook Fintech necesita asegurarse de que el importe de dinero que entra de los pagos de los préstamos y de otras fuentes sea mayor que el importe de dinero que sale para financiar los préstamos y pagar otros gastos.

El propósito de los préstamos es otra métrica importante para el seguimiento. Trevor explicó que hay una fuerte correlación entre las razones que los prestatarios dan sobre por qué obtienen préstamos y la probabilidad de que los paguen. Para asegurarse de que la otorgación de préstamos esté encaminada, es importante hacer seguimiento del propósito principal de los préstamos.

La ubicación del prestatario también es un punto clave. El Departamento de Tesorería quiere comprender cómo se distribuyen los préstamos geográficamente. Esto se debe a que las altas concentraciones de préstamos en una región pueden aumentar el riesgo de incumplimiento de pago colectivo. Una distribución uniforme de los préstamos entre regiones puede contribuir a reducir este riesgo porque garantiza que los prestamistas no dependan demasiado de una sola área para el reembolso de los préstamos.

Tu análisis se enfocará en estas tres métricas clave.

En este lab, usarás BigQuery para recopilar, procesar y almacenar datos y, así, responder estas preguntas comerciales y preparar una serie de informes para Trevor.

Para hacerlo, primero configurarás el entorno de trabajo de BigQuery. Luego, explorarás los datos de los préstamos para encontrar la información que Trevor está solicitando. Después, importarás un archivo con una nueva clasificación de estados y almacenarás los datos como una tabla estándar. Luego, unirás dos tablas para preparar un informe con datos combinados. A continuación, anularás la duplicación de los datos del propósito. Finalmente, producirás un informe con el importe total de préstamos otorgados por día y por año.

Configuración

Antes de hacer clic en Comenzar lab

Lee estas instrucciones. Los labs son cronometrados y no se pueden pausar. El cronómetro, que comienza a funcionar cuando haces clic en Comenzar lab, indica por cuánto tiempo tendrás a tu disposición los recursos de Google Cloud.

En este lab práctico, puedes realizar las actividades por tu cuenta en un entorno de nube real, en lugar de una simulación o un entorno de demostración. Para ello, se te proporcionan credenciales temporales nuevas que usarás para acceder a Google Cloud durante todo el lab.

Para completar este lab, necesitarás lo siguiente:

  • Acceso a un navegador de Internet estándar (se recomienda el navegador Chrome)
Nota: Usa una ventana del navegador privada o de Incógnito para ejecutar este lab. Así evitarás cualquier conflicto entre tu cuenta personal y la cuenta de estudiante, lo que podría generar cargos adicionales en tu cuenta personal.
  • Tiempo para completar el lab: Recuerda que, una vez que comienzas un lab, no puedes pausarlo.
Nota: Si ya tienes un proyecto o una cuenta personal de Google Cloud, no los uses en este lab para evitar cargos adicionales en tu cuenta.

Cómo iniciar tu lab y acceder a la consola de Google Cloud

  1. Haz clic en el botón Comenzar lab. A la izquierda, se encuentra el panel Detalles del lab, que tiene estos elementos:

    • Tiempo restante
    • El botón Abrir la consola de Google
    • Las credenciales temporales que debes usar para el lab
    • Otra información para completar el lab, si es necesaria
    Nota: Si debes pagar por el lab, se abrirá una ventana emergente para que selecciones tu forma de pago.
  2. Haz clic en Abrir la consola de Google (o haz clic con el botón derecho y selecciona Abrir el vínculo en una ventana de incógnito) si ejecutas el navegador Chrome. La página Acceder se abre en una pestaña del navegador nueva.

    Sugerencia: Puedes organizar las pestañas de manera independiente (una ventana al lado de la otra) para alternar fácilmente entre ellas.

    Nota: Si aparece el diálogo Elige una cuenta, haz clic en Usar otra cuenta.
  3. Si es necesario, copia el nombre de usuario de Google Cloud a continuación, y pégalo en el diálogo Ingresar. Haz clic en Siguiente.

{{{user_0.username | "nombre de usuario de Google Cloud"}}}

También puedes encontrar el nombre de usuario de Google Cloud en el panel Detalles del lab.

  1. Copia la contraseña de Google Cloud a continuación y pégala en el diálogo te damos la bienvenida. Haz clic en Siguiente.
{{{user_0.password | "contraseña de Google Cloud"}}}

También puedes encontrar la contraseña de Google Cloud en el panel Detalles del lab.

Importante: Debes usar las credenciales que te proporciona el lab. No uses las credenciales de tu cuenta de Google Cloud. Nota: Usar tu propia cuenta de Google Cloud podría generar cargos adicionales.
  1. Haz clic para avanzar por las páginas siguientes:
    • Acepta los Términos y Condiciones.
    • No agregues opciones de recuperación o autenticación de dos factores (esta es una cuenta temporal).
    • No te registres para las pruebas gratuitas.

Después de un momento, se abrirá la consola de Cloud en esta pestaña.

Nota: Para ver el menú con una lista de los productos y servicios de Google Cloud, haz clic en el menú de navegación que se encuentra en la parte superior izquierda de la pantalla. Menú de la consola de Google Cloud con el ícono de menú de navegación destacado

Tarea 1: Comienza a usar BigQuery

Como analista de datos en la nube, una de las primeras tareas que deberás realizar cuando trabajes en un proyecto será abrir tu entorno de trabajo y ubicar los datos con los que trabajarás en tu análisis.

En esta tarea, abrirás el entorno de BigQuery, seleccionarás un proyecto de BigQuery existente y ubicarás el conjunto de datos de Fintech.

  1. Abre BigQuery en la consola de Google Cloud.
  2. Localiza el conjunto de datos de Fintech. Este es el conjunto de datos que usarás para la próxima tarea.

Tarea 2: Explora los datos de Fintech

El conjunto de datos de Fintech contiene la información de préstamos que se puede usar para responder las preguntas comerciales de Trevor. Un dato clave es la cantidad total de préstamos.

En esta tarea, explorarás las tablas del conjunto de datos de Fintech para encontrar la tabla y la columna que contiene el importe total de los préstamos. Esta información es importante para ayudar a Trevor a hacer seguimiento del flujo de dinero de la empresa.

  1. Abre cada tabla del conjunto de datos de Fintech.
  2. Usa la pestaña Detalles para obtener más información sobre cada tabla.
  3. Usa la pestaña Esquema para identificar qué columnas se incluyen en cada tabla y el tipo de datos de cada columna.
  4. Usa la pestaña Vista previa para ver una vista previa de los datos. Ubica la columna con el importe de los préstamos para verificar que tenga la información que necesitas.

Trevor explica que cuando TheLook Fintech otorga préstamos a sus clientes, la fecha en que el dinero está disponible para el cliente se conoce como la fecha de "emisión". Este es otro dato clave que necesitarás para ayudar al equipo de Trevor a realizar un seguimiento del importe total de dinero que sale cada día o mes.

Ubica la tabla en el conjunto de datos Fintech que tiene la fecha en la que se emitió cada préstamo y, luego, responde las preguntas siguientes.

Tarea 3: Importa un archivo CSV y crea una tabla estándar

La mayor parte de los datos necesarios para el análisis se encuentran en el conjunto de datos Fintech, pero algunos se deben recopilar de otra fuente. Trevor proporcionó un archivo CSV que asocia los estados de EE.UU. a regiones y subregiones. Esta información clave ayudará a Trevor a hacer seguimiento de los préstamos según el estado o la región en la que el prestamista obtuvo el préstamo.

El archivo CSV está ubicado en Cloud Storage en la siguiente ubicación:

gs://sureskills-lab-dev/future-workforce/da-capstone/temp_35_us/state_region_mapping/

A continuación, hay un ejemplo de los datos que contiene el archivo CSV:

Imagen que muestra un ejemplo de los datos en un archivo CSV

En esta tarea, importarás el archivo CSV en BigQuery y lo almacenarás como una tabla estándar.

  1. Revisa el código siguiente que usarás para importar el archivo CSV. Luego, responde las preguntas a continuación.
LOAD DATA OVERWRITE fintech.state_region ( state string, subregion string, region string ) FROM FILES ( format = 'CSV', uris = ['gs://sureskills-lab-dev/future-workforce/da-capstone/temp_35_us/state_region_mapping/state_region_*.csv']);

  1. Copia y pega el comando siguiente a la pestaña Sin título para crear la tabla estándar con los datos del archivo CSV.

  2. Haz clic en Ejecutar.

Luego, revisa la tabla que creaste y compárala con el archivo CSV original:

Imagen que muestra un ejemplo de los datos en un archivo CSV

  1. En el panel Explorador, selecciona la tabla state_region. Si la tabla no se muestra, es posible que debas actualizar el conjunto de datos.

  2. Haz clic en la pestaña Vista previa y examina los datos que acabas de importar en BigQuery.

Haz clic en Revisar mi progreso para verificar que completaste esta tarea correctamente.

Importa un archivo CSV y crea una tabla estándar

Tarea 4: Une datos de dos tablas

Ahora que exploraste y recopilaste los datos que necesitas, todo está listo para que los proceses y, así, te asegures de que sean útiles en el análisis.

Trevor quiere un solo informe que incluya loan_id, loan_amount y el nombre de region. Pero esta información está actualmente en dos tablas.

En esta tarea, identificarás las tablas que contienen las columnas que necesitas y usarás SQL para unir las dos tablas y crear el informe.

  1. Revisa las tablas en el conjunto de datos Fintech y, luego, responde las preguntas a continuación.

  1. En el editor de consultas, ejecuta la Consulta A y la Consulta B, y revisa los resultados. Luego, responde la pregunta a continuación.

Consulta A

SELECT lo.loan_id, lo.loan_amount, sr.region FROM fintech.loan lo INNER JOIN fintech.state_region sr ON lo.region = sr.region;

Consulta B

SELECT lo.loan_id, lo.loan_amount, sr.region FROM fintech.loan lo INNER JOIN fintech.state_region sr ON lo.state = sr.state;

Tarea 5: Crea una tabla basada en los resultados de una consulta con CTAS

Trevor quiere realizar un filtrado y análisis adicionales de los datos del informe con Hojas de cálculo de Google.

Pero para hacerlo, primero debes crear una tabla que te permita almacenar los datos.

Una instrucción CTAS, o CREATE TABLE AS SELECT, es una instrucción de SQL que crea una tabla nueva en función de los resultados de una instrucción SELECT. Es una herramienta poderosa que puede usarse para crear nuevas tablas con facilidad y rapidez. Las tablas creadas con instrucciones CTAS también se pueden exportar con facilidad en BigQuery para su uso compartido.

En esta tarea, crearás una nueva tabla con CREATE TABLE AS SELECT y, luego, la conectarás a Hojas de cálculo de Google.

  1. Copia el siguiente comando y pégalo en el editor de consultas:
CREATE OR REPLACE TABLE fintech.loan_with_region AS SELECT lo.loan_id, lo.loan_amount, sr.region FROM fintech.loan lo INNER JOIN fintech.state_region sr ON lo.state = sr.state; Nota: Esta es una modificación de la consulta que se usó para crear el informe en la tarea anterior. Pero en esta consulta, CREATE OR REPLACE TABLE se usa para crear una tabla o reemplazar la existente cada vez que se ejecuta la consulta.
  1. Haz clic en Ejecutar.

  2. Ubica la nueva tabla. Es posible que debas actualizar.

Haz clic en Revisar mi progreso para verificar que completaste esta tarea correctamente.

Crea una tabla basada en los resultados de una consulta con CTAS
  1. En el panel Explorador, selecciona la tabla loan_with_region recién creada. (Haz clic en Actualizar para actualizar el conjunto de datos si la tabla no se muestra).

  2. En la barra de herramientas, haz clic en Exportar y, luego, selecciona Explorar con Hojas de cálculo. Se abrirá una hoja de cálculo que contiene la misma hoja conectada a la tabla loan_with_region.

  3. Revisa los datos en la hoja de cálculo de Google.

Ahora podrás compartir la hoja de cálculo de Google con Trevor y ofrecerle la opción de trabajar con los datos en un formato de hoja de cálculo.

Tarea 6: Trabaja con datos anidados

Trevor está investigando las razones principales por las que las personas obtienen préstamos de TheLook Fintech porque descubrió que estas razones son un predictor sólido de la probabilidad de que paguen sus préstamos.

Te pidió que crees un informe sencillo que incluya el propósito que cada prestatario indicó cuando pidió el préstamo. Pero encontrar estos datos puede ser difícil porque se capturan como parte del proceso de solicitud de préstamo y se almacenan en una columna anidada llamada "purpose".

En esta tarea, encontrarás la columna purpose, que está anidada en el registro de la solicitud y ejecutarás una consulta para descubrir por qué los prestatarios obtienen préstamos.

  1. En el panel Explorador, selecciona la tabla loan.

  2. Selecciona la pestaña Esquema y ubica la columna application.

  3. En la pestaña Esquema, haz clic en la flecha desplegable junto a application para expandir el registro.

Imagen que muestra el registro anidado de application

  1. Haz clic en la pestaña Vista previa y examina los datos de muestra de la tabla loan.

¿Crees que la consulta siguiente devolverá el propósito de cada préstamo desde la tabla loan?

  1. Copia el siguiente comando y pégalo en el editor de consultas:
SELECT loan_id,purpose FROM fintech.loan;
  1. Haz clic en Ejecutar.

  1. Copia el siguiente comando y pégalo en el editor de consultas:
SELECT loan_id,application.purpose FROM fintech.loan;
  1. Haz clic en Ejecutar.

Esta consulta devuelve el propósito de cada préstamo de la tabla loan, que Trevor puede usar para examinar las razones más comunes por las que las personas obtienen préstamos de TheLook Fintech.

Se hace referencia a las columnas con registros (o structs) por el nombre del registro, seguido del nombre de la columna, con la notación de puntos. Por ejemplo, para hacer referencia a la columna purpose en el registro application, se usaría la notación application.purpose.

Haz clic en Revisar mi progreso para verificar que completaste esta tarea correctamente.

Trabaja con datos anidados

Tarea 7: Anula los datos duplicados

Cuando creaste la lista de propósitos de los préstamos para Trevor, parece que algunas de las razones por las que los prestatarios obtienen préstamos aparecen más de una vez.

Por ejemplo, la razón “wedding” aparece varias veces.

Estos son los resultados:

Imagen que muestra los datos duplicados de la columna purpose

Los datos duplicados son un problema común que enfrentan los analistas de datos en la nube. El proceso de quitar duplicados del conjunto de datos se conoce como anulación de duplicación.

Desafío: Crea una tabla de una sola columna con valores distintos

  • Escribe una consulta para crear una tabla denominada fintech.loan_purposes, que tenga una sola columna denominada purpose con valores distintos para la columna purpose en la tabla fintech.loan.
Sugerencia: Puedes hacer esto con la instrucción CREATE TABLE AS SELECT (CTAS).

Haz clic en Revisar mi progreso para verificar que completaste esta tarea correctamente.

Anula los datos duplicados

Tarea 8: Responde preguntas comerciales con un informe

Trevor también necesita un informe con el importe total de los préstamos otorgados por año. En esta tarea, escribirás una consulta que produce esos datos y, luego, crearás una tabla con los resultados.

Trevor explica que le gustaría tener un informe con una estructura similar a esta, que incluya las columnas issue_year y total_amount.

Imagen de los resultados de la consulta con issue_year y total_amount

Luego, examina los datos.

  1. Copia el siguiente comando y pégalo en el editor de consultas:
SELECT issue_year, loan_amount FROM fintech.loan ORDER BY issue_year, issue_date;
  1. Haz clic en Ejecutar.

La consulta devolvería resultados similares a los siguientes:

Imagen de los resultados de la consulta con issue_year y loan_amount

Nota: Tienes más de una fila por año. Por ejemplo, las primeras filas son del año 2012. Trevor quiere un fila por año, como se muestra en el informe de muestra.

  1. Copia el siguiente comando y pégalo en el editor de consultas:
SELECT issue_year, sum(loan_amount) AS total_amount FROM fintech.loan GROUP BY issue_year;
  1. Haz clic en Ejecutar.

Ten en cuenta que las palabras clave GROUP BY y la función sum() se usaron en la consulta.

Desafío: Crea una tabla que recuente los préstamos agrupados por año

Escribe una consulta para crear una tabla denominada loan_count_by_year en el conjunto de datos Fintech, que cuente los préstamos agrupados por issue_year.

Pista: ¿No puedes avanzar? Las herramientas de IA generativa como Bard y Duet AI se pueden usar para ayudar con la sintaxis de SQL y, además, identificar posibles errores en tu código, a la vez que te ayudan a entenderlo mejor.

Haz clic en Revisar mi progreso para verificar que completaste esta tarea correctamente.

Responde preguntas comerciales con un informe

Conclusión

Como analista de datos en la nube en TheLook Fintech, proporcionaste correctamente los datos que Trevor y el Departamento de Tesorería necesitan para comprender mejor el flujo de dinero de la empresa y tomar decisiones comerciales informadas.

Primero, comenzaste explorando los datos para encontrar la información que Trevor solicitó, como el importe total de los préstamos en el conjunto de datos Fintech.

Después, importaste un archivo con una nueva clasificación de estados, que Trevor quería utilizar para cambiar cómo se categorizan los préstamos por región.

Luego, creaste una nueva tabla con los resultados de una consulta, que Trevor usaría para crear un informe que muestre el ID del préstamo, el importe del préstamo y el nombre de la región.

Anulaste la duplicación de los datos para quitar cualquier registro duplicado.

Finalmente, produjiste un informe con el importe total de los préstamos otorgados por día y por año, que Trevor necesitaba para comprender mejor el flujo de dinero de la empresa.

Estás en buen camino en la comprensión sobre cómo recopilar, procesar y almacenar datos para el análisis.

Finaliza el lab

Antes de que finalices el lab, asegúrate de estar conforme con la forma en que completaste todas las tareas. Cuando estés conforme, haz clic en Finalizar Lab y luego haz clic en Enviar.

Finalizar el lab te quitará el acceso al entorno del lab y no podrás volver a acceder al trabajo que completaste.

Copyright 2024 Google LLC. Todos los derechos reservados. Google y el logotipo de Google son marcas de Google LLC. El resto de los nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que están asociados.