Puntos de control
Import a CSV file and create a standard table
/ 20
Create a table based on the results of a query using CTAS
/ 20
Work with nested data
/ 20
Deduplicate data
/ 20
Answer business questions with a report
/ 20
Recopila, procesa y almacena datos en BigQuery
- Descripción general de la actividad
- Situación
- Configuración
- Tarea 1: Comienza a usar BigQuery
- Tarea 2: Explora los datos de Fintech
- Tarea 3: Importa un archivo CSV y crea una tabla estándar
- Tarea 4: Une datos de dos tablas
- Tarea 5: Crea una tabla basada en los resultados de una consulta con CTAS
- Tarea 6: Trabaja con datos anidados
- Tarea 7: Anula los datos duplicados
- Tarea 8: Responde preguntas comerciales con un informe
- Conclusión
- Finaliza el lab
Descripción general de la actividad
Este lab forma parte de un proyecto final. En este lab, aplicarás tu conocimiento de análisis de datos en la nube y de las primeras tres etapas del recorrido de los datos: recopilar, procesar y almacenar.
Se te dará una situación determinada y un conjunto de tareas para completar con BigQuery. Estas tareas requerirán que uses tus habilidades para trabajar y transformar datos en el entorno de BigQuery, responder preguntas sobre los datos y completar desafíos que pondrán a prueba tus habilidades en la transformación de estos.
Si completas el lab correctamente, demostrarás tu habilidad para usar una plataforma de datos en la nube como BigQuery en el almacenamiento y el análisis de datos, y ganarás experiencia práctica en la aplicación de SQL que te permitirá explorar, filtrar, anular la duplicación y agregar datos para abordar una necesidad comercial específica.
Situación
TheLook Fintech es una nueva empresa de tecnología financiera que otorga préstamos a propietarios de tiendas en línea independientes que necesitan financiación para comprar inventario. Su misión es cambiar la manera en que las personas obtienen préstamos para hacer crecer sus negocios. Como startup en etapa de crecimiento, TheLook Fintech identificó con éxito su mercado objetivo y, actualmente, está trabajando duro para escalar verticalmente con rapidez.
Te contrataron como analista de datos en la nube. Tu primera tarea es desarrollar y, también, implementar un plan que te permita ayudar al Departamento de Tesorería a usar los datos eficazmente para hacer seguimiento de su rendimiento y crecimiento.
En una reunión con Trevor, jefe del Departamento de Tesorería, se identificaron tres preguntas comerciales.
Estas preguntas son las siguientes:
- ¿Cómo podemos supervisar el flujo de dinero de mejor manera para asegurarnos de que el importe de los préstamos que otorgamos cada mes no sea mayor que los ingresos?
- ¿Cómo podemos identificar las principales razones por las que los clientes obtienen un préstamo de nuestra empresa?
- ¿Cómo podemos conocer la ubicación donde los clientes obtuvieron los préstamos?
En la reunión con Trevor, también se obtuvo información importante sobre las métricas claves necesarias para responder estas preguntas comerciales.
El flujo de dinero es el importe de dinero que entra y sale de una empresa en el tiempo. TheLook Fintech necesita asegurarse de que el importe de dinero que entra de los pagos de los préstamos y de otras fuentes sea mayor que el importe de dinero que sale para financiar los préstamos y pagar otros gastos.
El propósito de los préstamos es otra métrica importante para el seguimiento. Trevor explicó que hay una fuerte correlación entre las razones que los prestatarios dan sobre por qué obtienen préstamos y la probabilidad de que los paguen. Para asegurarse de que la otorgación de préstamos esté encaminada, es importante hacer seguimiento del propósito principal de los préstamos.
La ubicación del prestatario también es un punto clave. El Departamento de Tesorería quiere comprender cómo se distribuyen los préstamos geográficamente. Esto se debe a que las altas concentraciones de préstamos en una región pueden aumentar el riesgo de incumplimiento de pago colectivo. Una distribución uniforme de los préstamos entre regiones puede contribuir a reducir este riesgo porque garantiza que los prestamistas no dependan demasiado de una sola área para el reembolso de los préstamos.
Tu análisis se enfocará en estas tres métricas clave.
En este lab, usarás BigQuery para recopilar, procesar y almacenar datos y, así, responder estas preguntas comerciales y preparar una serie de informes para Trevor.
Para hacerlo, primero configurarás el entorno de trabajo de BigQuery. Luego, explorarás los datos de los préstamos para encontrar la información que Trevor está solicitando. Después, importarás un archivo con una nueva clasificación de estados y almacenarás los datos como una tabla estándar. Luego, unirás dos tablas para preparar un informe con datos combinados. A continuación, anularás la duplicación de los datos del propósito. Finalmente, producirás un informe con el importe total de préstamos otorgados por día y por año.
Configuración
Antes de hacer clic en Comenzar lab
Lee estas instrucciones. Los labs son cronometrados y no se pueden pausar. El cronómetro, que comienza a funcionar cuando haces clic en Comenzar lab, indica por cuánto tiempo tendrás a tu disposición los recursos de Google Cloud.
En este lab práctico, puedes realizar las actividades por tu cuenta en un entorno de nube real, en lugar de una simulación o un entorno de demostración. Para ello, se te proporcionan credenciales temporales nuevas que usarás para acceder a Google Cloud durante todo el lab.
Para completar este lab, necesitarás lo siguiente:
- Acceso a un navegador de Internet estándar (se recomienda el navegador Chrome)
- Tiempo para completar el lab: Recuerda que, una vez que comienzas un lab, no puedes pausarlo.
Cómo iniciar tu lab y acceder a la consola de Google Cloud
-
Haz clic en el botón Comenzar lab. A la izquierda, se encuentra el panel Detalles del lab, que tiene estos elementos:
- Tiempo restante
- El botón Abrir la consola de Google
- Las credenciales temporales que debes usar para el lab
- Otra información para completar el lab, si es necesaria
Nota: Si debes pagar por el lab, se abrirá una ventana emergente para que selecciones tu forma de pago. -
Haz clic en Abrir la consola de Google (o haz clic con el botón derecho y selecciona Abrir el vínculo en una ventana de incógnito) si ejecutas el navegador Chrome. La página Acceder se abre en una pestaña del navegador nueva.
Sugerencia: Puedes organizar las pestañas de manera independiente (una ventana al lado de la otra) para alternar fácilmente entre ellas.
Nota: Si aparece el diálogo Elige una cuenta, haz clic en Usar otra cuenta. -
Si es necesario, copia el nombre de usuario de Google Cloud a continuación, y pégalo en el diálogo Ingresar. Haz clic en Siguiente.
También puedes encontrar el nombre de usuario de Google Cloud en el panel Detalles del lab.
- Copia la contraseña de Google Cloud a continuación y pégala en el diálogo te damos la bienvenida. Haz clic en Siguiente.
También puedes encontrar la contraseña de Google Cloud en el panel Detalles del lab.
- Haz clic para avanzar por las páginas siguientes:
- Acepta los Términos y Condiciones.
- No agregues opciones de recuperación o autenticación de dos factores (esta es una cuenta temporal).
- No te registres para las pruebas gratuitas.
Después de un momento, se abrirá la consola de Cloud en esta pestaña.
Tarea 1: Comienza a usar BigQuery
Como analista de datos en la nube, una de las primeras tareas que deberás realizar cuando trabajes en un proyecto será abrir tu entorno de trabajo y ubicar los datos con los que trabajarás en tu análisis.
En esta tarea, abrirás el entorno de BigQuery, seleccionarás un proyecto de BigQuery existente y ubicarás el conjunto de datos de Fintech.
- Abre BigQuery en la consola de Google Cloud.
- Localiza el conjunto de datos de Fintech. Este es el conjunto de datos que usarás para la próxima tarea.
Tarea 2: Explora los datos de Fintech
El conjunto de datos de Fintech contiene la información de préstamos que se puede usar para responder las preguntas comerciales de Trevor. Un dato clave es la cantidad total de préstamos.
En esta tarea, explorarás las tablas del conjunto de datos de Fintech para encontrar la tabla y la columna que contiene el importe total de los préstamos. Esta información es importante para ayudar a Trevor a hacer seguimiento del flujo de dinero de la empresa.
- Abre cada tabla del conjunto de datos de Fintech.
- Usa la pestaña Detalles para obtener más información sobre cada tabla.
- Usa la pestaña Esquema para identificar qué columnas se incluyen en cada tabla y el tipo de datos de cada columna.
- Usa la pestaña Vista previa para ver una vista previa de los datos. Ubica la columna con el importe de los préstamos para verificar que tenga la información que necesitas.
Trevor explica que cuando TheLook Fintech otorga préstamos a sus clientes, la fecha en que el dinero está disponible para el cliente se conoce como la fecha de "emisión". Este es otro dato clave que necesitarás para ayudar al equipo de Trevor a realizar un seguimiento del importe total de dinero que sale cada día o mes.
Ubica la tabla en el conjunto de datos Fintech que tiene la fecha en la que se emitió cada préstamo y, luego, responde las preguntas siguientes.
Tarea 3: Importa un archivo CSV y crea una tabla estándar
La mayor parte de los datos necesarios para el análisis se encuentran en el conjunto de datos Fintech, pero algunos se deben recopilar de otra fuente. Trevor proporcionó un archivo CSV que asocia los estados de EE.UU. a regiones y subregiones. Esta información clave ayudará a Trevor a hacer seguimiento de los préstamos según el estado o la región en la que el prestamista obtuvo el préstamo.
El archivo CSV está ubicado en Cloud Storage en la siguiente ubicación:
A continuación, hay un ejemplo de los datos que contiene el archivo CSV:
En esta tarea, importarás el archivo CSV en BigQuery y lo almacenarás como una tabla estándar.
- Revisa el código siguiente que usarás para importar el archivo CSV. Luego, responde las preguntas a continuación.
-
Copia y pega el comando siguiente a la pestaña Sin título para crear la tabla estándar con los datos del archivo CSV.
-
Haz clic en Ejecutar.
Luego, revisa la tabla que creaste y compárala con el archivo CSV original:
-
En el panel Explorador, selecciona la tabla state_region. Si la tabla no se muestra, es posible que debas actualizar el conjunto de datos.
-
Haz clic en la pestaña Vista previa y examina los datos que acabas de importar en BigQuery.
Haz clic en Revisar mi progreso para verificar que completaste esta tarea correctamente.
Tarea 4: Une datos de dos tablas
Ahora que exploraste y recopilaste los datos que necesitas, todo está listo para que los proceses y, así, te asegures de que sean útiles en el análisis.
Trevor quiere un solo informe que incluya loan_id, loan_amount y el nombre de region. Pero esta información está actualmente en dos tablas.
En esta tarea, identificarás las tablas que contienen las columnas que necesitas y usarás SQL para unir las dos tablas y crear el informe.
- Revisa las tablas en el conjunto de datos Fintech y, luego, responde las preguntas a continuación.
- En el editor de consultas, ejecuta la Consulta A y la Consulta B, y revisa los resultados. Luego, responde la pregunta a continuación.
Consulta A
Consulta B
Tarea 5: Crea una tabla basada en los resultados de una consulta con CTAS
Trevor quiere realizar un filtrado y análisis adicionales de los datos del informe con Hojas de cálculo de Google.
Pero para hacerlo, primero debes crear una tabla que te permita almacenar los datos.
Una instrucción CTAS, o CREATE TABLE AS SELECT
, es una instrucción de SQL que crea una tabla nueva en función de los resultados de una instrucción SELECT
. Es una herramienta poderosa que puede usarse para crear nuevas tablas con facilidad y rapidez. Las tablas creadas con instrucciones CTAS también se pueden exportar con facilidad en BigQuery para su uso compartido.
En esta tarea, crearás una nueva tabla con CREATE TABLE AS SELECT
y, luego, la conectarás a Hojas de cálculo de Google.
- Copia el siguiente comando y pégalo en el editor de consultas:
CREATE OR REPLACE TABLE
se usa para crear una tabla o reemplazar la existente cada vez que se ejecuta la consulta.-
Haz clic en Ejecutar.
-
Ubica la nueva tabla. Es posible que debas actualizar.
Haz clic en Revisar mi progreso para verificar que completaste esta tarea correctamente.
-
En el panel Explorador, selecciona la tabla loan_with_region recién creada. (Haz clic en Actualizar para actualizar el conjunto de datos si la tabla no se muestra).
-
En la barra de herramientas, haz clic en Exportar y, luego, selecciona Explorar con Hojas de cálculo. Se abrirá una hoja de cálculo que contiene la misma hoja conectada a la tabla loan_with_region.
-
Revisa los datos en la hoja de cálculo de Google.
Ahora podrás compartir la hoja de cálculo de Google con Trevor y ofrecerle la opción de trabajar con los datos en un formato de hoja de cálculo.
Tarea 6: Trabaja con datos anidados
Trevor está investigando las razones principales por las que las personas obtienen préstamos de TheLook Fintech porque descubrió que estas razones son un predictor sólido de la probabilidad de que paguen sus préstamos.
Te pidió que crees un informe sencillo que incluya el propósito que cada prestatario indicó cuando pidió el préstamo. Pero encontrar estos datos puede ser difícil porque se capturan como parte del proceso de solicitud de préstamo y se almacenan en una columna anidada llamada "purpose".
En esta tarea, encontrarás la columna purpose, que está anidada en el registro de la solicitud y ejecutarás una consulta para descubrir por qué los prestatarios obtienen préstamos.
-
En el panel Explorador, selecciona la tabla loan.
-
Selecciona la pestaña Esquema y ubica la columna application.
-
En la pestaña Esquema, haz clic en la flecha desplegable junto a application para expandir el registro.
- Haz clic en la pestaña Vista previa y examina los datos de muestra de la tabla loan.
¿Crees que la consulta siguiente devolverá el propósito de cada préstamo desde la tabla loan?
- Copia el siguiente comando y pégalo en el editor de consultas:
- Haz clic en Ejecutar.
- Copia el siguiente comando y pégalo en el editor de consultas:
- Haz clic en Ejecutar.
Esta consulta devuelve el propósito de cada préstamo de la tabla loan, que Trevor puede usar para examinar las razones más comunes por las que las personas obtienen préstamos de TheLook Fintech.
Se hace referencia a las columnas con registros (o structs) por el nombre del registro, seguido del nombre de la columna, con la notación de puntos. Por ejemplo, para hacer referencia a la columna purpose en el registro application, se usaría la notación application.purpose
.
Haz clic en Revisar mi progreso para verificar que completaste esta tarea correctamente.
Tarea 7: Anula los datos duplicados
Cuando creaste la lista de propósitos de los préstamos para Trevor, parece que algunas de las razones por las que los prestatarios obtienen préstamos aparecen más de una vez.
Por ejemplo, la razón “wedding” aparece varias veces.
Estos son los resultados:
Los datos duplicados son un problema común que enfrentan los analistas de datos en la nube. El proceso de quitar duplicados del conjunto de datos se conoce como anulación de duplicación.
Desafío: Crea una tabla de una sola columna con valores distintos
- Escribe una consulta para crear una tabla denominada
fintech.loan_purposes
, que tenga una sola columna denominadapurpose
con valores distintos para la columnapurpose
en la tablafintech.loan
.
CREATE TABLE AS SELECT
(CTAS).Haz clic en Revisar mi progreso para verificar que completaste esta tarea correctamente.
Tarea 8: Responde preguntas comerciales con un informe
Trevor también necesita un informe con el importe total de los préstamos otorgados por año. En esta tarea, escribirás una consulta que produce esos datos y, luego, crearás una tabla con los resultados.
Trevor explica que le gustaría tener un informe con una estructura similar a esta, que incluya las columnas issue_year y total_amount.
Luego, examina los datos.
- Copia el siguiente comando y pégalo en el editor de consultas:
- Haz clic en Ejecutar.
La consulta devolvería resultados similares a los siguientes:
- Copia el siguiente comando y pégalo en el editor de consultas:
- Haz clic en Ejecutar.
Ten en cuenta que las palabras clave GROUP BY
y la función sum()
se usaron en la consulta.
Desafío: Crea una tabla que recuente los préstamos agrupados por año
Escribe una consulta para crear una tabla denominada loan_count_by_year en el conjunto de datos Fintech, que cuente los préstamos agrupados por issue_year.
Haz clic en Revisar mi progreso para verificar que completaste esta tarea correctamente.
Conclusión
Como analista de datos en la nube en TheLook Fintech, proporcionaste correctamente los datos que Trevor y el Departamento de Tesorería necesitan para comprender mejor el flujo de dinero de la empresa y tomar decisiones comerciales informadas.
Primero, comenzaste explorando los datos para encontrar la información que Trevor solicitó, como el importe total de los préstamos en el conjunto de datos Fintech.
Después, importaste un archivo con una nueva clasificación de estados, que Trevor quería utilizar para cambiar cómo se categorizan los préstamos por región.
Luego, creaste una nueva tabla con los resultados de una consulta, que Trevor usaría para crear un informe que muestre el ID del préstamo, el importe del préstamo y el nombre de la región.
Anulaste la duplicación de los datos para quitar cualquier registro duplicado.
Finalmente, produjiste un informe con el importe total de los préstamos otorgados por día y por año, que Trevor necesitaba para comprender mejor el flujo de dinero de la empresa.
Estás en buen camino en la comprensión sobre cómo recopilar, procesar y almacenar datos para el análisis.
Finaliza el lab
Antes de que finalices el lab, asegúrate de estar conforme con la forma en que completaste todas las tareas. Cuando estés conforme, haz clic en Finalizar Lab y luego haz clic en Enviar.
Finalizar el lab te quitará el acceso al entorno del lab y no podrás volver a acceder al trabajo que completaste.
Copyright 2024 Google LLC. Todos los derechos reservados. Google y el logotipo de Google son marcas de Google LLC. El resto de los nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que están asociados.