arrow_back

Engineer Data for Predictive Modeling with BigQuery ML: Lab de desafío

Unirse Acceder
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Engineer Data for Predictive Modeling with BigQuery ML: Lab de desafío

Lab 1 hora universal_currency_alt 5 créditos show_chart Intermedio
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

GSP327

Labs de autoaprendizaje de Google Cloud

Descripción general

En un lab de desafío, se le proporcionarán una situación y un conjunto de tareas. En lugar de seguir instrucciones paso a paso, deberá utilizar las habilidades aprendidas en los labs de la Quest a fin de decidir cómo completar las tareas por su cuenta. Un sistema de puntuación automatizado (que se muestra en esta página) le proporcionará comentarios acerca de si completó las tareas correctamente.

En un lab de desafío, no se explican conceptos nuevos de Google Cloud, sino que se espera que amplíe las habilidades que adquirió, como cambiar los valores predeterminados y leer o investigar los mensajes de error para corregir sus propios errores.

Debe completar correctamente todas las tareas dentro del período establecido para obtener una puntuación del 100%.

Se recomienda este lab a los estudiantes inscritos en la insignia de habilidad Engineer Data for Predictive Modeling with BigQuery ML. ¿Aceptas el desafío?

Configuración

Antes de hacer clic en el botón Comenzar lab

Lee estas instrucciones. Los labs son cronometrados y no se pueden pausar. El cronómetro, que comienza a funcionar cuando haces clic en Comenzar lab, indica por cuánto tiempo tendrás a tu disposición los recursos de Google Cloud.

Este lab práctico te permitirá realizar las actividades correspondientes en un entorno de nube real, no en uno de simulación o demostración. Para ello, se te proporcionan credenciales temporales nuevas que utilizarás para acceder a Google Cloud durante todo el lab.

Para completar este lab, necesitarás lo siguiente:

  • Acceso a un navegador de Internet estándar (se recomienda el navegador Chrome)
Nota: Usa una ventana de navegador privada o de Incógnito para ejecutar este lab. Así evitarás cualquier conflicto entre tu cuenta personal y la cuenta de estudiante, lo que podría generar cargos adicionales en tu cuenta personal.
  • Tiempo para completar el lab: Recuerda que, una vez que comienzas un lab, no puedes pausarlo.
Nota: Si ya tienes un proyecto o una cuenta personal de Google Cloud, no los uses en este lab para evitar cargos adicionales en tu cuenta.

Situación del desafío

Comenzaste una nueva función como ingeniero de datos en TaxiCab Inc. Se espera que importes algunos datos históricos a un conjunto de datos de trabajo de BigQuery y que crees un modelo básico que prediga tarifas según la información que esté disponible al inicio de un nuevo viaje. Los directivos desean crear una aplicación y estimar el costo de un viaje para los usuarios. Los datos de origen se proporcionarán en tu proyecto.

Se espera que tengas las habilidades y el conocimiento para realizar estas tareas, por lo que no se te proporcionarán guías paso a paso.

Tu desafío

En cuanto te sientas en tu escritorio y abres tu laptop nueva, recibes tu primera tarea: debes crear un modelo básico de predicción de tarifas en BQML para los directivos. Realiza las siguientes tareas para importar y limpiar los datos. Luego, crea el modelo y haz predicciones por lotes con datos nuevos para que los directivos puedan revisar el rendimiento del modelo y tomar la decisión de proceder o no proceder con la implementación de la funcionalidad de la aplicación.

Tarea 1: Limpia tus datos de entrenamiento

Ya completaste el primer paso. Creaste un conjunto de datos llamado taxirides e importaste los datos históricos a la tabla historical_taxi_rides_raw. Estos datos corresponden a viajes que se hicieron antes de 2015.

Nota: Es posible que debas esperar entre 1 y 3 minutos para que los datos se propaguen completamente en tu proyecto.

Para completar esta tarea, deberás hacer lo siguiente:

  • Limpia los datos en historical_taxi_rides_raw y haz una copia de en el mismo conjunto de datos. Puedes usar BigQuery, Dataprep, Dataflow, etc., para crear la tabla y limpiar los datos. Asegúrate de que la columna de destino se llame .

Considera estas sugerencias útiles:

  • Puedes ver el conjunto de datos de origen en la IU de BQ. Familiarízate primero con el esquema de origen.
  • Respecto de los datos disponibles en el momento de la predicción, te sugerimos familiarizarte con la tabla taxirides.report_prediction_data, en la que se muestra el formato que tendrán en ese momento.

Tareas de limpieza de datos:

  • Asegúrese de que el valor de trip_distance sea mayor que .
  • Quita las filas en las que el valor de fare_amount sea muy bajo (por ejemplo, inferior a $.
  • Asegúrese de que las latitudes y longitudes sean razonables para el caso de uso.
  • Asegúrate de que el valor de passenger_count sea mayor que .
  • Asegúrate de agregar los códigos tolls_amount y fare_amount a como variables de destino, ya que total_amount incluye las propinas.
  • Debido a que el conjunto de datos de origen es grande (más de 1,000 millones de filas), toma una muestra que tenga menos de 1 millón de filas.
  • Solo copia campos que se usarán en tu modelo (report_prediction_data es un buen ejemplo).

Haz clic en Revisar mi progreso para verificar el objetivo. Crear una copia nueva de los datos en

Tarea 2: Crea un modelo de BigQuery ML

  1. En función de los datos que tienes en , crea un modelo de BigQuery ML que prediga .

  2. Asígnale el nombre al modelo.

Nota: Tu modelo necesitará una RMSE de 10 o menos para completar la tarea.

Considera estas sugerencias útiles:

  • Puedes encapsular cualquier transformación de datos adicionales en una cláusula TRANSFORM().
  • Ten en cuenta que solo se pasarán al modelo los atributos de la cláusula TRANSFORM(). Puedes usar * EXCEPT(atributo_para_excluir) para pasar algunos o todos los atributos sin llamarlos explícitamente.
  • Las funciones de GIS ST_distance() y ST_GeogPoint() en BigQuery se pueden usar para calcular fácilmente la distancia euclidiana (es decir, qué distancia recorrió el taxi desde el punto de partida hasta el de destino):
ST_Distance(ST_GeogPoint(pickuplon, pickuplat), ST_GeogPoint(dropofflon, dropofflat)) AS euclidean

Haz clic en Revisar mi progreso para verificar el objetivo. Crear un modelo de BigQuery ML con una RMSE de 10 o menos

Tarea 3: Realiza una predicción por lotes sobre los datos nuevos

Los directivos quieren ver el rendimiento de tu modelo cuando se usan datos nuevos; en este caso, todos los datos que recopilaron en 2015. Estos datos se encuentran en taxirides.report_prediction_data. La tabla solo incluye los valores conocidos en el momento de la predicción.

  • Usa ML.PREDICT y tu modelo para predecir el valor de . Luego, almacena los resultados en una tabla llamada 2015_fare_amount_predictions.

Haz clic en Revisar mi progreso para verificar el objetivo. Hacer predicciones por lotes y almacenarlas en una nueva tabla llamada 2015_fare_amount_predictions

¡Felicitaciones!

Insignia de Engineer Data for Predictive Modeling with BigQuery ML

Obtén tu próxima insignia de habilidad

Este lab de autoaprendizaje forma parte de la insignia de habilidad Engineer Data for Predictive Modeling with BigQuery ML. Si completas esta insignia de habilidad, obtendrás la insignia que se muestra arriba como reconocimiento de tu logro. Comparte la insignia en tu currículum y tus plataformas sociales, y anuncia tu logro con el hashtag #GoogleCloudBadge.

Esta insignia de habilidad es parte de la ruta de aprendizaje Data Engineer de Google Cloud. Si ya conseguiste las otras insignias de habilidad de esta ruta de aprendizaje, revisa el catálogo y encuentra otras insignias de habilidad que puedes obtener.

Capacitación y certificación de Google Cloud

Recibe la formación que necesitas para aprovechar al máximo las tecnologías de Google Cloud. Nuestras clases incluyen habilidades técnicas y recomendaciones para ayudarte a avanzar rápidamente y a seguir aprendiendo. Para que puedas realizar nuestros cursos cuando más te convenga, ofrecemos distintos tipos de capacitación de nivel básico a avanzado: a pedido, presenciales y virtuales. Las certificaciones te ayudan a validar y demostrar tus habilidades y tu conocimiento técnico respecto a las tecnologías de Google Cloud.

Última actualización del manual: 25 de marzo de 2024

Prueba más reciente del lab: 11 de septiembre de 2023

Copyright 2024 Google LLC. All rights reserved. Google y el logotipo de Google son marcas de Google LLC. Los demás nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que estén asociados.