arrow_back

Extracción personalizada de documentos con Document AI Workbench

Acceder Unirse
Obtén acceso a más de 700 labs y cursos

Extracción personalizada de documentos con Document AI Workbench

Lab 1 hora universal_currency_alt 5 créditos show_chart Intermedio
info Es posible que este lab incorpore herramientas de IA para facilitar tu aprendizaje.
Obtén acceso a más de 700 labs y cursos

GSP1142

Logotipo de los labs de autoaprendizaje de Google Cloud

Descripción general

Document AI es una solución de comprensión de documentos que toma datos no estructurados, como documentos, correos electrónicos, facturas y formularios, entre otros, y facilita la comprensión, el análisis y el consumo de los datos. La API proporciona una estructura mediante la clasificación de contenido, la extracción de entidades, la búsqueda avanzada y mucho más. Con Document AI Workbench, puedes obtener un mayor nivel de exactitud en el procesamiento de documentos mediante la creación de modelos completamente personalizados con tus propios datos de entrenamiento.

Puedes crear extractores personalizados de documentos (CDE) adaptados específicamente a tus documentos, entrenados y evaluados con tus datos. Este procesador identifica y extrae entidades de tus documentos. Luego, puedes usar el procesador entrenado en documentos adicionales. Por lo general, se utiliza un CDE en documentos que son de un solo tipo, como los formularios de inscripción de tu institución.

En este lab, aprenderás a usar Document AI Workbench para crear y entrenar un extractor personalizado de documentos que procese documentos W-2 (formulario fiscal de EE.UU.). La mayor parte del trabajo de preparación de documentos se realizó para que puedas enfocarte en los demás mecanismos de creación de un CDE.

Objetivos

En este lab, aprenderás a realizar las siguientes tareas:

  • Crear un extractor personalizado de documentos en Document AI Workbench
  • Definir y crear el esquema del procesador
  • Importar documentos
  • Etiquetar los documentos de forma manual en Document AI Workbench
  • Usar la IA generativa para etiquetar documentos automáticamente
  • Iniciar un trabajo de entrenamiento para el procesador

Configuración y requisitos

Antes de hacer clic en el botón Comenzar lab

Lee estas instrucciones. Los labs cuentan con un temporizador que no se puede pausar. El temporizador, que comienza a funcionar cuando haces clic en Comenzar lab, indica por cuánto tiempo tendrás a tu disposición los recursos de Google Cloud.

Este lab práctico te permitirá realizar las actividades correspondientes en un entorno de nube real, no en uno de simulación o demostración. Para ello, se te proporcionan credenciales temporales nuevas que utilizarás para acceder a Google Cloud durante todo el lab.

Para completar este lab, necesitarás lo siguiente:

  • Acceso a un navegador de Internet estándar. Se recomienda el navegador Chrome.
Nota: Usa una ventana del navegador privada o de incógnito (opción recomendada) para ejecutar el lab. Así evitarás conflictos entre tu cuenta personal y la cuenta de estudiante, lo que podría generar cargos adicionales en tu cuenta personal.
  • Tiempo para completar el lab (recuerda que, una vez que comienzas un lab, no puedes pausarlo).
Nota: Usa solo la cuenta de estudiante para este lab. Si usas otra cuenta de Google Cloud, es posible que se apliquen cargos a esa cuenta.

Cómo iniciar tu lab y acceder a la consola de Google Cloud

  1. Haz clic en el botón Comenzar lab. Si debes pagar por el lab, se abrirá un diálogo para que selecciones la forma de pago. A la izquierda, se encuentra el panel Detalles del lab, que tiene estos elementos:

    • El botón para abrir la consola de Google Cloud
    • El tiempo restante
    • Las credenciales temporales que debes usar para el lab
    • Otra información para completar el lab, si es necesaria
  2. Haz clic en Abrir la consola de Google Cloud (o haz clic con el botón derecho y selecciona Abrir el vínculo en una ventana de incógnito si ejecutas el navegador Chrome).

    El lab inicia recursos y abre otra pestaña en la que se muestra la página de acceso.

    Sugerencia: Ordena las pestañas en ventanas separadas, una junto a la otra.

    Nota: Si ves el diálogo Elegir una cuenta, haz clic en Usar otra cuenta.
  3. De ser necesario, copia el nombre de usuario a continuación y pégalo en el diálogo Acceder.

    {{{user_0.username | "Username"}}}

    También puedes encontrar el nombre de usuario en el panel Detalles del lab.

  4. Haz clic en Siguiente.

  5. Copia la contraseña que aparece a continuación y pégala en el diálogo Te damos la bienvenida.

    {{{user_0.password | "Password"}}}

    También puedes encontrar la contraseña en el panel Detalles del lab.

  6. Haz clic en Siguiente.

    Importante: Debes usar las credenciales que te proporciona el lab. No uses las credenciales de tu cuenta de Google Cloud. Nota: Usar tu propia cuenta de Google Cloud para este lab podría generar cargos adicionales.
  7. Haz clic para avanzar por las páginas siguientes:

    • Acepta los Términos y Condiciones.
    • No agregues opciones de recuperación o autenticación de dos factores (esta es una cuenta temporal).
    • No te registres para obtener pruebas gratuitas.

Después de un momento, se abrirá la consola de Google Cloud en esta pestaña.

Nota: Para acceder a los productos y servicios de Google Cloud, haz clic en el menú de navegación o escribe el nombre del servicio o producto en el campo Buscar. Ícono del menú de navegación y campo de búsqueda

Activa Cloud Shell

Cloud Shell es una máquina virtual que cuenta con herramientas para desarrolladores. Ofrece un directorio principal persistente de 5 GB y se ejecuta en Google Cloud. Cloud Shell proporciona acceso de línea de comandos a tus recursos de Google Cloud.

  1. Haz clic en Activar Cloud Shell Ícono de Activar Cloud Shell en la parte superior de la consola de Google Cloud.

  2. Haz clic para avanzar por las siguientes ventanas:

    • Continúa en la ventana de información de Cloud Shell.
    • Autoriza a Cloud Shell para que use tus credenciales para realizar llamadas a la API de Google Cloud.

Cuando te conectes, habrás completado la autenticación, y el proyecto estará configurado con tu Project_ID, . El resultado contiene una línea que declara el Project_ID para esta sesión:

Your Cloud Platform project in this session is set to {{{project_0.project_id | "PROJECT_ID"}}}

gcloud es la herramienta de línea de comandos de Google Cloud. Viene preinstalada en Cloud Shell y es compatible con la función de autocompletado con tabulador.

  1. Puedes solicitar el nombre de la cuenta activa con este comando (opcional):
gcloud auth list
  1. Haz clic en Autorizar.

Resultado:

ACTIVE: * ACCOUNT: {{{user_0.username | "ACCOUNT"}}} To set the active account, run: $ gcloud config set account `ACCOUNT`
  1. Puedes solicitar el ID del proyecto con este comando (opcional):
gcloud config list project

Resultado:

[core] project = {{{project_0.project_id | "PROJECT_ID"}}} Nota: Para obtener toda la documentación de gcloud, en Google Cloud, consulta la guía con la descripción general de gcloud CLI.

Tarea 1: Habilita la API de Document AI

Antes de comenzar a usar Document AI, debes habilitar la API.

  1. En Cloud Shell, ejecuta el siguiente comando para habilitar la API de Document AI.
gcloud services enable documentai.googleapis.com

Deberías ver algo como esto:

Operation "operations/..." finished successfully.
  1. Ejecuta el siguiente comando para instalar las bibliotecas cliente de Python para Document AI.
pip3 install --upgrade google-cloud-documentai

Deberías ver algo como esto:

... Installing collected packages: google-cloud-documentai Successfully installed google-cloud-documentai-2.15.0

Ya está todo listo para usar la API de Document AI.

Habilitar la API de Document AI

Tarea 2: Crea un procesador

Primero, debes crear un procesador de extractor personalizado de documentos para usarlo en este lab.

Primero debes crear una instancia de procesador del analizador de formularios para usarla en la plataforma de Document AI para este instructivo.

  1. En el menú de navegación, selecciona Ver todos los productos. En Inteligencia artificial, selecciona Document AI.

Consola de la descripción general de Document AI

  1. Haz clic en Crear procesador personalizado.

  2. En el cuadro Custom Extractor, haz clic en Crear procesador.

  3. Asígnale el nombre lab-custom-extractor y selecciona la región EE.UU. (Estados Unidos) en la lista.

  4. Haz clic en Crear para crear tu procesador.

Haz clic en Revisar mi progreso para verificar el objetivo.

Crear un procesador

Tarea 3: Define los campos del procesador

Ahora te encuentras en la página Descripción general del procesador del procesador que acabas de crear.

Página de descripción general de la extracción personalizada de documentos

Puedes especificar los campos que quieres que el procesador extraiga y comienza a etiquetar documentos.

  1. Haz clic en la pestaña Comenzar. Aparecerá el menú Campos.

  2. Haz clic en Crear nuevo campo.

  3. Ingresa el nombre en el campo. Selecciona el Tipo de datos y el Caso. Haz clic en Crear. Consulta Define el esquema del procesador para obtener instrucciones detalladas sobre cómo crear y editar un esquema.

  4. Crea cada una de las siguientes etiquetas para el esquema del procesador.

Nombre Tipo de dato Caso
control_number Número Opcional varias veces
employees_social_security_number Número Obligatoria varias veces
employer_identification_number Número Obligatoria varias veces
employers_name_address_and_zip_code Dirección Obligatoria varias veces
federal_income_tax_withheld Dinero Obligatoria varias veces
social_security_tax_withheld Dinero Obligatoria varias veces
social_security_wages Dinero Obligatoria varias veces
wages_tips_other_compensation Dinero Obligatoria varias veces

También puedes crear y usar otros tipos de etiquetas en el esquema del procesador, como casillas de verificación y entidades tabulares. Por ejemplo, los formularios W-2 incluyen las casillas de verificación Empleado legal, Plan de jubilación y Pago por enfermedad de terceros, que también podrías agregar el esquema.

crear y administrar etiquetas para diferentes campos

Haz clic en Revisar mi progreso para verificar el objetivo. Crear etiquetas

Tarea 4: Sube un documento de muestra

Luego, carga un archivo PDF del formulario W-2 de muestra y etiquétalo.

  1. Haz clic en Subir documento de muestra.

  2. En la barra lateral, haz clic en Importa documentos desde Google Cloud Storage.

  3. Para este ejemplo, ingresa el nombre de este bucket en Ruta de acceso fuente. Esto vincula directamente a un documento.

cloud-samples-data/documentai/Custom/W2/PDF/W2_XL_input_clean_2950.pdf
  1. Haz clic en Importar.

Se te redireccionará a la consola de etiquetado.

Tarea 5: Etiqueta un documento

El proceso de seleccionar texto en un documento y aplicar etiquetas se conoce como anotación.

  1. Cuando estés en la consola de etiquetado, verás que muchas de las etiquetas ya se propagaron.

etiquetas generadas en el documento de muestra

Nota: Es posible que los resultados se vean un poco diferentes a la imagen de muestra.
  1. Para usar las etiquetas sugeridas, mantén el puntero sobre cada etiqueta en el panel lateral y haz clic en la marca de verificación para confirmar que la etiqueta sea correcta. Puedes editar los valores si no coinciden con el texto del documento.

  2. En este ejemplo, los valores en la parte inferior del documento no se identificaron automáticamente, por lo que deberás etiquetarlos de forma manual.

  3. De forma predeterminada, usa la herramienta Cuadro delimitador o la herramienta Seleccionar texto para valores de varias líneas para seleccionar el contenido y aplicar la etiqueta.

Nota: La herramienta Seleccionar texto no funciona con todos los valores de texto, por lo que debes usar el Cuadro delimitador si corresponde. También puedes seleccionar campos que no sean de texto, como casillas de verificación, con la herramienta Cuadro delimitador.
  1. En este ejemplo, se seleccionó el valor de wages_tips_other_compensation con la herramienta Cuadro delimitador y se aplicó esa etiqueta.

seleccionar salarios con la herramienta cuadro delimitador

  1. Revisa los valores de texto detectados para asegurarte de que reflejen el texto correcto del documento.

El documento W-2 etiquetado debería verse de la siguiente manera cuando se complete:

Documento W-2 etiquetado

  1. Si es necesario, puedes hacer clic en Crear nuevo campo para agregar un nuevo campo al esquema desde esta página.

  2. Haz clic en Marcar como etiquetado cuando termines de etiquetar el documento.

Se te redireccionará a la pestaña Comenzar.

Tarea 6: Compila la versión del procesador con el modelo de base

Después de etiquetar un solo documento, puedes crear una versión del procesador con el modelo de base previamente entrenado para extraer entidades.

  1. Haz clic en la pestaña Compilación (Build).

haz clic en la pestaña compilación

  1. En Modelo de base de llamadas (Call foundation model), haz clic en Crear versión nueva (Create new version).

  2. Ingresa un nombre para la versión del procesador, como w2-foundation-model.

  3. Haz clic en Crear. La creación tarda unos minutos.

Nota: Una vez que creas una versión del procesador, no puedes borrar los campos que creaste. Si ya no los necesitas, puedes inhabilitarlos en la página de campos.
  1. Opcional: Haz clic en la pestaña Implementación y uso. En esta página, puedes ver las versiones de procesadores disponibles y el estado de implementación de la versión nueva.

Probarás y evaluarás esta versión más adelante en el lab.

Haz clic en Revisar mi progreso para verificar el objetivo.

Compilar la versión del procesador con el modelo de base

Tarea 7: Usar la IA generativa para etiquetar documentos automáticamente

El modelo de base puede extraer campos con precisión para una variedad de tipos de documentos, pero también puedes proporcionar datos de entrenamiento adicionales para mejorar la exactitud del modelo para estructuras de documentos específicas.

Document AI Workbench usa los nombres de etiquetas que tú defines y las anotaciones anteriores para que sea más fácil y rápido etiquetar documentos a gran escala con el etiquetado automático.

  1. Ve a la página Compilación.

  2. Haz clic en Importar documentos.

  3. En la barra lateral, haz clic en Importa documentos desde Google Cloud Storage.

  4. Ingresa este nombre de bucket en Ruta de acceso fuente. Contiene archivos PDF del formulario W-2 sin etiquetar.

cloud-samples-data/documentai/Custom/W2/AutoLabel
  1. En la lista División de datos, selecciona División automática. Esto divide automáticamente los documentos para tener un 80% en el conjunto de entrenamiento y un 20% en el conjunto de prueba.

  2. En la sección Etiquetado automático, selecciona la casilla de verificación Importar con etiquetado automático.

  3. Selecciona la versión del procesador del modelo de base que acabas de crear para etiquetar los documentos.

  4. Haz clic en Importar y espera a que los documentos se importen. Puedes salir de esta página y volver más tarde.

  5. Debes verificar los documentos etiquetados automáticamente antes de poder usarlos para entrenamiento o pruebas. Haz clic en Comenzar a etiquetar para ver los documentos etiquetados automáticamente.

  6. Para usar las etiquetas sugeridas, mantén el puntero sobre cada anotación y haz clic en la marca de verificación para confirmar que la etiqueta sea correcta. Puedes editar los valores si no coinciden con el texto del documento.

  7. Haz clic en Marcar como etiquetado cuando termines de etiquetar el documento.

  8. Repite el proceso para cada documento etiquetado automáticamente. En este instructivo, puedes omitir cualquier documento que no se haya etiquetado automáticamente de forma correcta.

Tarea 8: Importa documentos de entrenamiento etiquetados previamente

En este lab, se proporcionan datos etiquetados previamente. Si trabajas en tu propio proyecto, deberás determinar cómo etiquetar tus datos. Consulta Opciones de etiquetado para obtener más detalles. En general, una mayor cantidad de datos de entrenamiento produce una mayor exactitud.

  1. Ve a la página Compilación.

  2. Haz clic en Importar documentos.

  3. En la barra lateral, haz clic en Importa documentos desde Google Cloud Storage.

  4. Ingresa la siguiente ruta en Ruta de acceso fuente. Este bucket contiene documentos etiquetados previamente en el formato de Documento JSON.

cloud-samples-data/documentai/Custom/W2/JSON-2
  1. En la lista División de datos, selecciona División automática. Esto divide automáticamente los documentos para tener un 80% en el conjunto de entrenamiento y un 20% en el conjunto de prueba. Deja desmarcada la opción Importar con etiquetado automático.

  2. Haz clic en Importar. La importación tarda varios minutos.

  3. Opcional: En la página Compilación, puedes acceder a la consola de Administrar conjunto de datos para ver y editar todos los documentos y etiquetas del conjunto de datos.

Tarea 9: Entrena el procesador

Ahora que tienes suficientes datos de entrenamiento y prueba, puedes entrenar el procesador. Dado que el entrenamiento puede tardar varias horas, asegúrate de haber configurado el procesador con los datos y las etiquetas correspondientes antes de comenzar el entrenamiento.

  1. En Entrenar un modelo personalizado, haz clic en Crear versión nueva.

    Si no se puede hacer clic en Crear versión nueva, haz clic en Ver todos los requisitos para obtener información sobre los requisitos del conjunto de datos.

  2. En el campo Nombre de la versión, ingresa un nombre para esta versión del procesador, como w2-custom-model.

  3. Opcional: Haz clic en Ver estadísticas de etiquetas para buscar información sobre las etiquetas de documentos. Esto puede ayudarte a determinar tu cobertura. Haz clic en Cerrar para volver a la configuración de entrenamiento.

  4. En Método de entrenamiento de modelos, selecciona Basado en modelos.

  5. Haz clic en Comenzar el entrenamiento.

  6. Opcional: Haz clic en la pestaña Implementación y uso (Deploy & Use). En esta página, puedes ver las versiones de procesadores disponibles y el estado de entrenamiento de la versión nueva.

ver el estado de entrenamiento del procesador personalizado

Haz clic en Revisar mi progreso para verificar el objetivo.

Entrenar el modelo

¡Genial! Ya comenzaste a entrenar tu primer procesador de Document AI personalizado. Como el trabajo de entrenamiento tardará unas horas, aquí termina el lab. Si te interesa aprender a implementar y probar la versión del modelo, puedes consultar la siguiente sección en la documentación.

¡Felicitaciones!

Felicitaciones, en este lab usaste Document AI de forma correcta para crear un procesador de extracción personalizada de documentos, importar un conjunto de datos y etiquetar documentos de ejemplo. Ahora puedes usar este procesador para analizar documentos en este formato como lo harías con cualquier procesador especializado. También puedes usar este procesador para etiquetar documentos nuevos con el etiquetado automático, así como usar Document AI Workbench para administrar tus datos de entrenamiento y trabajos de entrenamiento.

Próximos pasos y más información

Consulta los siguientes recursos para obtener más información sobre Document AI y la biblioteca cliente de Python:

Capacitación y certificación de Google Cloud

Recibe la formación que necesitas para aprovechar al máximo las tecnologías de Google Cloud. Nuestras clases incluyen habilidades técnicas y recomendaciones para ayudarte a avanzar rápidamente y a seguir aprendiendo. Para que puedas realizar nuestros cursos cuando más te convenga, ofrecemos distintos tipos de capacitación de nivel básico a avanzado: a pedido, presenciales y virtuales. Las certificaciones te ayudan a validar y demostrar tus habilidades y tu conocimiento técnico respecto a las tecnologías de Google Cloud.

Última actualización del manual: 17 de marzo de 2025

Prueba más reciente del lab: 17 de marzo de 2025

Copyright 2025 Google LLC. All rights reserved. Google y el logotipo de Google son marcas de Google LLC. Los demás nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que estén asociados.

Antes de comenzar

  1. Los labs crean un proyecto de Google Cloud y recursos por un tiempo determinado
  2. .
  3. Los labs tienen un límite de tiempo y no tienen la función de pausa. Si finalizas el lab, deberás reiniciarlo desde el principio.
  4. En la parte superior izquierda de la pantalla, haz clic en Comenzar lab para empezar

Usa la navegación privada

  1. Copia el nombre de usuario y la contraseña proporcionados para el lab
  2. Haz clic en Abrir la consola en modo privado

Accede a la consola

  1. Accede con tus credenciales del lab. Si usas otras credenciales, se generarán errores o se incurrirá en cargos.
  2. Acepta las condiciones y omite la página de recursos de recuperación
  3. No hagas clic en Finalizar lab, a menos que lo hayas terminado o quieras reiniciarlo, ya que se borrará tu trabajo y se quitará el proyecto

Este contenido no está disponible en este momento

Te enviaremos una notificación por correo electrónico cuando esté disponible

¡Genial!

Nos comunicaremos contigo por correo electrónico si está disponible

Un lab a la vez

Confirma para finalizar todos los labs existentes y comenzar este

Usa la navegación privada para ejecutar el lab

Usa una ventana de navegación privada o de Incógnito para ejecutar el lab. Así evitarás cualquier conflicto entre tu cuenta personal y la cuenta de estudiante, lo que podría generar cargos adicionales en tu cuenta personal.