Ekinox
Tools

Mistral Parser

Extraer texto de documentos PDF

La herramienta Mistral Parse proporciona una forma potente de extraer y procesar contenido de documentos PDF utilizando la API de OCR de Mistral. Esta herramienta aprovecha el reconocimiento óptico de caracteres avanzado para extraer con precisión texto y estructura de archivos PDF, facilitando la incorporación de datos de documentos en los flujos de trabajo de tus agentes.

Con la herramienta Mistral Parse, puedes:

  • Extraer texto de PDFs: Convertir con precisión el contenido de PDF a formatos de texto, markdown o JSON
  • Procesar PDFs desde URLs: Extraer directamente contenido de PDFs alojados en línea proporcionando sus URLs
  • Mantener la estructura del documento: Preservar el formato, tablas y diseño de los PDFs originales
  • Extraer imágenes: Incluir opcionalmente imágenes incrustadas de los PDFs
  • Seleccionar páginas específicas: Procesar solo las páginas que necesitas de documentos de múltiples páginas

La herramienta Mistral Parse es particularmente útil para escenarios donde tus agentes necesitan trabajar con contenido PDF, como analizar informes, extraer datos de formularios o procesar texto de documentos escaneados. Simplifica el proceso de hacer que el contenido PDF esté disponible para tus agentes, permitiéndoles trabajar con información almacenada en PDFs tan fácilmente como con entrada de texto directa.

Instrucciones de uso

Integra Mistral Parse en el flujo de trabajo. Puede extraer texto de documentos PDF cargados o de una URL. Requiere clave API.

Herramientas

mistral_parser

Analizar documentos PDF utilizando la API de OCR de Mistral

Entrada

ParámetroTipoObligatorioDescripción
filePathstringURL a un documento PDF para ser procesado
fileUploadobjectNoDatos de carga de archivo desde el componente de carga de archivos
resultTypestringNoTipo de resultado analizado (markdown, texto o json). Por defecto es markdown.
includeImageBase64booleanNoIncluir imágenes codificadas en base64 en la respuesta
pagesarrayNoPáginas específicas para procesar (array de números de página, comenzando desde 0)
imageLimitnumberNoNúmero máximo de imágenes para extraer del PDF
imageMinSizenumberNoAltura y anchura mínimas de las imágenes para extraer del PDF
apiKeystringClave API de Mistral (MISTRAL_API_KEY)

Salida

ParámetroTipoDescripción
successbooleanIndica si el PDF se analizó correctamente
contentstringContenido extraído en el formato solicitado (markdown, texto o JSON)
metadataobjectMetadatos de procesamiento que incluyen jobId, fileType, pageCount e información de uso

Notas

  • Categoría: tools
  • Tipo: mistral_parse
Mistral Parser