OCR Mistral & N8N

Automatisation d’extraction de données depuis PDF et images

👋 Introduction

Cette vidéo présente une solution d’automatisation innovante utilisant l’OCR de Mistral couplé à N8N pour extraire automatiquement des informations depuis des PDF et des images, notamment des photos prises par téléphone.

À propos de Kum IA

Kum IA est une agence d’automatisation et de solutions IA spécialisée dans l’automatisation de processus métiers pour les professionnels :

Extraction de données
SEO
Marketing
Tâches administratives

🎯 Contexte et Besoin Client

Problématique initiale

Une agence de voyage devait traiter environ 40 passeports par départ. Le processus manuel comprenait :

Consultation visuelle de chaque scan de passeport
Extraction manuelle des informations
Saisie dans Google Sheets

⚠️ Problèmes identifiés

Erreurs fréquentes dues à la fatigue
Temps de traitement considérable
Processus répétitif et fastidieux

📋 Données à extraire

Pays d’émission
Numéro de passeport
Nationalité du passager
Date de naissance

Solution proposée : Automatisation semi-automatique avec validation humaine pour garantir la fiabilité tout en réduisant drastiquement le temps de traitement.

🏗️ Architecture du Workflow

Structure Google Drive

Trois dossiers principaux organisent le flux de traitement :

📁 À traiter

Contient les passeports en attente de traitement OCR

❌ Non validé

Stocke les scans dont l’OCR a échoué

✅ Validé

Archive les scans traités avec succès

⚠️ Important : Cette vidéo ne vise pas à reproduire ce workflow spécifique, mais à apprendre à utiliser l’OCR de Mistral sur N8N avec une gestion optimale des erreurs et des connexions API.

🔧 Configuration de l’API Mistral

Étapes de configuration

Accéder à la documentation Mistral et naviguer vers la section Basic OCR
Trouver la section « Upload a file » et copier le CURL
Importer le CURL dans N8N via l’option d’import
Configurer l’authentification de manière sécurisée

⚠️ Sécurité : Ne jamais mettre sa clé API directement dans la requête ! Utiliser le système d’authentification Header de N8N.

Configuration de l’authentification

Dans N8N, aller sur Authentication → Generic Credential Type → Header Authentication
Définir le nom : Authorization
Se rendre sur console.mistral.ai
Créer une nouvelle clé API dans la section dédiée
Copier la clé générée
Dans la valeur, entrer : Bearer [VOTRE_CLÉ_API]

Authorization: Bearer sk-xxxxxxxxxxxxxxxxxxxxx

⚙️ Workflow Technique Détaillé

1. Récupération des fichiers

Connexion à Google Drive via N8N
Recherche du dossier « À traiter »
Récupération des IDs de chaque fichier à traiter
Enregistrement du scan de passeport en utilisant l’ID récupéré

2. Upload vers Mistral

Première requête HTTP vers l’API Mistral pour uploader le fichier
Utilisation du Header Authentication configuré précédemment
Réception d’un ID de fichier uploadé en réponse

3. Détection du type de fichier

Un code JavaScript détermine l’extension du fichier :

PDF : traitement avec l’endpoint OCR PDF
Images (PNG, JPEG, etc.) : traitement avec l’endpoint OCR Image

4. Obtention de l’URL signé

Retour à la documentation Mistral section « Get signed URL »
Import du CURL dans N8N
Configuration avec l’ID du fichier uploadé précédemment
Génération d’une URL signée pour télécharger le fichier

5. Traitement OCR conditionnel

📄 Pour les PDF

Utilisation de l’endpoint OCR with PDF

Import du CURL depuis la doc
Configuration du Header Auth
Injection de l’URL signée dans le JSON

🖼️ Pour les images

Utilisation de l’endpoint OCR with Image

Import du CURL depuis la doc
Configuration du Header Auth
Injection de l’URL signée dans image_url

📊 Extraction et Structuration des Données

Output de l’OCR

L’OCR retourne toutes les données détectées au format Markdown, incluant :

République française
Type de passeport
Informations personnelles (nom, prénom, etc.)
Numéros et codes
Dates

💪 Puissance de l’OCR : Même si l’image n’est pas optimale (présence de photos superposées, qualités variables), l’OCR Mistral parvient à extraire les informations avec précision.

Nœud « Extract Information »

Récupération du texte Markdown généré par l’OCR
Utilisation de « Generate from example » pour définir la structure souhaitée
Création d’un exemple avec GPT pour guider l’extraction
Configuration du système prompt pour optimiser la compréhension
Utilisation de GPT-4o pour sa puissance d’analyse

Exemple de données extraitesCode pays
Numéro de passeport (9 caractères)
Nom et prénom
Date de naissance
Nationalité

⚠️ Gestion des erreurs : L’OCR peut faire des erreurs, notamment si la qualité de l’image est faible ou si le document source contient des anomalies. C’est pourquoi une validation humaine reste nécessaire dans le processus.

💡 Principe Fondamental

Qualité des données en IA

Plus la qualité de la donnée en INPUT est bonne, plus la qualité de l’OUTPUT sera bonne.

C’est une règle universelle dans toute automatisation utilisant l’intelligence artificielle.
La qualité des scans, la netteté des images, et la clarté des documents impactent directement
la précision de l’extraction.

🎬 Conclusion

Cette vidéo a démontré comment utiliser efficacement l’OCR de Mistral avec N8N pour créer des workflows d’automatisation puissants.

✨ Points clés

Configuration sécurisée de l’API
Gestion des différents formats
Optimisation des erreurs
Validation semi-automatique

🚀 Applications

Documents d’identité
Factures et reçus
Formulaires administratifs
Tout document structuré

🎯 Objectif atteint : L’OCR de Mistral s’est révélé très puissant sur des passeports,
documents complexes comportant des images et différentes tailles d’écriture.

🎥 Regarder la vidéo complète

Romain Cochard

4 juin 2026 à 23h05

Super retour Laurent (et Zakaria). Sur des passeports l’OCR Mistral est clairement le bon choix, parce que c’est de la photo. Petit complement pour ceux qui voudraient adapter ca aux factures: avant de degainer l’OCR, testez un simple pdftotext (Poppler). Une facture fournisseur est tres souvent un PDF natif avec du texte selectionnable, et la pdftotext sort le texte propre en une commande, sans cout d’API et sans erreur d’OCR sur les montants. Tu gardes l’OCR Mistral en fallback seulement quand pdftotext renvoie un texte vide, donc un PDF scanne ou une photo. Deux autres pieges qu’on voit en prod sur les factures: forcer un schema JSON strict en sortie de GPT et verifier que TTC = HT + TVA avant d’ecrire la ligne (sinon un mauvais parsing passe en silence), et dedupliquer sur numero de facture + fournisseur, parce qu’une meme facture arrive souvent deux fois (email + transfert compta). On a package ce workflow d’extraction de factures cote n8n si ca peut servir de base.

Répondre

👋 Introduction

À propos de Kum IA

🎯 Contexte et Besoin Client

Problématique initiale

⚠️ Problèmes identifiés

📋 Données à extraire

🏗️ Architecture du Workflow

Structure Google Drive

📁 À traiter

❌ Non validé

✅ Validé

🔧 Configuration de l’API Mistral

Étapes de configuration

Configuration de l’authentification

⚙️ Workflow Technique Détaillé

1. Récupération des fichiers

2. Upload vers Mistral

3. Détection du type de fichier

4. Obtention de l’URL signé

5. Traitement OCR conditionnel

📄 Pour les PDF

🖼️ Pour les images

📊 Extraction et Structuration des Données

Output de l’OCR

Nœud « Extract Information »

Exemple de données extraites

💡 Principe Fondamental

Qualité des données en IA

🎬 Conclusion

✨ Points clés

🚀 Applications

🎥 Regarder la vidéo complète

1 réflexion sur “OCR Mistral & N8N”

Laisser un commentaire Annuler la réponse

👋 Introduction

À propos de Kum IA

🎯 Contexte et Besoin Client

Problématique initiale

⚠️ Problèmes identifiés

📋 Données à extraire

🏗️ Architecture du Workflow

Structure Google Drive

📁 À traiter

❌ Non validé

✅ Validé

🔧 Configuration de l’API Mistral

Étapes de configuration

Configuration de l’authentification

⚙️ Workflow Technique Détaillé

1. Récupération des fichiers

2. Upload vers Mistral

3. Détection du type de fichier

4. Obtention de l’URL signé

5. Traitement OCR conditionnel

📄 Pour les PDF

🖼️ Pour les images

📊 Extraction et Structuration des Données

Output de l’OCR

Nœud « Extract Information »

Exemple de données extraites

💡 Principe Fondamental

Qualité des données en IA

🎬 Conclusion

✨ Points clés

🚀 Applications

🎥 Regarder la vidéo complète

Vous pourriez aimer

1 réflexion sur “OCR Mistral & N8N”

Laisser un commentaire Annuler la réponse