🚀 Gemini 2.5 Pro OCR
Test Complet et Analyse Comparative des Capacités d’Extraction de Données
📋 Résumé Exécutif
- Gemini 2.5 Pro possède le score d’intelligence le plus élevé en matière de raisonnement visuel
- Tests effectués sur plus de 200 fichiers (images, PDFs, reçus variés)
- Comparaison approfondie avec Google Cloud Vision API
- Intégration réussie dans un workflow N8N pour l’automatisation
- Précision exceptionnelle sur des données non structurées
🎯 Objectif de la Vidéo
Cette vidéo présente une analyse complète du système OCR de Gemini 2.5 Pro, en testant ses capacités avec différents cas d’usage et un large volume de données. L’objectif est d’évaluer la précision de Gemini 2.5 Pro dans l’extraction d’informations à partir de documents non structurés.
⚖️ Gemini 2.5 Pro vs Google Cloud Vision API
| Caractéristique | Google Cloud Vision API | Gemini 2.5 Pro |
|---|---|---|
| Spécialisation | Tâches spécialisées et prédéfinies | Modèle multimodal à usage général |
| Performance | Rapide et économique pour tâches pré-entraînées | Polyvalent pour données non structurées variées |
| Cas d’usage | Données structurées et prévisibles | Fichiers, images, PDFs variés et non structurés |
| Flexibilité | Limitée aux formats connus | Haute adaptabilité aux formats variés |
🧪 Tests et Résultats
📍 Test 1 : Reçu Home Depot (Google AI Studio)
✅ Résultats
Données extraites avec succès :
- Emplacement du magasin
- Montant payé
- Date d’achat
- Mode de paiement
Précision : Excellente
💾 Test 2 : Extraction via Google Drive
✅ Résultats Détaillés
Informations extraites :
- Nom du magasin
- Nom du gérant et du caissier
- Date et heure de la transaction
- Détails des transactions
- Montant total payé
- Numéro de séquence
- Mode de paiement
📄 Tests sur Documents Complexes
📝 Reçu avec texte peu clair
Texte flou et papier froissé
Montant total : 25.442 $
Extraction réussie
✏️ Reçu avec ratures
Total rayé au stylo
Montant détecté : 1534.01 $
Détection précise
📋 Reçu froissé
Adresse pliée sur plusieurs lignes
Référence : 2F2370
Lecture correcte
🌍 Langue étrangère
Reçu en langue étrangère
Reconnaissance parfaite
🎯 Reçu complexe (échec Vision API)
Total : 9.43 $
Pourboire + GST/HST : Tous extraits
100% précis
Google Vision API échouait systématiquement sur ce document
🔤 Abréviations
Reconnaissance de « CHK » comme numéro de chèque
Interprétation intelligente
🔧 Intégration dans N8N
📊 Architecture du Workflow
Le workflow « Invoice AI Agents » a été adapté pour utiliser Gemini 2.5 Pro à la place de Google Vision API.
Étape 1 : Réception des fichiers
📥 Fichiers PDF ou images (reçus/factures)
Étape 2 : Extraction OCR
🔍 Gemini 2.5 Pro extrait le texte des images ou PDFs
Étape 3 : Analyse par LLM
🤖 Extraction des informations clés : montant, fournisseur, taxes, mode de paiement
Étape 4 : Export vers Google Sheets
📊 Les données sont organisées dans un tableau Google Sheets
Étape 5 : Gestion des fichiers
🗂️ Déplacement et renommage automatique des fichiers traités
🔑 Configuration de l’API
Accès à l’API :
- Naviguer vers Google AI Studio
- Cliquer sur « Get API Key » dans la barre latérale
- Créer une clé API (ex: « invoice AI agents »)
- Intégrer la clé dans N8N
⚙️ Appel API – Structure
URL d’endpoint : API Gemini avec clé en paramètre de requête
Corps de la requête (JSON) :
parts: Tableau contenant :- Prompt : « Extraire le contenu en conservant le format original »
- Image data : Fichier converti en base64
generationConfig: Température et tokens maximum
📝 Exemple de Traitement
📄 Image traitée
✓ Texte extrait avec formatage original
✓ Données passées au LLM
📊 Google Sheets
Colonnes remplies :
- Date de facture
- Date de traitement
- ID reçu
- Fournisseur
- Catégorie
- Montant total
- Taxes (GST/PST)
- Mode de paiement
📁 PDF traité
✓ Extraction réussie
✓ Ajout à Google Sheets
✓ Fichier renommé et archivé
📈 Tests à Grande Échelle
Pour évaluer la robustesse du système, des tests ont été effectués sur un volume important de données.
🔄 Configuration du Test
Déclencheur programmé :
- ✓ Exécution automatique toutes les 5 minutes
- ✓ Récupération d’un fichier dans le dossier « non traité »
- ✓ Traitement complet via le workflow
- ✓ Ajout automatique à Google Sheets
✅ Résultats du Test à Grande Échelle
📊 Exemple de validation : Reçu McDonald’s
Données extraites :
- Total : 6.92 $ ✓
- Sous-total : 6.59 $ ✓
- Date : 20 octobre, 21h00 ✓
Validation : 100% de correspondance
Vérification effectuée en comparant les données dans Google Sheets avec le reçu original via Google Drive.
📦 Accès aux Workflows N8N
Les workflows présentés dans cette vidéo sont disponibles via un lien Google Drive dans la description de la vidéo.
🎁 Contenu inclus :
- ✓ Workflow actuel avec Gemini 2.5 Pro OCR
- ✓ Workflow d’agents IA pour factures
- ✓ Version avec Google Vision API
- ✓ 4 workflows complets au total
Lien disponible en description
🎓 Conclusion
Gemini 2.5 Pro OCR s’impose comme une solution de référence pour l’extraction de données à partir de documents non structurés. Ses performances surpassent largement Google Cloud Vision API dans les scénarios complexes impliquant :
- ✅ Documents de qualité variable ou dégradée
- ✅ Textes partiellement masqués ou raturés
- ✅ Formats non standardisés
- ✅ Langues étrangères
- ✅ Abréviations et contextes ambigus
