Gemini 2.5 Pro OCR : Test Complet et Comparaison

🚀 Gemini 2.5 Pro OCR

Test Complet et Analyse Comparative des Capacités d’Extraction de Données

📋 Résumé Exécutif

  • Gemini 2.5 Pro possède le score d’intelligence le plus élevé en matière de raisonnement visuel
  • Tests effectués sur plus de 200 fichiers (images, PDFs, reçus variés)
  • Comparaison approfondie avec Google Cloud Vision API
  • Intégration réussie dans un workflow N8N pour l’automatisation
  • Précision exceptionnelle sur des données non structurées

🎯 Objectif de la Vidéo

Cette vidéo présente une analyse complète du système OCR de Gemini 2.5 Pro, en testant ses capacités avec différents cas d’usage et un large volume de données. L’objectif est d’évaluer la précision de Gemini 2.5 Pro dans l’extraction d’informations à partir de documents non structurés.

🔍 Point clé : Gemini 2.5 Pro sera testé en remplacement de Google Vision API dans un workflow d’agents de facturation précédemment construit.

⚖️ Gemini 2.5 Pro vs Google Cloud Vision API

CaractéristiqueGoogle Cloud Vision APIGemini 2.5 Pro
SpécialisationTâches spécialisées et prédéfiniesModèle multimodal à usage général
PerformanceRapide et économique pour tâches pré-entraînéesPolyvalent pour données non structurées variées
Cas d’usageDonnées structurées et prévisiblesFichiers, images, PDFs variés et non structurés
FlexibilitéLimitée aux formats connusHaute adaptabilité aux formats variés
💡 Conclusion : Gemini 2.5 Pro excelle dans le traitement de données non structurées et variées, là où Google Cloud Vision API est optimisé pour des tâches spécifiques et répétitives.

🧪 Tests et Résultats

📍 Test 1 : Reçu Home Depot (Google AI Studio)

✅ Résultats

Données extraites avec succès :

  • Emplacement du magasin
  • Montant payé
  • Date d’achat
  • Mode de paiement

Précision : Excellente

💾 Test 2 : Extraction via Google Drive

✅ Résultats Détaillés

Informations extraites :

  • Nom du magasin
  • Nom du gérant et du caissier
  • Date et heure de la transaction
  • Détails des transactions
  • Montant total payé
  • Numéro de séquence
  • Mode de paiement
🎯 Avantage majeur : Le même reçu mal interprété par Google Vision API (confusion entre 2025 et 2023) a été parfaitement analysé par Gemini 2.5 Pro.

📄 Tests sur Documents Complexes

📝 Reçu avec texte peu clair

Texte flou et papier froissé

Montant total : 25.442 $

Extraction réussie

✏️ Reçu avec ratures

Total rayé au stylo

Montant détecté : 1534.01 $

Détection précise

📋 Reçu froissé

Adresse pliée sur plusieurs lignes

Référence : 2F2370

Lecture correcte

🌍 Langue étrangère

Reçu en langue étrangère

Reconnaissance parfaite

🎯 Reçu complexe (échec Vision API)

Total : 9.43 $

Pourboire + GST/HST : Tous extraits

100% précis

Google Vision API échouait systématiquement sur ce document

🔤 Abréviations

Reconnaissance de « CHK » comme numéro de chèque

Interprétation intelligente

🏆 Performance globale : Gemini 2.5 Pro surpasse nettement Google Vision API sur les données non structurées, avec une capacité remarquable à gérer les imperfections (ratures, plis, qualité d’impression variable).

🔧 Intégration dans N8N

📊 Architecture du Workflow

Le workflow « Invoice AI Agents » a été adapté pour utiliser Gemini 2.5 Pro à la place de Google Vision API.

Étape 1 : Réception des fichiers

📥 Fichiers PDF ou images (reçus/factures)

Étape 2 : Extraction OCR

🔍 Gemini 2.5 Pro extrait le texte des images ou PDFs

Étape 3 : Analyse par LLM

🤖 Extraction des informations clés : montant, fournisseur, taxes, mode de paiement

Étape 4 : Export vers Google Sheets

📊 Les données sont organisées dans un tableau Google Sheets

Étape 5 : Gestion des fichiers

🗂️ Déplacement et renommage automatique des fichiers traités

🔑 Configuration de l’API

Accès à l’API :

  1. Naviguer vers Google AI Studio
  2. Cliquer sur « Get API Key » dans la barre latérale
  3. Créer une clé API (ex: « invoice AI agents »)
  4. Intégrer la clé dans N8N

⚙️ Appel API – Structure

URL d’endpoint : API Gemini avec clé en paramètre de requête

Corps de la requête (JSON) :

  • parts : Tableau contenant :
    • Prompt : « Extraire le contenu en conservant le format original »
    • Image data : Fichier converti en base64
  • generationConfig : Température et tokens maximum

📝 Exemple de Traitement

📄 Image traitée

✓ Texte extrait avec formatage original

✓ Données passées au LLM

📊 Google Sheets

Colonnes remplies :

  • Date de facture
  • Date de traitement
  • ID reçu
  • Fournisseur
  • Catégorie
  • Montant total
  • Taxes (GST/PST)
  • Mode de paiement

📁 PDF traité

✓ Extraction réussie

✓ Ajout à Google Sheets

✓ Fichier renommé et archivé

📈 Tests à Grande Échelle

Pour évaluer la robustesse du système, des tests ont été effectués sur un volume important de données.

200+
Fichiers traités
5 min
Intervalle de traitement
24h
Durée du test

🔄 Configuration du Test

Déclencheur programmé :

  • ✓ Exécution automatique toutes les 5 minutes
  • ✓ Récupération d’un fichier dans le dossier « non traité »
  • ✓ Traitement complet via le workflow
  • ✓ Ajout automatique à Google Sheets

✅ Résultats du Test à Grande Échelle

📊 Exemple de validation : Reçu McDonald’s

Données extraites :

  • Total : 6.92 $ ✓
  • Sous-total : 6.59 $ ✓
  • Date : 20 octobre, 21h00 ✓

Validation : 100% de correspondance

Vérification effectuée en comparant les données dans Google Sheets avec le reçu original via Google Drive.

🎯 Conclusion des tests : Plus de 200 enregistrements traités avec succès, démontrant la fiabilité et la précision du système Gemini 2.5 Pro OCR dans un contexte d’automatisation à grande échelle.

📦 Accès aux Workflows N8N

Les workflows présentés dans cette vidéo sont disponibles via un lien Google Drive dans la description de la vidéo.

🎁 Contenu inclus :

  • ✓ Workflow actuel avec Gemini 2.5 Pro OCR
  • ✓ Workflow d’agents IA pour factures
  • ✓ Version avec Google Vision API
  • 4 workflows complets au total

Lien disponible en description

🎓 Conclusion

Gemini 2.5 Pro OCR s’impose comme une solution de référence pour l’extraction de données à partir de documents non structurés. Ses performances surpassent largement Google Cloud Vision API dans les scénarios complexes impliquant :

  • ✅ Documents de qualité variable ou dégradée
  • ✅ Textes partiellement masqués ou raturés
  • ✅ Formats non standardisés
  • ✅ Langues étrangères
  • ✅ Abréviations et contextes ambigus
🚀 Cas d’usage recommandés : Automatisation de processus de facturation, numérisation d’archives, traitement de reçus en volume, extraction de données multi-sources, et tout projet nécessitant une grande flexibilité face à des données non structurées.

🎬 Regarder la Vidéo Complète

Gemini 2.5 Pro OCR - Vidéo YouTube

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Retour en haut