Gemini Embedding 2 :
Le RAG Multimodal qui Change Tout
Google vient de sortir le premier modèle d’embedding capable d’ingérer vidéos, images, audio et PDF dans un seul espace vectoriel. Je te montre comment construire ce RAG en live avec Claude Code, Pinecone et OpenRouter — ressources gratuites en description.
🌟 Introduction : Gemini Embedding 2, le modèle qui redéfinit les RAG
Le 10 mars 2026, Google a discrètement lâché une bombe dans le monde de l’IA : Gemini Embedding 2. Un modèle d’embedding qui ne se contente plus de traiter du texte ou des PDF — il ingère désormais des vidéos, des images, des fichiers audio et des documents dans un seul et même espace vectoriel unifié.
💡 Ce qui change tout : avant Gemini Embedding 2, construire un RAG multimodal signifiait jongler avec plusieurs pipelines séparés — un pour le texte, un pour les images, un pour l’audio. Désormais, tout rentre dans le même index vectoriel. C’est une révolution silencieuse mais massive.
Les RAG (Retrieval-Augmented Generation) sont déjà l’automatisation la plus vendue sur le marché — et ce modèle vient encore amplifier leur valeur. Si tu construis des systèmes IA pour des clients, c’est le moment de sauter dessus.
🔧 Les outils utilisés dans ce tutoriel
🧠 Qu’est-ce qu’un RAG ?
Un RAG, c’est littéralement « donner une mémoire documentaire à une IA ». Au lieu de répondre depuis sa connaissance générale (entrainée une fois pour toutes), l’IA va piocher l’information en temps réel dans tes propres documents.
Exemples concrets
Cabinet d’avocat
Interroger des centaines de contrats et jugements. Retrouver une clause spécifique en secondes.
Comptable
Notes de frais, factures, bilans — poser des questions sur l’ensemble de la base documentaire.
Médecin / Kiné
Dossiers patients, protocoles, ordonnances — une recherche instantanée sur des données privées.
💰 L’opportunité de vendre des RAG aux entreprises
Les RAG, c’est l’automatisation la plus demandée du moment. Pourquoi ? Trois raisons simples :
- Facile à mettre en place — quelques heures de développement avec les bons outils
- Peu d’entretien une fois déployé — ça tourne tout seul
- Hyper facile à répliquer d’un client à l’autre — même stack, même logique
🔒 L’argument clé : la confidentialité
Les entreprises ont des données sensibles — contrats, données clients, dossiers médicaux — qu’elles ne peuvent pas envoyer à ChatGPT ou à une API externe quelconque. C’est souvent une obligation légale.
🏆 Ton avantage concurrentiel : en proposant une solution self-hosted open source (comme Qdrant), tu garantis que les fichiers ne quittent jamais l’infrastructure du client. C’est exactement pour ça que les décideurs — avocats, médecins, comptables — sont prêts à payer cher.
📊 L’interface démo : Visualisation des vecteurs
L’interface construite dans la vidéo illustre parfaitement la puissance de Gemini Embedding 2. On y voit une base de données qui mélange images, textes, vidéos et PDF — et surtout, une visualisation graphique des clusters vectoriels.
🎯 Ce que montre la visualisation
Les vecteurs de contenu similaire se regroupent naturellement dans le même cluster. Un chat en vidéo et un chat en photo seront très proches sémantiquement dans l’espace vectoriel — même si leurs formats sont totalement différents.
- Vidéo d’un chat → proche d’une photo d’un chat
- PDF d’un manuel → indexé aux côtés de la vidéo YouTube du même produit
- Score de confiance visible pour chaque résultat de retrieval
🍟 Cas d’usage : Manuel PDF vs Vidéo YouTube (Air Fryer)
Pour tester la précision du RAG multimodal, deux sources ont été indexées dans Pinecone :
Manuel PDF
Manuel d’utilisation officiel de l’air fryer, avec images et tableaux.
Vidéo YouTube
Vidéo de démonstration du même air fryer — transcript extrait et indexé.
Questions ciblées
Certaines réponses sont dans le PDF uniquement, d’autres dans la vidéo uniquement.
Résultats du test
→ Réponse trouvée depuis la vidéo (pas dans le PDF). Le modèle a identifié exactement le moment précis de la vidéo où le sujet est abordé. Score de confiance élevé, source correctement citée.
Le modèle ne remonte pas n’importe quel moment de la vidéo — uniquement les segments qui parlent réellement du sujet interrogé. C’est la précision du retrieval multimodal en action.
🛠️ Tutoriel : Construire ton RAG Multimodal
Environ 15 à 30 minutes pour avoir ton RAG multimodal fonctionnel — suis ces étapes dans l’ordre.
Installer VS Code et l’extension Claude Code
Télécharge Visual Studio Code (gratuit). Dans le marketplace d’extensions, recherche
Claude Codeet installe la version officielle d’Anthropic. Relancements VS Code → l’icône Claude apparaît dans la barre latérale.💡 Version gratuite avec tokens offerts au lancement. L’abonnement à 20 $/mois reste recommandé pour un usage intensif — et Anthropic propose actuellement une réduction sur les tokens.
Créer le dossier de travail et se connecter
Crée un nouveau dossier (ex.
RAG-Gemini) et ouvre-le dans VS Code. Lance l’extension Claude Code via l’icône latérale et connecte ton compte Anthropic. Claude Code va programmer directement dans cet environnement.Récupérer tes 3 clés API
🔑 Gemini → aistudio.google.com — clique sur « Get API Key » puis « Create API Key ». Pas de carte bancaire requise.
🔀 OpenRouter → openrouter.ai — filtre « Free » pour tester gratuitement (Llama, Mistral, GLM…). Keys → Create → copie la clé.
🗄️ Pinecone → pinecone.io — tier gratuit disponible. Interface gauche → API Keys → Create API Key.Coller le prompt dans Claude Code et lancer la construction
Copie le prompt complet disponible dans la section ci-dessous et colle-le dans Claude Code. Il va scrapper automatiquement la documentation officielle de Gemini Embedding 2, créer les dossiers
/videos,/images,/texte, le fichier.envet l’interface graphique.Tester et itérer
Upload tes fichiers (PDF, images, vidéos YouTube, audio), pose des questions en langage naturel et observe le retrieval multimodal en action. Utilise Claude Code pour affiner l’UI, ajouter des visualisations de vecteurs ou changer de modèle LLM sur OpenRouter.
✅ Ce que tu as appris
- Comprendre le fonctionnement d’un RAG multimodal avec Gemini Embedding 2
- Construire en live une interface RAG avec Claude Code (VS Code)
- Indexer vidéos, images, audio et PDF dans un seul espace vectoriel Pinecone
- Obtenir et configurer les 3 clés API nécessaires (Gemini, OpenRouter, Pinecone)
- Visualiser les clusters vectoriels et valider la précision du retrieval
- Identifier l’opportunité business de vendre ce type de RAG aux entreprises
🎁 Pack Ressources Gratuit
Prompt complet, workflow et tous les liens — disponibles gratuitement en description de la vidéo.
▶ Voir la vidéo complèteDélègue à l’IA. Gagne du temps.
📋 Le Prompt complet — à copier dans Claude Code
Voici le prompt exact utilisé dans la vidéo. Copie-le tel quel dans Claude Code et laisse-le construire l’application pour toi.
🔗 Documentation & ressources
🎬 Voir la vidéo complète
Retrouve le tutoriel complet en vidéo avec la démo live, le build avec Claude Code et tous les détails techniques :

📋 Chapitres — Clique pour accéder
- 00:00Introduction à Gemini Embedding 2
- 00:58Qu’est-ce qu’un RAG ?
- 01:38L’opportunité de vendre des RAG aux entreprises
- 02:35Présentation de l’interface et visualisation des vecteurs
- 03:23Cas d’usage pratique : Manuel PDF vs Vidéo YouTube
- 05:29Début du tutoriel : Installation technique
- 05:47Installation de VS Code et de l’extension Claude Code
- 07:05Création de l’application avec un Prompt
- 08:49Obtenir la clé API Gemini (Google AI Studio)
- 09:12Obtenir la clé API OpenRouter
- 09:59Obtenir la clé API Pinecone
- 10:35Test de l’application finale et conclusion
