Deepseek V3.2 et Mistral Large 3 : Analyse des Nouveaux Modèles Open-Source

IA Open-Source

Deepseek V3.2 et Mistral Large 3 : Analyse Complète des Nouveaux Modèles

Tests & Benchmarks Modèles Open-Source Décembre 2024

Deux géants de l’IA open-source viennent de publier de nouveaux modèles : Deepseek avec sa version V3.2 et Mistral avec Mistral Large 3. Ces deux entreprises historiques du monde de l’IA open-source proposent des modèles aux architectures innovantes. Deepseek a marqué les esprits avec ses modèles V3 et R1, tandis que Mistral a été l’une des premières entreprises occidentales à proposer des modèles ouverts de qualité. Plongeons dans cette analyse détaillée de leurs dernières créations.

Mistral Large 3 : Le Retour aux Sources

Caractéristiques Techniques

Mistral AI lance deux nouveaux modèles : Mistral Large 3 et Ministral 3 (déclinés en versions 14B, 8B et 3B). Ces modèles se positionnent comme des solutions « SOTA » (State Of The Art) selon les benchmarks sélectionnés par Mistral, bien que le choix des modèles de comparaison suggère une certaine prudence de la part de l’entreprise.

Architecture et Performances

Type : Modèle non-reasoning (pas de capacité de raisonnement intégrée)
Architecture : Mixture of Experts (MoE)
Paramètres : 645 milliards au total, avec activation de ~41 milliards
Inspiration : Architecture basée sur Deepseek V3
Compatibilité : Compatible avec la plupart des bibliothèques supportant cette architecture

Il s’agit d’un modèle entièrement nouveau, pré-entraîné de zéro, qui emprunte simplement l’architecture de Deepseek V3 – une démarche tout à fait légitime dans le monde de l’IA open-source.

Point historique : Mistral s’était éloigné de ses racines open-source avec des licences peu permissives et en ne publiant pas ses plus gros modèles. Mistral Nemo avait été l’un des meilleurs modèles locaux de 32B, mais l’entreprise avait perdu de sa superbe avec ses choix de licensing restrictifs.

Deepseek V3.2 : L’Innovation par l’Architecture

Une Révolution Technique : DSA (DeepSeek Sparse Attention)

Deepseek lance sa version non-expérimentale V3.2, qui introduit une innovation majeure dans le traitement de l’attention : la DeepSeek Sparse Attention (DSA).

Le Problème de l’Attention

Le plus grand goulot d’étranglement des grands modèles de langage réside actuellement dans le mécanisme d’attention. Plus on augmente la longueur du contexte (la quantité d’information que le modèle peut garder en « mémoire »), plus le coût computationnel explose, rendant l’exécution locale ou même en cloud extrêmement coûteuse.

La Solution DSA

Plutôt que de faire porter l’attention du modèle sur chaque token de manière égale (mécanisme d’attention vanilla standard depuis le papier fondateur des Transformers), la DSA utilise un indexeur éclair qui fonctionne comme un projecteur : il scanne rapidement le contexte et décide « voici les k tokens les plus importants pour cette requête » et ignore le reste.

Cette approche permet de traiter des quantités massives de contexte avec une fraction du coût computationnel, réduisant significativement la complexité tout en maintenant les performances d’un modèle dense.

Implications Pratiques

Contexte géant : Jusqu’à 128 000 tokens supportés
Coût réduit : Exécution incroyablement économique même avec de longs contextes
Performances maintenues : Qualité comparable aux modèles dense standards

Deepseek V3.2 Speciale : Le Variant de Raisonnement

La vraie nouveauté réside dans le modèle Speciale, spécifiquement conçu pour le raisonnement. Deepseek a levé les contraintes habituelles : les pénalités de longueur durant l’entraînement ont été relaxées, permettant au modèle de « réfléchir » aussi longtemps que nécessaire.

Important : Ce n’est pas un paramètre que l’on règle lors de l’inférence, mais un checkpoint complètement différent. Vous trouverez les deux variants (general et special) disponibles sur Hugging Face.

Tests Pratiques : King Bench

Résultats Mistral Large 3

Les performances sur King Bench sont globalement décevantes :

Plan 3D (1 585 ft²) : Échec complet ❌
SVG Panda : Panda généré mais corps mal formé, qualité insuffisante ⚠️
Pokéball en Three.js : Objets mal placés, dimensions incorrectes ❌
Échiquier avec autoplay : Ne fonctionne pas ❌
Clone Minecraft style Kandinsky : Inutilisable, incomplet ❌
Papillon majestueux : Résultat acceptable mais loin du SOTA ✓
Outil CLI Rust : Ne fonctionne pas ❌
Script Blender Pokéball : Échec ❌
Questions mathématiques : Toutes échouées ❌

Performance globale : Décevante

Résultats Deepseek V3.2 (variant non-reasoning)

Note : Le variant non-reasoning est testé car le variant reasoning montre des confusions dans ces benchmarks, un problème déjà observé avec les précédents modèles Deepseek.

Plan 3D : Pas en 3D, juste du texte et du charabia ❌
SVG Panda : Meilleur que Mistral Large mais pas au niveau SOTA ⚠️
Pokéball en Three.js : Très bon ! Seul le bouton manque ✅
Échiquier avec autoplay : Excellent ! Fonctionne parfaitement, coups sensés, log des mouvements ✅
Clone Minecraft style Kandinsky : Ne fonctionne pas ❌
Papillon majestueux : Qualité très datée (apparence années 2000) ❌
Outil CLI Rust : Ne fonctionne pas ❌
Script Blender : Échec ❌
Questions mathématiques : Non résolues ❌
Énigme : Bien résolue ✅

Performance globale : Mixte avec quelques bons points

Classement sur le Leaderboard

Position de Deepseek V3.2

Le nouveau Deepseek V3.2 obtient la 11ème position au classement général, se plaçant au-dessus de GPT-4o-mini et GLM. C’est un résultat remarquable compte tenu que ce ne sont pas de nouveaux modèles base pré-entraînés de zéro, mais simplement de nouvelles expérimentations sur le modèle base Deepseek V3.

Attention : Le variant reasoning performe beaucoup moins bien. Via l’API, il ne termine jamais les réponses, et via leur plateforme, bien qu’il termine, le code généré est très buggé et rien ne fonctionne. Le raisonnement de Deepseek reste capricieux et fait plus de mal que de bien en coding.

Position de Mistral Large 3

Mistral Large 3 se classe à la 27ème position, un résultat correct mais loin d’être exceptionnel. Les modèles « stealth » sur Kylo (Klein et Rue) semblent être leur modèle Codestral qui montre de meilleures performances.

Verdict Final

Après avoir testé en profondeur ces deux nouveaux modèles, voici mon avis : GLM et Qwen (Minimax) restent largement supérieurs, et Kimmy est également excellent. Il n’y a donc pas vraiment de nécessité impérieuse d’utiliser ces nouveaux modèles pour le moment.

Cela dit, il est toujours positif de voir de nouveaux modèles open-source de qualité émerger. La compétition pousse l’innovation, et c’est excellent pour l’écosystème de l’IA open-source.

Dans l’ensemble, c’est assez cool. L’avenir de l’IA open-source s’annonce prometteur ! 🚀

📹 Regarder la Vidéo Complète

Retrouvez l’analyse détaillée en vidéo avec tous les tests et démonstrations :