GLM 5.1 de ZAI : Premier test complet — Concurrent sérieux de Claude Opus 4.6 ?
🤖 IA Générative 🧪 Test & Benchmark 💻 Coding Agents Mai 2025

GLM 5.1 de ZAI — Premier test complet :
le concurrent discret de Claude Opus 4.6 ?

ZAI vient de lancer discrètement GLM 5.1, sans annonce officielle ni article de blog. Disponible uniquement pour les abonnés au plan Coding à 80 $/mois, ce modèle affiche des benchmarks impressionnants face à Claude Opus 4.6. Mais qu’en est-il dans la vraie vie ? On passe ce géant sous le microscope avec des tests créatifs et techniques.

🕵️ Contexte : un lancement pour le moins discret

La plupart des modèles d’IA débarquent avec des articles de blog, des conférences de presse et des tweets en cascade. GLM 5.1 de ZAI, lui, a fait le choix inverse : zéro communication officielle. La seule trace publique de son existence se résume à un unique graphique de benchmark sur SWE-bench et quelques lignes dans la documentation technique expliquant comment migrer de GLM 5 vers 5.1 dans un agent de codage.

⚡ Le modèle est exclusivement réservé aux abonnés Coding Plan, soit l’abonnement le plus cher proposé par ZAI. Pour tester ce modèle sur caméra sans délai, le testeur a souscrit pour 80 $/mois — de sa poche, sans sponsor.

La logique de ZAI semble être : laisser les early adopters et les créateurs de contenu faire le travail de communication. En attendant une disponibilité plus large — prévue dans la semaine suivant le lancement — seul ce canal reste accessible pour le grand public technique.

🧠 Architecture & benchmarks de GLM 5.1

Aucune information officielle sur l’architecture de GLM 5.1 n’a été communiquée. En l’absence de données, les indices pointent vers une continuité avec GLM 5 dont les caractéristiques sont bien documentées.

744B Paramètres totaux
40B Paramètres actifs
MoE Architecture
SWE Benchmark clé

L’architecture Mixture of Experts (MoE) explique le ratio 744B / 40B : la totalité des paramètres est présente dans le réseau, mais à chaque inférence, seulement 40 milliards sont activés. Cela permet un rapport qualité/coût computationnel excellent — à condition d’avoir les GPUs pour servir le modèle correctement.

📊 Performances comparées sur SWE-bench

GLM 5.1~63%
Claude Opus 4.6~60%
GLM 5~52%
« GLM 5.1 semble représenter une augmentation de capacité significative par rapport à GLM 5, qui était déjà très bien considéré. »

🖥️ Test 1 — Browser OS : deux versions, deux ambiances

Le même prompt a été soumis simultanément via Open Code et Open Web UI : créer un système d’exploitation complet dans le navigateur. Résultat inattendu — deux Browser OS entièrement différents ont été produits.

🔵 Version Open Code — OS minimaliste
  • Date et heure correctes en bas à droite
  • Menu démarrer fonctionnel avec recherche d’applications
  • Calculatrice propre et redimensionnable — logique de snap impeccable
  • Bloc-notes avec plein écran, minimisation et redimension
  • Snake — attend l’action de l’utilisateur (bonne UX)
  • Paint avec gomme et sauvegarde de fichier
  • Pas de clic droit
  • Particules de l’écran de veille non fonctionnelles
🟠 Version Open Web UI — Nexus OS avec compagnon interactif

Surprise totale : le modèle a inclus un compagnon de bureau animé — une sorte de pet virtuel orange qui suit le curseur en temps réel.

  • Clic droit fonctionnel
  • Compagnon avec yeux qui suivent le curseur
  • Cycle veille/activité basé sur l’activité utilisateur
  • Bulles de dialogue avec personnalité propre
  • Réactions émotionnelles aux clics
  • Snake avec thème Halloween
  • Paint également présent

🤖 « C’est quelque chose que je n’avais jamais vu auparavant dans ce type de test. Je l’ai trouvé assez amusant — même si sa première apparition m’a totalement pris par surprise. »

✈️ Test 2 — Simulateur de combat aérien

Test agentic long via Open Code : construire un simulateur de combat aérien complet avec plusieurs avions, ennemis, effets visuels et logique de vol. Trois itérations ont été réalisées.

  1. Version initiale — Sky Striker — Trois avions disponibles (F-22 Raptor, P-51 Mustang, B3 Wraith). Bonne logique de vol, mini-carte incluse sans même être demandée. Problème : les ennemis fuient le joueur au lieu de l’attaquer (logique inversée).
  2. Refonte complète demandée — Le modèle corrige une erreur caméra (ligne 1026), améliore les modèles 3D, supprime le réticule envahissant et tente de corriger l’IA ennemie. Résultat : visuels bien améliorés, effets particulaires excellents, ennemis toujours problématiques.
  3. Amélioration finale — Effets booster et traceurs de munitions renforcés. Particules bien plus visibles. Mais la logique ennemie reste défaillante après 3 tentatives consécutives.

✅ Points forts

  • Modèles d’avions visuellement réussis
  • Logique de vol fluide et immersive
  • Nuages avec volume et transparence
  • Mini-carte auto-implémentée
  • Effets particulaires de grande qualité

❌ Limites

  • IA ennemie jamais corrigée (3 essais)
  • Pas de logique de crash
  • Certains effets disparaissent d’une version à l’autre

🚇 Test 3 — Scène 3D : station de métro

Prompt : générer une scène 3D statique mais belle d’une station de métro en Three.js. Exécution via Open Web UI.

🎨 Résultat visuel — Ambiance sombre réussie
  • Effets de particules flottantes très présents
  • Réflexions au sol et panneaux de signalisation
  • Éclairage de plafond rendu correctement
  • Globe vert stylisant une sortie (non demandé, ajouté spontanément)
  • Navigation à la souris ajoutée automatiquement
  • Horloge intégrée dans la scène
  • Scène trop sombre — difficile de percevoir les détails
  • Charge fortement le processeur — ventilateurs en action
« L’ambiance globale est là. Ce qui pénalise vraiment ce résultat, c’est l’absence de lumière suffisante pour apprécier tout le travail fait en arrière-plan. »

🖨️ Test 4 — Simulation d’imprimante 3D

Ce test révèle la capacité du modèle à reproduire des processus physiques complexes. La simulation a été générée en premier essai via Open Web UI, sans outil de codage agentique.

⭐ Résultat très impressionnant — Qualité niveau frontier
  • Remplissage (infill) avec tracés de lignes réalistes
  • Nozzle correctement positionné sur chaque couche
  • Portique (gantry) qui monte avec la hauteur d’impression
  • Statistiques en temps réel : vitesse, température, couches
  • Ajustement dynamique de la hauteur de couche
  • Éclairage de la buse visible
  • Bobine de filament colorée correctement

🏆 « C’est presque du niveau GPT-4 ou d’un autre modèle frontier fermé de pointe. Je suis très impressionné — et c’est un premier essai. »

🛹 Test 5 — Jeu de skateboard style PS1 (C++)

Le plus ambitieux des tests : un jeu de skateboard en C++ autonome, dans un style graphique PS1 (polygones bas, rendu rétro). Exécuté via Open Code avec un fichier instructions.txt comme seule base.

🎮 Résultat — Style graphique PS1 très fidèle
  • Rendu low-poly parfaitement dans l’esthétique PS1
  • Effets de particules au sol lors des tricks
  • Animations de bras lors des sauts (ajout itératif)
  • Logique de score, combos et tricks
  • Ramps et rails fonctionnels avec détection de collision
  • Animations de tricks peu visibles (board figée sur le joueur)
  • Certains ramps disparaissent sous certains angles
  • Le modèle simplifie volontairement certains effets complexes
« Graphiquement, c’est une adhésion très fidèle au style demandé. Les effets de particules, la logique de score et l’ambiance PS1 sont vraiment au rendez-vous. »

⚡ Le gros problème : performances serveur

L’aspect le plus frustrant de toute l’expérience n’est pas le modèle en lui-même — mais la manière dont il est servi par ZAI. Même en payant l’abonnement le plus cher à 80 $/mois, les problèmes s’accumulent.

🚨 Problèmes d’infrastructure constatés
  • Inférence extrêmement lente et hachée
  • Messages récurrents : « Service may be temporarily overloaded »
  • Erreurs API signalées massivement par d’autres utilisateurs
  • Pas de streaming ligne par ligne — le modèle génère tout en arrière-plan
  • Un test (drum kit simulator) jamais terminé faute de réponse
  • Le plan le plus cher offre un accès théoriquement prioritaire, sans le garantir en pratique

💡 La bonne nouvelle : GLM 5.1 semble destiné à être publié en open source. À ce moment-là, d’autres fournisseurs pourront l’héberger sur des infrastructures GPU réellement dimensionnées pour le servir à grande échelle.

« À quoi servent des limites d’utilisation généreuses si le modèle est aussi lent et peu fiable ? C’est la grande frustration de cette expérience. »

🏁 Verdict final — Pour qui est GLM 5.1 ?

✅ Ce qui convainc

  • Benchmarks SWE sérieux face à Opus 4.6
  • Simulation 3D complexe de très bon niveau
  • Résultats créatifs inattendus (compagnon OS)
  • Style graphique PS1 très fidèle
  • Potentiel open source prometteur
  • Bon complément si limites Claude épuisées

❌ Ce qui bloque

  • Infrastructure serveur non à la hauteur
  • 80 $/mois pour des erreurs API répétées
  • Pas encore disponible sur interface chat standard
  • Logiques ennemies IA répétitivement défaillantes
  • Aucune communication officielle ni blog post

🎯 GLM 5.1 est un modèle techniquement solide — à surveiller de très près dès sa sortie open source.

En attendant, l’accès via ZAI reste trop instable pour justifier 80 $/mois en usage quotidien.

🗂️ Récapitulatif des tests
  • Browser OS Open Code — Bonne qualité globale, UX propre
  • Browser OS Open Web UI — Compagnon interactif innovant
  • Combat aérien — Visuels excellents, IA ennemie défaillante
  • Station métro 3D — Bonne scène, trop sombre
  • Imprimante 3D — Résultat premier essai impressionnant
  • Skateboard PS1 — Style fidèle, tricks à améliorer
  • Drum kit — Jamais terminé (timeout serveur)

▶️ Regarder la vidéo originale

Retrouvez l’intégralité du test en vidéo, avec les démonstrations en direct de chaque projet généré par GLM 5.1.

Miniature — Test GLM 5.1 de ZAI
⏱️ Sommaire de la vidéo — Timestamps cliquables
#GLM51 #ZAI #ModelIA #Benchmark #OpenCode #CodingAgent #MixtureOfExperts #ClaudeOpus46 #TestIA #OpenSource

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Retour en haut