GLM 5.1 de ZAI : Premier test complet — Concurrent sérieux de Claude Opus 4.6 ?

🤖 IA Générative 🧪 Test & Benchmark 💻 Coding Agents Mai 2025

GLM 5.1 de ZAI — Premier test complet :
le concurrent discret de Claude Opus 4.6 ?

ZAI vient de lancer discrètement GLM 5.1, sans annonce officielle ni article de blog. Disponible uniquement pour les abonnés au plan Coding à 80 $/mois, ce modèle affiche des benchmarks impressionnants face à Claude Opus 4.6. Mais qu’en est-il dans la vraie vie ? On passe ce géant sous le microscope avec des tests créatifs et techniques.

🕵️ Contexte : un lancement pour le moins discret

La plupart des modèles d’IA débarquent avec des articles de blog, des conférences de presse et des tweets en cascade. GLM 5.1 de ZAI, lui, a fait le choix inverse : zéro communication officielle. La seule trace publique de son existence se résume à un unique graphique de benchmark sur SWE-bench et quelques lignes dans la documentation technique expliquant comment migrer de GLM 5 vers 5.1 dans un agent de codage.

⚡ Le modèle est exclusivement réservé aux abonnés Coding Plan, soit l’abonnement le plus cher proposé par ZAI. Pour tester ce modèle sur caméra sans délai, le testeur a souscrit pour 80 $/mois — de sa poche, sans sponsor.

La logique de ZAI semble être : laisser les early adopters et les créateurs de contenu faire le travail de communication. En attendant une disponibilité plus large — prévue dans la semaine suivant le lancement — seul ce canal reste accessible pour le grand public technique.

🧠 Architecture & benchmarks de GLM 5.1

Aucune information officielle sur l’architecture de GLM 5.1 n’a été communiquée. En l’absence de données, les indices pointent vers une continuité avec GLM 5 dont les caractéristiques sont bien documentées.

744B Paramètres totaux

40B Paramètres actifs

MoE Architecture

SWE Benchmark clé

L’architecture Mixture of Experts (MoE) explique le ratio 744B / 40B : la totalité des paramètres est présente dans le réseau, mais à chaque inférence, seulement 40 milliards sont activés. Cela permet un rapport qualité/coût computationnel excellent — à condition d’avoir les GPUs pour servir le modèle correctement.

📊 Performances comparées sur SWE-bench

GLM 5.1~63%

Claude Opus 4.6~60%

GLM 5~52%

« GLM 5.1 semble représenter une augmentation de capacité significative par rapport à GLM 5, qui était déjà très bien considéré. »

🖥️ Test 1 — Browser OS : deux versions, deux ambiances

Le même prompt a été soumis simultanément via Open Code et Open Web UI : créer un système d’exploitation complet dans le navigateur. Résultat inattendu — deux Browser OS entièrement différents ont été produits.

🔵 Version Open Code — OS minimaliste

Date et heure correctes en bas à droite
Menu démarrer fonctionnel avec recherche d’applications
Calculatrice propre et redimensionnable — logique de snap impeccable
Bloc-notes avec plein écran, minimisation et redimension
Snake — attend l’action de l’utilisateur (bonne UX)
Paint avec gomme et sauvegarde de fichier
Pas de clic droit
Particules de l’écran de veille non fonctionnelles

🟠 Version Open Web UI — Nexus OS avec compagnon interactif

Surprise totale : le modèle a inclus un compagnon de bureau animé — une sorte de pet virtuel orange qui suit le curseur en temps réel.

Clic droit fonctionnel
Compagnon avec yeux qui suivent le curseur
Cycle veille/activité basé sur l’activité utilisateur
Bulles de dialogue avec personnalité propre
Réactions émotionnelles aux clics
Snake avec thème Halloween
Paint également présent

🤖 « C’est quelque chose que je n’avais jamais vu auparavant dans ce type de test. Je l’ai trouvé assez amusant — même si sa première apparition m’a totalement pris par surprise. »

✈️ Test 2 — Simulateur de combat aérien

Test agentic long via Open Code : construire un simulateur de combat aérien complet avec plusieurs avions, ennemis, effets visuels et logique de vol. Trois itérations ont été réalisées.

Version initiale — Sky Striker — Trois avions disponibles (F-22 Raptor, P-51 Mustang, B3 Wraith). Bonne logique de vol, mini-carte incluse sans même être demandée. Problème : les ennemis fuient le joueur au lieu de l’attaquer (logique inversée).
Refonte complète demandée — Le modèle corrige une erreur caméra (ligne 1026), améliore les modèles 3D, supprime le réticule envahissant et tente de corriger l’IA ennemie. Résultat : visuels bien améliorés, effets particulaires excellents, ennemis toujours problématiques.
Amélioration finale — Effets booster et traceurs de munitions renforcés. Particules bien plus visibles. Mais la logique ennemie reste défaillante après 3 tentatives consécutives.

✅ Points forts

Modèles d’avions visuellement réussis
Logique de vol fluide et immersive
Nuages avec volume et transparence
Mini-carte auto-implémentée
Effets particulaires de grande qualité

❌ Limites

IA ennemie jamais corrigée (3 essais)
Pas de logique de crash
Certains effets disparaissent d’une version à l’autre

🚇 Test 3 — Scène 3D : station de métro

Prompt : générer une scène 3D statique mais belle d’une station de métro en Three.js. Exécution via Open Web UI.

🎨 Résultat visuel — Ambiance sombre réussie

Effets de particules flottantes très présents
Réflexions au sol et panneaux de signalisation
Éclairage de plafond rendu correctement
Globe vert stylisant une sortie (non demandé, ajouté spontanément)
Navigation à la souris ajoutée automatiquement
Horloge intégrée dans la scène
Scène trop sombre — difficile de percevoir les détails
Charge fortement le processeur — ventilateurs en action

« L’ambiance globale est là. Ce qui pénalise vraiment ce résultat, c’est l’absence de lumière suffisante pour apprécier tout le travail fait en arrière-plan. »

🖨️ Test 4 — Simulation d’imprimante 3D

Ce test révèle la capacité du modèle à reproduire des processus physiques complexes. La simulation a été générée en premier essai via Open Web UI, sans outil de codage agentique.

⭐ Résultat très impressionnant — Qualité niveau frontier

Remplissage (infill) avec tracés de lignes réalistes
Nozzle correctement positionné sur chaque couche
Portique (gantry) qui monte avec la hauteur d’impression
Statistiques en temps réel : vitesse, température, couches
Ajustement dynamique de la hauteur de couche
Éclairage de la buse visible
Bobine de filament colorée correctement

🏆 « C’est presque du niveau GPT-4 ou d’un autre modèle frontier fermé de pointe. Je suis très impressionné — et c’est un premier essai. »

🛹 Test 5 — Jeu de skateboard style PS1 (C++)

Le plus ambitieux des tests : un jeu de skateboard en C++ autonome, dans un style graphique PS1 (polygones bas, rendu rétro). Exécuté via Open Code avec un fichier instructions.txt comme seule base.

🎮 Résultat — Style graphique PS1 très fidèle

Rendu low-poly parfaitement dans l’esthétique PS1
Effets de particules au sol lors des tricks
Animations de bras lors des sauts (ajout itératif)
Logique de score, combos et tricks
Ramps et rails fonctionnels avec détection de collision
Animations de tricks peu visibles (board figée sur le joueur)
Certains ramps disparaissent sous certains angles
Le modèle simplifie volontairement certains effets complexes

« Graphiquement, c’est une adhésion très fidèle au style demandé. Les effets de particules, la logique de score et l’ambiance PS1 sont vraiment au rendez-vous. »

⚡ Le gros problème : performances serveur

L’aspect le plus frustrant de toute l’expérience n’est pas le modèle en lui-même — mais la manière dont il est servi par ZAI. Même en payant l’abonnement le plus cher à 80 $/mois, les problèmes s’accumulent.

🚨 Problèmes d’infrastructure constatés

Inférence extrêmement lente et hachée
Messages récurrents : « Service may be temporarily overloaded »
Erreurs API signalées massivement par d’autres utilisateurs
Pas de streaming ligne par ligne — le modèle génère tout en arrière-plan
Un test (drum kit simulator) jamais terminé faute de réponse
Le plan le plus cher offre un accès théoriquement prioritaire, sans le garantir en pratique

💡 La bonne nouvelle : GLM 5.1 semble destiné à être publié en open source. À ce moment-là, d’autres fournisseurs pourront l’héberger sur des infrastructures GPU réellement dimensionnées pour le servir à grande échelle.

« À quoi servent des limites d’utilisation généreuses si le modèle est aussi lent et peu fiable ? C’est la grande frustration de cette expérience. »

🏁 Verdict final — Pour qui est GLM 5.1 ?

✅ Ce qui convainc

Benchmarks SWE sérieux face à Opus 4.6
Simulation 3D complexe de très bon niveau
Résultats créatifs inattendus (compagnon OS)
Style graphique PS1 très fidèle
Potentiel open source prometteur
Bon complément si limites Claude épuisées

❌ Ce qui bloque

Infrastructure serveur non à la hauteur
80 $/mois pour des erreurs API répétées
Pas encore disponible sur interface chat standard
Logiques ennemies IA répétitivement défaillantes
Aucune communication officielle ni blog post

🎯 GLM 5.1 est un modèle techniquement solide — à surveiller de très près dès sa sortie open source.

En attendant, l’accès via ZAI reste trop instable pour justifier 80 $/mois en usage quotidien.

🗂️ Récapitulatif des tests

Browser OS Open Code — Bonne qualité globale, UX propre
Browser OS Open Web UI — Compagnon interactif innovant
Combat aérien — Visuels excellents, IA ennemie défaillante
Station métro 3D — Bonne scène, trop sombre
Imprimante 3D — Résultat premier essai impressionnant
Skateboard PS1 — Style fidèle, tricks à améliorer
Drum kit — Jamais terminé (timeout serveur)

▶️ Regarder la vidéo originale

Retrouvez l’intégralité du test en vidéo, avec les démonstrations en direct de chaque projet généré par GLM 5.1.

⏱️ Sommaire de la vidéo — Timestamps cliquables

#GLM51 #ZAI #ModelIA #Benchmark #OpenCode #CodingAgent #MixtureOfExperts #ClaudeOpus46 #TestIA #OpenSource