Analyse & Compte-Rendu : GLM 4.5 – Blog Laurent Husser

Benchmark de génération de code face à Claude 4 Opus via 10 prompts et 5 profils d’IA.

Résumé Exécutif (TL;DR)

Ce test démontre que GLM 4.5, un modèle d’IA chinois open-source, est un concurrent extrêmement sérieux et performant pour la génération de code, rivalisant et parfois surpassant Claude 4 Opus, le tout pour un coût jusqu’à 27 fois inférieur.

La clé de sa performance réside dans le prompt engineering : le modèle se montre tantôt ultra-créatif et innovant avec des prompts probabilistes, tantôt rigoureux et fonctionnel avec des prompts déterministes. C’est un outil puissant qui récompense la maîtrise de la formulation des requêtes.

Méthodologie du Test

Le benchmark a été réalisé en utilisant les outils et paramètres suivants :

Plateforme : OpenRouter, pour accéder aux différents modèles via une seule API.
Modèle testé : Zhipu GLM 4.5.
Température : Fixée à 0.5, un juste milieu entre la créativité chaotique (1.0) et la rigueur déterministe (0.0).
Format de sortie : Rendu direct des applications (HTML/JS/CSS) grâce à la fonction « artefact » d’OpenRouter.

Les 5 Profils d’IA (Prompt Systems)

1. Creative Hacker

Conçu pour casser les codes et créer des solutions non conventionnelles et décalées.

2. Graphic Designer UI/UX

Un expert en design visionnaire, centré sur l’esthétique et l’expérience utilisateur.

3. Product Manager « Extreme Simplicity »

Obsédé par la simplicité, la clarté et la rapidité d’apprentissage pour l’utilisateur final.

4. Front-End Animator « WOW Effect »

Spécialisé dans la création d’animations et d’interfaces visuellement percutantes.

5. JavaScript Performance & Security Dev

Un développeur focalisé sur l’optimisation, la rapidité et la sécurité du code.

Les 4 Enseignements Clés

1. La Puissance de la Probabilité

C’est la découverte majeure. Pour les tâches simples (calculatrice), les résultats étaient similaires. Mais sur les prompts plus ouverts (Kanban, palette de couleurs), donner plus de liberté créative à GLM 4.5 a débloqué des résultats radicalement différents et souvent supérieurs pour chaque profil.

2. La Hiérarchie des Personas

Les profils ne se valent pas. Le « JS Performance Dev » a souvent fourni le code le plus complet et technique. Le « Creative Hacker » s’est montré un excellent touche-à-tout. À l’inverse, le « Graphic Designer » a souvent échoué sur la partie fonctionnelle, et l’« Extreme Simplicity » a parfois produit des résultats trop basiques.

3. L’Interface Native surpasse l’API (parfois)

Pour les tâches complexes comme le générateur de QR Code, les résultats via l’API OpenRouter étaient décevants. Cependant, le même prompt sur l’interface web native de GLM 4.5 fonctionnait parfaitement. Cela suggère une possible déperdition ou une différence d’interprétation via l’API.

4. Le « Moment WOW » : Le Kanban Board

Le test final sur le tableau Kanban a été une révélation. Alors que Claude a produit une version fonctionnelle mais simple, GLM 4.5 (sur son interface native) a généré une version magnifique, futuriste et très complète, démontrant un potentiel créatif impressionnant.

Résultats Détaillés par Prompt

1. Calculatrice Scientifique

JS Performance Dev

Succès Exceptionnel

De loin la meilleure version, incluant des fonctions avancées (cos, tan, etc.).

Creative Hacker

Succès

Simple, fonctionnelle.

Graphic Designer

Succès

Plus de couleurs, fonctionnelle.

WOW Effect Animator

Succès

Basique, fonctionnelle.

Extreme Simplicity

Échec

A retourné un code vide.

2. Calculateur de Calories

Extreme Simplicity

Succès

Simple et fonctionnel, avec un graphique donut.

WOW Effect Animator

Succès

Dynamique et fonctionnel.

Creative Hacker

Succès

Interface fonctionnelle, design modifié.

JS Performance Dev

Succès

Fonctionnel mais très dépouillé, presque trop simple.

Graphic Designer

Échec

Le modèle a planté pendant la génération.

3. Jeu Snake Rétro

Ici, une divergence intéressante a été observée : une itération sur le prompt (ajout de « néon ») a radicalement changé le rendu visuel.

JS Performance Dev

Succès

Fonctionnel. Après ajout du mot « néon », il a créé un effet stroboscopique visuellement impressionnant.

WOW Effect Animator

Succès

Classique et fonctionnel.

Extreme Simplicity

Succès

Très simple, mais le jeu fonctionne.

Creative Hacker

Échec

Le jeu ne fonctionnait pas.

Graphic Designer

ÉchecÉchec

N’a pas réussi à générer le jeu.

…

Le testeur a continué avec d’autres prompts comme un mini-shooter, un timer pomodoro, un éditeur markdown, etc., avec des résultats variés confirmant les tendances observées.

9. Générateur de QR Code hors-ligne

Ce test a été un échec généralisé sur OpenRouter, mais une réussite sur l’interface native de GLM.

GLM (Interface Native)

Succès

A parfaitement généré une application fonctionnelle.

Tous les profils (via OpenRouter)

Échec

Aucun des profils n’a réussi à créer une application fonctionnelle, mettant en lumière une défaillance de l’API pour cette tâche.

Claude 4 Opus

ÉchecÉchec

A également échoué, en proposant une solution basée sur une librairie externe alors que le prompt demandait du code pur.

10. Tableau Kanban avec Drag & Drop

Le test final, avec un prompt plus créatif et probabiliste, a donné les résultats les plus spectaculaires.

GLM (Interface Native)

Résultat Exceptionnel

A produit une interface magnifique, au design futuriste, sombre et bleu, parfaitement fonctionnelle. De loin le meilleur résultat de tout le test.

Claude 4 Opus

Succès

Fonctionnel, mais avec un design très basique et standard.

Tous les autres profils (via OpenRouter)

Succès (sauf Designer)

Ont tous produit des versions fonctionnelles et visuellement distinctes, montrant la force de la probabilité. Seul le « Graphic Designer » a échoué.

Conclusion et Recommandations

GLM 4.5 n’est pas juste une alternative, c’est un outil de premier plan.

Pour les tâches déterministes : Il est fiable et produit un code fonctionnel, bien que parfois basique en design.
Pour les tâches créatives : C’est là qu’il brille. En lui donnant de la liberté via des prompts probabilistes, il peut générer des solutions visuellement et conceptuellement impressionnantes, bien au-delà des attentes.

Recommandations pour les utilisateurs :

Maîtrisez le Prompting : Apprenez à basculer entre des instructions précises (pour la fonctionnalité) et des instructions ouvertes (pour la créativité).
Itérez : Ne vous contentez pas du premier résultat. Affinez votre prompt, ajoutez des détails, changez un mot-clé (comme « néon ») pour explorer le potentiel du modèle.
Testez différentes « Personas » : Le profil que vous donnez à l’IA influence grandement le résultat. Un « Hacker » ne code pas comme un « Product Manager ».
Utilisez l’interface native pour les gros projets : Pour les projets critiques, l’interface web de Zhipu semble plus fiable et performante que l’accès via des API tierces.

En somme, GLM 4.5 est une « machine de guerre » pour qui sait la piloter. Sa puissance, combinée à son coût très agressif, en fait un outil incontournable pour les développeurs, les intégrateurs et les prompt engineers en 2024.

Résumé Exécutif (TL;DR)

Méthodologie du Test

Les 5 Profils d’IA (Prompt Systems)

1. Creative Hacker

2. Graphic Designer UI/UX

3. Product Manager « Extreme Simplicity »

4. Front-End Animator « WOW Effect »

5. JavaScript Performance & Security Dev

Les 4 Enseignements Clés

1. La Puissance de la Probabilité

2. La Hiérarchie des Personas

3. L’Interface Native surpasse l’API (parfois)

4. Le « Moment WOW » : Le Kanban Board

Résultats Détaillés par Prompt

JS Performance Dev

Creative Hacker

Graphic Designer

WOW Effect Animator

Extreme Simplicity

Extreme Simplicity

WOW Effect Animator

Creative Hacker

JS Performance Dev

Graphic Designer

JS Performance Dev

WOW Effect Animator

Extreme Simplicity

Creative Hacker

Graphic Designer

GLM (Interface Native)

Tous les profils (via OpenRouter)

Claude 4 Opus

GLM (Interface Native)

Claude 4 Opus

Tous les autres profils (via OpenRouter)

Conclusion et Recommandations

Laisser un commentaire Annuler la réponse