GPT-5.5 vs Claude Opus 4.7
Le Grand Match
Évaluations réelles, Mini Figma Clone, code agentique et tarification : qui s’impose vraiment en 2025 ?
- Introduction — L’évolution des modèles GPT 00:00
- Test 1 — Time Zone Checker 00:42
- Test 2 — Rocket Launch Animation 05:08
- Test 3 — 3D SpongeBob (Bikini Bottom) 06:26
- 🔥 Test Phare — Mini Figma Clone 06:57
- Test Agentique — Implémentation de Capabilities 13:43
- Codex App — Le concurrent surprise 22:12
- Tarification — Qui coûte le moins cher ? 29:00
- Verdict Final 30:31
GPT-5.5 débarque — les temps changent
Nouvelle semaine, nouveau modèle. OpenAI vient de sortir GPT-5.5, annoncé en direct par Sam Altman sur Twitter/X. Pour Melvin, qui se montrait lui-même assez optimiste sur les modèles Anthropic, ce test est l’occasion d’un vrai regard honnête sur l’évolution de l’écosystème.
Car les temps changent : les modèles OpenAI deviennent de plus en plus agréables à utiliser. La question n’est plus de savoir si GPT peut rivaliser, mais jusqu’où il est allé depuis la version 5.4 — et s’il peut détrôner Claude Opus 4.7, référence actuelle.
code.melvinx.de/dev. L’idée clé ? Laisser au modèle une liberté créative totale sur l’architecture, les technologies, le style et l’expérience utilisateur — et observer ce qu’il choisit.⏰ Time Zone Checker — Le révélateur de maturité
Premier test : l’application Time Zone Checker. Un outil de gestion des fuseaux horaires, utile quand on jongle entre San Francisco, Amsterdam et la Suisse pour savoir quand appeler ses proches.
Ce prompt est particulièrement révélateur car il laisse le modèle décider lui-même de la technologie, l’architecture, la gestion d’état, le style et l’expérience utilisateur. Un vrai test d’autonomie créative.
- Interface catastrophique, sans cohérence visuelle
- Parti sur Next.js — choix discutable pour ce cas d’usage
- Aucune capacité UX démontrée
- Architecture de base, peu structurée
- Interface plus logique et cohérente
- Abandonne Next.js : un seul fichier de 818 lignes
- Réglages, gestion des villes et plages de sommeil présents
- Mais… 1 seul fichier = pire choix d’architecture possible
- Interface encore plus soignée et cohérente
- Dossiers
components/,data/,hooks/,lib/ - Code clean, architecture professionnelle
- Mode clair/sombre natif
- Choix = qualité, pas simplicité
- GPT-5.5 : « liberté » = 1 fichier géant
- Opus 4.7 : « liberté » = structure propre
- GPT-5.5 perd un point sur l’architecture
« GPT-5.5 a décidé de faire le pire choix possible. Opus, avec le même prompt, a fait un code soigné avec dossier component, data, hook, lib. »
🚀 Rocket Launch — L’animation 2D
Second test : une animation de lancement de fusée. Ce test évalue surtout les capacités de rendu visuel, la qualité des animations CSS/Canvas et la finesse du résultat graphique.
- Animations de fumée plus impressionnantes
- Fusée visuellement plus jolie
- Île rendue avec plus de détails
- Problème de Z-index résiduel
- Rendu propre, sans grosses erreurs
- Résultat globalement équivalent
- Les deux modèles arrivent maintenant au même niveau
🧽 3D SpongeBob — Bikini Bottom en Three.js
Test amusant mais difficile : créer un Bikini Bottom 3D digne de respect, en fichier unique, avec Three.js. Le défi ultime de rendu procédural pour tous les modèles.
Résultat : échec total pour GPT-5.5. Il ne se passe tout simplement rien. Au moins, il a essayé de faire quelque chose… mais ce genre de test reste encore hors de portée des grands modèles de langage actuels en une seule génération.
🎨 Mini Figma Clone — Le Test Ultime
Et maintenant, le vrai test. Le prompt demande de créer un mini clone de Figma — pas un démo, pas un MVP, mais la meilleure version possible, la plus polish, la plus architecturale qu’un modèle peut réaliser en une seule fois.
Le modèle choisit librement les technologies et l’organisation du projet.
⏱️ Temps de génération
GPT-5.5 — 15 minutes
Rapide. Très rapide. C’est le premier avantage concret de GPT-5.5 : livrer un résultat en un temps record.
Opus 4.7 — 40 minutes
2,5× plus lent. Mais avec une architecture et une expérience utilisateur largement supérieures, comme on va le voir.
🖥️ GPT-5.5 — Résultat impressionnant en une seule génération
Le résultat de GPT-5.5 est bluffant pour une génération unique :
- Zoom fonctionnel et sélection d’éléments
- Création et déplacement de zones de texte
- Changement de remplissage des éléments
- Choix de fontes et alignement de texte
- Affichage de graphes et formes géométriques
- Raccourcis clavier annuler/rétablir
- Couleurs et dégradés disponibles
Mais la navigation est difficile, le texte existant est impossible à modifier une fois créé, et certaines interactions sont mal câblées.
🖥️ Opus 4.7 — Une expérience utilisateur réellement pensée
Opus 4.7 a pris 40 minutes… et ça se voit :
- Interface visuelle beaucoup plus soignée et intuitive
- Sélection fluide et précise — vraiment différente
- Panneau de calques à gauche, comme le vrai Figma
- Historique des modifications
- Ajout de texte logique : clic = texte visible immédiatement
- Contrôles de bordure, remplissage, alignement cohérents
- Polygones et formes avancées
- Écran d’accueil avec tutoriel intégré
- Animations de navigation maladroites
- Interface grisée et peu engageante
- Texte non éditable après création
- Navigation clavier confuse
- Expérience fluide et agréable
- Design qui donne envie d’utiliser l’app
- Fonctionnalités plus cohérentes et logiques
- Architecture plus structurée
« Je serais incapable de faire ça en une journée entière. La capacité de ces modèles est tout simplement ahurissante. »
📊 Comparatif par critère
⚙️ Implémentation de Capabilities — L’IA dans l’IA
Ce test va plus loin que l’interface. Il s’agit d’implémenter une fonctionnalité complexe dans une application existante : un agent conversationnel capable de configurer automatiquement des accès à des outils d’API, sans que l’utilisateur ait à remplir manuellement un formulaire.
🧠 Phase Analyse — Qui pense le mieux ?
Melvin utilise sa commande personnalisée brainstorm pour forcer le modèle à analyser en profondeur la faisabilité et les risques de la fonctionnalité avant de coder.
- Suit correctement la commande brainstorm
- Identifie les dangers : injection de commande, absence de plafond de coût, absence de simulation
- Remet en question la fonctionnalité — et c’est une qualité
- Pousse à réfléchir avant d’agir
- Ignore la commande brainstorm
- Répond : « Yes I can! You have the room. »
- Fonce tête baissée sans analyser les risques
- Comportement béni-oui-oui problématique
« La commande brainstorm force le modèle à ne pas dire « Oui oui, c’est super, let’s go » — mais d’avoir plusieurs couches de réflexion. GPT n’a pas respecté ça. »
🏗️ Phase Implémentation — Ce qui sort concrètement
Une fois la phase d’analyse passée, les deux modèles passent à l’implémentation dans leurs environnements respectifs (Claude Code / Codex App).
Opus 4.7 — Plan solide, exécution méthodique
- Plan d’implémentation détaillé avec gestionnaire de capacités et validateurs
- Séparation claire des composants : capacités, génération, courtier d’outils, modèle de données
- Gabarits et logique de validation imbriqués
- Fonctionnalité d’ébauche finalisée opérationnelle
Codex (GPT-5.5) — Rapide mais moins cohérent
- Capacités dans une table séparée — choix pertinent
- Menu de configuration… « le pire menu jamais vu »
- Interface conversationnelle totalement non adaptative
- Outils créés en brouillon, mais tests invalides
🛠️ Codex App — Le concurrent surprise
Au-delà du modèle GPT-5.5 lui-même, Melvin revient sur l’application Codex — et c’est une vraie surprise positive.
- Interface de travail propre et bien organisée
- Terminal intégré en bas, multi-terminaux possibles
- Aperçu en temps réel — très utile pour le développement
- Mode vocal : fonctionne en français, anglais, espagnol
- Possibilité d’envoyer plusieurs messages sans attendre
- Différences de code et résumés clairs après chaque génération
« Codex app maintenant fonctionne bien. Il n’y a rien à dire sur cette app. L’effort de OpenAI a été énorme et ils ont maintenant quelque chose de super bien. »
.env du projet source dans l’arborescence de travail. Un détail qui fait perdre beaucoup de temps et d’énergie — « ça me fout les nerfs ! »💸 Qui coûte le moins cher ?
Au-delà des capacités, le prix est un facteur décisif pour les utilisateurs API. Et là, la comparaison est sans appel.
🎯 Verdict Final
Claude Opus 4.7 reste en tête…
Sur la qualité du code, l’architecture, l’UX des applications générées et la capacité de brainstorm critique, Opus 4.7 garde une longueur d’avance. Son approche « liberté = qualité » contre le « liberté = simplicité » de GPT-5.5 traduit une différence de philosophie fondamentale.
✅ Ce que GPT-5.5 réussit vraiment
- Vitesse de génération — 15 min vs 40 min sur le Figma clone
- Résultats visuellement impressionnants en one-shot
- Animations et rendu graphique légèrement meilleurs
- Codex App — outil de travail maintenant vraiment agréable
- Amélioration significative vs GPT-5.4 (quasi-catastrophique)
⚠️ Les lacunes persistantes
- Architecture de code : 1 fichier géant vs structure propre
- UX des apps générées moins soignée et moins intuitive
- Ignore les commandes de brainstorm / analyse critique
- Plus cher en API que Claude Opus 4.7
- Copilot de plan vs réflexion stratégique — GPT fonce, Opus pense
La vraie conclusion de cette vidéo est peut-être celle-là : les deux modèles sont maintenant d’une puissance ahurissante. Créer un mini Figma, une app de fusée ou un gestionnaire de fuseaux horaires en quelques minutes — personne ne pouvait faire ça seul en une journée entière. La barre de référence a radicalement changé.

