Claude Sonnet 4.6 : Le Test qui Change Vraiment la Donne
Après des semaines de leaks, Anthropic dévoile enfin Sonnet 4.6. Nous l’avons soumis à 5 tests poussés pour vérifier s’il tient ses promesses.
Melvin X
Expert AI & Coding
On l’attendait depuis longtemps. Après des dizaines de leaks, Claude Sonnet 4.6 est enfin là. Et honnêtement, après l’avoir testé dans tous les sens, j’ai des choses intéressantes à vous partager.
Dans cet article, je vous présente les résultats de 5 tests concrets : du générateur de miniatures YouTube à un système de referral complet, en passant par des défis de créativité et de logique pure.
« Ce qui est intéressant avec Sonnet 4.6, c’est qu’il se positionne comme un modèle beaucoup plus rapide qu’Opus, tout en restant moins cher. Mais est-ce que la qualité suit ? »
Les Nouveautés de Sonnet 4.6
Computer Use
Amélioration significative de la capacité à contrôler votre ordinateur. C’est la vision d’Anthropic : des modèles qui interagissent directement avec votre machine.
1M de Contexte
Fenêtre de contexte de 1 million de tokens en bêta. Idéal pour les projets longue durée, mais attention aux coûts au-delà de 200K tokens.
Coding Skills
Amélioration des compétences en programmation. Sur les benchmarks, on observe un gain de 8 points par rapport à Sonnet 4.5.
Même Prix
Le modèle reste au même tarif que Sonnet 4.5. Une excellente nouvelle pour les utilisateurs Pro qui l’ont désormais par défaut.
Benchmarks Officiels
* Scores sur les benchmarks de coding d’Anthropic. Gain de +8 points par rapport à la version précédente.
Les 5 Tests Réalisés
Des tests aux petits oignons, pensés pour mettre le modèle à rude épreuve.
YouTube Thumbnail Generator
Génération d’une interface complète pour créer des miniatures YouTube avec IA
Résultats Sonnet 4.6
- Temps : 6 minutes (360s)
- Shots nécessaires : 1
- UI minimaliste respectée
- Input intégré innovant
Verdict
Note : C’est la meilleure implémentation obtenue sur ce test. L’interface est clean, le style minimaliste est parfaitement respecté, et le code React est fonctionnel dès le premier essai.
SpongeBob 3D Scene
Création d’une scène 3D interactive avec personnages et environnement
Résultats Sonnet 4.6
- Temps : 20 minutes (1200s)
- Shots nécessaires : 3
- Problèmes d’éclairage initiaux
- Moins détaillé qu’Opus
Verdict
Comparaison : Opus a mieux géré les détails des personnages (Patrick avec son short, couleurs plus fidèles). Codex était également supérieur sur ce test créatif. Sonnet s’en sort correctement mais pas exceptionnel.
Bouncing Ball Physics
Simulation physique avec rebonds, gravité et contrôles interactifs
Résultats Sonnet 4.6
- Temps : 5 min 33 (333s)
- Shots nécessaires : 1
- Physique parfaite
- Sliders ajoutés efficacement
Verdict
Excellence : La physique est parfaite, l’interface est très jolie avec les contrôles (bounce, speed, nombre de balles). Opus avait fait aussi bien, mais Sonnet reste au même niveau pour un prix inférieur.
Time Zone Checker
Application de comparaison de fuseaux horaires avec liberté créative totale
| Modèle | Temps | Score | Code Quality |
|---|---|---|---|
| Sonnet 4.6 | 5 min 18 | 80% | Moyen (1 fichier) |
| Opus 4 | 7 min 39 | 60% | Excellent (clean code) |
| Codex 5.3 | 12 min | 60% | Pauvre (600+ lignes) |
Analyse : Sonnet propose l’interface la plus minimaliste et élégante. Opus a échoué sur l’exécution (bugs) mais a produit le code le plus propre avec hooks personnalisés et local storage. Intéressant de voir les différents choix techniques.
Referral System
Système complet de parrainage avec cookies, attributions et prévention de fraude
Test le plus complexe
Ce test implique : gestion des cookies, attribution first-touch, crédits différés, prévention de self-referral, interface admin, et intégration avec une base de données existante.
Codex 5.3
90%
One shot fonctionnel. Interface propre. Logique de proxy correcte.
Sonnet 4.6
30%
33 min, 2 shots. URL de prod au lieu de local. Crédits non attribués.
Opus 4
30%
20 min. Problème de cookies. Referral tracker inefficace.
Surprise : Codex 5.3 écrase littéralement la concurrence sur ce test complexe. Tandis que Sonnet et Opus échouent sur la logique de cookies et l’attribution des crédits, Codex a tout géré correctement en one shot. Un résultat contre-intuitif vu le positionnement tarifaire.
Analyse Globale
Points Forts
- + Excellent sur les tâches de coding standard (YouTube Generator, Bouncing Ball)
- + Interface UI souvent plus élégante et minimaliste que la concurrence
- + Plus rapide qu’Opus pour des résultats similaires sur les tests simples
- + Prix stable, reste le même que Sonnet 4.5
Points Faibles
- – Échec sur les tâches complexes impliquant des systèmes multi-fichiers
- – Parfois très lent (33 min pour le referral system)
- – Code moins propre qu’Opus sur les projets avec liberté totale
- – 1M de contexte avec extra usage coûteux ($22/1M output tokens)
« Sur la feature la plus complexe, Sonnet a clairement échoué. Opus a aussi échoué. Codex leur a roulé dessus. C’est un résultat surprenant qui montre que le prix n’est pas toujours synonyme de performance sur les cas d’usage réels. »
Attention : Le Piège des 1M Tokens
Si vous activez le contexte de 1 million de tokens, soyez prudents. Au-delà de 200K tokens, vous entrez dans le mode « extra usage » qui facture séparément.
Prix Extra Usage
- Input : $6 / 1M tokens
- Output : $22 / 1M tokens
Conseil
Une session à 200K+ tokens peut coûter $22. Vérifiez toujours votre usage avant de dépasser la limite.
Bug actuel : Certains utilisateurs rapportent que l’extra usage n’est pas toujours facturé correctement pour l’instant. Profitez-en avec modération, mais attendez-vous à ce que ce soit corrigé.
Conclusion
Claude Sonnet 4.6 est un excellent modèle pour les tâches quotidiennes. Il brille sur les projets de taille moyenne avec des spécifications claires, où son interface minimaliste et sa rapidité font la différence.
Cependant, sur les architectures complexes impliquant des systèmes distribués, des cookies, et des logiques multi-étapes, il peut échouer là où des modèles moins chers réussissent. C’est une leçon importante : le prix ne garantit pas la performance sur votre use case spécifique.
En résumé : un excellent modèle « couteau suisse » pour le quotidien, mais testez toujours plusieurs modèles sur vos cas critiques avant de vous engager.
Voir la Vidéo Complète

Claude Sonnet 4.6 : Tests Complets et Comparatifs
Cliquez pour voir la vidéo complète
