Claude Sonnet 4.6 : Le Test Complet qui Change la Donne

Nouveau Test Complet

Claude Sonnet 4.6 : Le Test qui Change Vraiment la Donne

Après des semaines de leaks, Anthropic dévoile enfin Sonnet 4.6. Nous l’avons soumis à 5 tests poussés pour vérifier s’il tient ses promesses.

Melvin X

Expert AI & Coding

17 Juin 2025

On l’attendait depuis longtemps. Après des dizaines de leaks, Claude Sonnet 4.6 est enfin là. Et honnêtement, après l’avoir testé dans tous les sens, j’ai des choses intéressantes à vous partager.

Dans cet article, je vous présente les résultats de 5 tests concrets : du générateur de miniatures YouTube à un système de referral complet, en passant par des défis de créativité et de logique pure.

« Ce qui est intéressant avec Sonnet 4.6, c’est qu’il se positionne comme un modèle beaucoup plus rapide qu’Opus, tout en restant moins cher. Mais est-ce que la qualité suit ? »

Les Nouveautés de Sonnet 4.6

Computer Use

Amélioration significative de la capacité à contrôler votre ordinateur. C’est la vision d’Anthropic : des modèles qui interagissent directement avec votre machine.

1M de Contexte

Fenêtre de contexte de 1 million de tokens en bêta. Idéal pour les projets longue durée, mais attention aux coûts au-delà de 200K tokens.

Coding Skills

Amélioration des compétences en programmation. Sur les benchmarks, on observe un gain de 8 points par rapport à Sonnet 4.5.

Même Prix

Le modèle reste au même tarif que Sonnet 4.5. Une excellente nouvelle pour les utilisateurs Pro qui l’ont désormais par défaut.

Benchmarks Officiels

Sonnet 4.5 72%

Sonnet 4.6 80%

* Scores sur les benchmarks de coding d’Anthropic. Gain de +8 points par rapport à la version précédente.

Les 5 Tests Réalisés

Des tests aux petits oignons, pensés pour mettre le modèle à rude épreuve.

YouTube Thumbnail Generator

Génération d’une interface complète pour créer des miniatures YouTube avec IA

Résultats Sonnet 4.6

Temps : 6 minutes (360s)
Shots nécessaires : 1
UI minimaliste respectée
Input intégré innovant

Verdict

100% One Shot

Note : C’est la meilleure implémentation obtenue sur ce test. L’interface est clean, le style minimaliste est parfaitement respecté, et le code React est fonctionnel dès le premier essai.

SpongeBob 3D Scene

Création d’une scène 3D interactive avec personnages et environnement

Résultats Sonnet 4.6

Temps : 20 minutes (1200s)
Shots nécessaires : 3
Problèmes d’éclairage initiaux
Moins détaillé qu’Opus

Verdict

70% 3 Shots

Comparaison : Opus a mieux géré les détails des personnages (Patrick avec son short, couleurs plus fidèles). Codex était également supérieur sur ce test créatif. Sonnet s’en sort correctement mais pas exceptionnel.

Bouncing Ball Physics

Simulation physique avec rebonds, gravité et contrôles interactifs

Résultats Sonnet 4.6

Temps : 5 min 33 (333s)
Shots nécessaires : 1
Physique parfaite
Sliders ajoutés efficacement

Verdict

100% One Shot

Excellence : La physique est parfaite, l’interface est très jolie avec les contrôles (bounce, speed, nombre de balles). Opus avait fait aussi bien, mais Sonnet reste au même niveau pour un prix inférieur.

Time Zone Checker

Application de comparaison de fuseaux horaires avec liberté créative totale

Modèle	Temps	Score	Code Quality
Sonnet 4.6	5 min 18	80%	Moyen (1 fichier)
Opus 4	7 min 39	60%	Excellent (clean code)
Codex 5.3	12 min	60%	Pauvre (600+ lignes)

Analyse : Sonnet propose l’interface la plus minimaliste et élégante. Opus a échoué sur l’exécution (bugs) mais a produit le code le plus propre avec hooks personnalisés et local storage. Intéressant de voir les différents choix techniques.

Referral System

Système complet de parrainage avec cookies, attributions et prévention de fraude

Test le plus complexe

Ce test implique : gestion des cookies, attribution first-touch, crédits différés, prévention de self-referral, interface admin, et intégration avec une base de données existante.

Codex 5.3

90%

One shot fonctionnel. Interface propre. Logique de proxy correcte.

Sonnet 4.6

30%

33 min, 2 shots. URL de prod au lieu de local. Crédits non attribués.

Opus 4

30%

20 min. Problème de cookies. Referral tracker inefficace.

Surprise : Codex 5.3 écrase littéralement la concurrence sur ce test complexe. Tandis que Sonnet et Opus échouent sur la logique de cookies et l’attribution des crédits, Codex a tout géré correctement en one shot. Un résultat contre-intuitif vu le positionnement tarifaire.

Analyse Globale

Points Forts

+ Excellent sur les tâches de coding standard (YouTube Generator, Bouncing Ball)
+ Interface UI souvent plus élégante et minimaliste que la concurrence
+ Plus rapide qu’Opus pour des résultats similaires sur les tests simples
+ Prix stable, reste le même que Sonnet 4.5

Points Faibles

– Échec sur les tâches complexes impliquant des systèmes multi-fichiers
– Parfois très lent (33 min pour le referral system)
– Code moins propre qu’Opus sur les projets avec liberté totale
– 1M de contexte avec extra usage coûteux ($22/1M output tokens)

« Sur la feature la plus complexe, Sonnet a clairement échoué. Opus a aussi échoué. Codex leur a roulé dessus. C’est un résultat surprenant qui montre que le prix n’est pas toujours synonyme de performance sur les cas d’usage réels. »

Attention : Le Piège des 1M Tokens

Si vous activez le contexte de 1 million de tokens, soyez prudents. Au-delà de 200K tokens, vous entrez dans le mode « extra usage » qui facture séparément.

Prix Extra Usage

Input : $6 / 1M tokens
Output : $22 / 1M tokens

Conseil

Une session à 200K+ tokens peut coûter $22. Vérifiez toujours votre usage avant de dépasser la limite.

Bug actuel : Certains utilisateurs rapportent que l’extra usage n’est pas toujours facturé correctement pour l’instant. Profitez-en avec modération, mais attendez-vous à ce que ce soit corrigé.

Conclusion

Claude Sonnet 4.6 est un excellent modèle pour les tâches quotidiennes. Il brille sur les projets de taille moyenne avec des spécifications claires, où son interface minimaliste et sa rapidité font la différence.

Cependant, sur les architectures complexes impliquant des systèmes distribués, des cookies, et des logiques multi-étapes, il peut échouer là où des modèles moins chers réussissent. C’est une leçon importante : le prix ne garantit pas la performance sur votre use case spécifique.

En résumé : un excellent modèle « couteau suisse » pour le quotidien, mais testez toujours plusieurs modèles sur vos cas critiques avant de vous engager.

Voir la Vidéo Complète

Claude Sonnet 4.6 : Tests Complets et Comparatifs

Cliquez pour voir la vidéo complète

Les Nouveautés de Sonnet 4.6

Computer Use

1M de Contexte

Coding Skills

Même Prix

Benchmarks Officiels

Les 5 Tests Réalisés

YouTube Thumbnail Generator

Résultats Sonnet 4.6

Verdict

SpongeBob 3D Scene

Résultats Sonnet 4.6

Verdict

Bouncing Ball Physics

Résultats Sonnet 4.6

Verdict

Time Zone Checker

Referral System

Codex 5.3

Sonnet 4.6

Opus 4

Analyse Globale

Points Forts

Points Faibles

Attention : Le Piège des 1M Tokens

Prix Extra Usage

Conseil

Conclusion

Voir la Vidéo Complète

Laisser un commentaire Annuler la réponse