Un concurrent sérieux qui bouscule le marché de l’IA.
Impressions Générales : Une Évolution Spectaculaire
Alors que la version « preview » de Qwen 3 Max semblait médiocre et manquait de finesse en design, la dernière version a montré des améliorations spectaculaires. Bien qu’il ne soit pas encore le meilleur modèle en termes de design front-end, son efficacité et ses performances globales sont devenues très impressionnantes, le plaçant comme un concurrent de taille face à des géants comme Anthropic.
Tarifs : Une Stratégie Agressive et Équitable
La structure tarifaire de Qwen 3 Max est particulièrement intéressante et compétitive, surtout lorsqu’on la compare à celle de Claude 3 Sonnet.
Pour les contextes de plus de 128k tokens, les prix sont identiques à Claude 4 Sonnet : 3$ par million de tokens en entrée et 15$ par million de tokens en sortie. Une différence clé est l’absence de coût pour l’écriture en cache, contrairement à Claude.
Alibaba segmente les prix en trois niveaux, ce qui peut paraître complexe mais offre une gestion des coûts plus juste et flexible. Cela avantage les utilisateurs qui, comme l’auteur, créent de nouvelles sessions de chat fréquemment, leur permettant de mieux maîtriser leur budget.
Vitesse et Performances
Les tests de vitesse, bien que non-streaming et réalisés via Open Router, montrent des résultats solides.
- Tokens par seconde : La vitesse moyenne se situe entre 36 et 48 tokens/seconde, particulièrement pour des tâches de codage.
- Taille de contexte : Avec une fenêtre de contexte de 256k tokens, le modèle répond parfaitement à la majorité des besoins en développement, y compris pour des refactorisations complexes, sans nécessiter un contexte d’un million de tokens.
Capacités de « Tool Calling » : Exceptionnelles
Le modèle excelle dans l’appel d’outils (tool calling), un aspect crucial pour les applications complexes. Dans un test spécifique sur un dépôt GitHub (LLM tool calling tester), Qwen 3 Max a obtenu un score phénoménal :
Zéro erreur structurelle et une très haute précision sémantique, se positionnant comme l’un des meilleurs modèles jamais testés dans ce domaine, surpassant même Qwen 3 Coder.
Les résultats montrent une légère supériorité dans les outils utilisant le « tool calling » natif, avec des scores très proches de ceux de Claude 4 Sonnet, voire légèrement supérieurs dans certains cas.
Compétences en Codage et Design : Des Projets Concrets
Qwen 3 Max a démontré ses capacités à travers plusieurs projets tests, allant de la simple interface à des applications complexes.
Développement d’interfaces
Le modèle a réussi à générer une interface utilisateur complète en suivant des instructions simples, en respectant le style et les couleurs d’une page existante, ce qui a nécessité très peu d’ajustements manuels.
Test sur Unity 3D : Un Succès Remarquable
Dans un projet Unity 3D complexe, le modèle a réussi à ajouter une fonctionnalité de « jump pack » (jetpack) sans aucune intervention manuelle dans l’éditeur. Il a correctement navigué dans la base de code, ajouté l’interface pour l’énergie et implémenté la logique sans générer la moindre erreur. Seul un autre modèle avait réussi cet exploit auparavant.
Autres projets :
- Clone de Calendly : A généré une version minimale mais entièrement fonctionnelle, permettant d’ajouter et de supprimer des réunions.
- Jeu de billard : La physique du jeu était « phénoménale », avec une gestion correcte du score et des calculs de vecteurs et de transfert de momentum très solides.
- Web OS : A créé une interface de système d’exploitation web très convaincante avec un menu contextuel fonctionnel au clic droit, même si certaines fonctionnalités comme la création de dossiers ou la restauration après minimisation n’étaient pas parfaites.
Conclusion : Une Pression Positive sur le Marché
Qwen 3 Max s’est transformé d’un modèle médiocre en un concurrent extrêmement performant. Il excelle dans la planification et la refactorisation de code et ses capacités en « tool calling » sont de premier ordre.
Le verdict est clair : Qwen 3 Max est un modèle puissant, compétitif en termes de prix et de performances face à Claude 4 Sonnet. Son arrivée met une pression bienvenue sur des acteurs comme Anthropic, ce qui ne peut être que bénéfique pour l’innovation dans le domaine de l’IA.
Même si son accès est pour l’instant limité pour les utilisateurs en Europe ou aux États-Unis, il redéfinit les attentes et pourrait bien forcer les autres entreprises à accélérer leurs développements.

