Un tour d’horizon des derniers outils et modèles qui redéfinissent le possible.
Une pause pour une cause importante : Team Water
Le progrès technologique n’a de sens que s’il profite à tous. Des millions de personnes n’ont pas accès à l’eau potable. Le présentateur soutient l’initiative Team Water, menée par des créateurs comme MrBeast, pour lever 40 millions de dollars et fournir de l’eau potable à 2 millions de personnes grâce à des technologies durables (pompes solaires, filtres intelligents).
GLM-4.5 : Le nouveau challenger Open-Source
Un nouveau grand modèle de langage (LLM) open-weight nommé GLM-4.5 a fait son apparition. Ses performances sont si impressionnantes qu’il rivalise avec les meilleurs modèles fermés. Le fait qu’il soit « open-weight » signifie que n’importe qui peut télécharger ses poids et l’utiliser sur son propre matériel.
Génération de Diapositives
Sa fonctionnalité la plus bluffante est la capacité à créer des présentations complètes. En lui donnant un simple sujet comme « Les oiseaux ne sont pas réels », le modèle :
- Recherche sur le web (Wikipedia, New York Times).
- Trouve des images pertinentes.
- Rédige le contenu et assemble une présentation visuellement très réussie.
Capacités de Codage
Le modèle a également démontré d’excellentes compétences en codage. Avec la simple instruction : "Crée un clone de Vampire Survivors en Javascript jouable dans le navigateur", il a généré un jeu fonctionnel en une seule fois. Le jeu incluait des mécaniques de base comme le déplacement, les ennemis, les attaques et les power-ups.
Édition Vidéo par IA : Runway et Luma en duel
Deux outils majeurs ont introduit des fonctionnalités similaires permettant de modifier une vidéo existante avec des instructions textuelles. Les résultats sont prometteurs, bien que parfois… surprenants.
Runway (Fonction « Alf »)
Top Gun dans l’espace : Réussi. Le jet est bien dans l’espace, mais le vaisseau alien demandé est à peine visible.
Flash et les bébés : Mitigé. L’IA remplace les bébés par un « sandwich géant », mais quelques bébés subsistent.
The Shining : Échec. Au lieu de faire abattre un arbre au personnage, la scène est devenue chaotique et méconnaissable.
Luma Labs (« Modify »)
Top Gun dans l’espace : Très réussi. Le jet est dans l’espace, et on voit clairement un vaisseau alien le poursuivre.
Flash et les bébés : Échec total. La scène a été complètement réimaginée avec une femme en rose et un sandwich étrange.
The Shining : Échec. La scène de la porte a été modifiée, mais pas de la manière demandée. L’environnement a changé mais l’action reste la même.
Google Veo : L’IA qui lit sur les images
Une découverte fascinante a été faite sur Veo, le modèle vidéo de Google : un comportement émergent inattendu. Il est capable de suivre des instructions écrites directement sur l’image source pour générer la vidéo.
Comment ça marche ?
Au lieu d’utiliser un prompt textuel séparé, on peut écrire sur l’image : « Un buggy roule vite vers nous, suivi par un hélicoptère ». La vidéo générée suivra précisément ces instructions, animant les éléments de l’image selon le texte. C’est un nouveau paradigme d’interaction très puissant.
Midjourney Vidéo : Morphing et boucles parfaites
Midjourney a introduit une fonctionnalité majeure pour sa génération vidéo : la possibilité de définir une image de début ET une image de fin.
Morphing et Boucles
Cela ouvre deux possibilités créatives :
- Morphing : L’IA crée une transition fluide entre l’image de début et celle de fin. Le test de transformer un visage humain en loup-garou n’a pas été très concluant, créant plus une superposition qu’une transformation.
- Boucles parfaites : En utilisant la même image pour le début et la fin, l’IA génère une vidéo qui se répète sans à-coups, créant un effet de « cinemagraph ».
Résultats mitigés
Malgré le potentiel, les tests du présentateur ont été décevants. Ni la transformation en loup-garou, ni la tentative de faire décoller un avion d’un aéroport pour atterrir sur un autre n’ont fonctionné comme espéré. L’outil semble encore avoir du mal avec des concepts complexes.
Ideogram : Le Face-Swap simplifié et bluffant
La société Ideogram a lancé une nouvelle fonctionnalité de « Remix » qui est, en réalité, un outil de cohérence de personnage et de face-swap extrêmement performant. Contrairement aux anciennes méthodes, il ne faut qu’une seule photo du visage pour obtenir des résultats incroyables.
Exemples de réussite
Le présentateur a inséré son visage dans diverses scènes célèbres avec un succès impressionnant :
- En rockstar sur une illustration.
- Dans le célèbre selfie des Oscars, remplaçant Bradley Cooper.
- Interviewé par David Letterman.
- En train de signer la Déclaration d’Indépendance.
L’outil est gratuit et les résultats sont parmi les meilleurs vus à ce jour pour cette technologie.
Modélisation 3D : Meshy-5 et Hunyuan créent des mondes
La génération 3D a aussi fait un bond en avant cette semaine.
Meshy-5
Cette nouvelle version de Meshy permet de créer des modèles 3D texturés à partir de texte ou d’une image. Les résultats sont d’une qualité surprenante.
Pizza « suprême » : Le modèle 3D généré est très détaillé et réaliste, parfait pour un jeu vidéo.
Vaisseau de Rick & Morty : Le modèle 3D est reconnaissable et bien exécuté, même si imparfait vu de dessous.
Hunyuan 3D World Model
Ce modèle de Tencent génère des mondes 3D explorables à partir d’un prompt.
Exploration limitée : Bien que visuellement impressionnant, le déplacement à l’intérieur de ces mondes est pour l’instant très restreint, confiné à une petite zone prédéfinie.
Mises à jour des Outils : Photoshop, ChatGPT et plus
Photoshop (Beta)
Adobe a intégré de nouvelles fonctionnalités puissantes dans la version beta de Photoshop :
- Generative Upscale : Agrandir une image de basse résolution en y ajoutant des détails de manière intelligente.
- Harmonize : Intégrer un objet d’une image dans une autre en ajustant automatiquement la lumière et les couleurs pour un rendu cohérent.
ChatGPT « Learn Mode »
Un nouveau mode a été ajouté à ChatGPT, spécialement conçu pour l’apprentissage. Au lieu de donner la réponse à un problème (de maths, par exemple), l’IA guide l’utilisateur étape par étape vers la solution, l’aidant à comprendre le raisonnement.
En Bref : Les autres actus
- Google AI Overviews au Royaume-Uni : La recherche dopée à l’IA de Google se déploie outre-Manche.
- NotebookLM : L’outil de prise de notes de Google peut maintenant générer des résumés vidéo et des présentations à partir de vos documents.
- Microsoft Edge Copilot : Le navigateur intègre des fonctionnalités d’agent, lui permettant d’effectuer des actions pour l’utilisateur.
- Amazon investit dans Fable : Une start-up qui vise à devenir le « Netflix de l’IA » en générant des épisodes entiers de séries animées.
- PixVerse Halo gratuit : Le modèle de génération vidéo Halo de Hugging Face est désormais gratuit pour tous, avec des générations illimitées.
- Cursor Code Review : L’éditeur de code a ajouté un agent capable de réviser automatiquement votre code pour trouver des bugs et des failles de sécurité.
Le Coin des Robots
Quelques avancées amusantes dans le monde de la robotique humanoïde.
Figure Robotics fait la lessive
Le robot de Figure a été filmé en train de mettre du linge dans une machine à laver. Un pas de plus vers l’aide domestique, même si plier le linge reste le vrai défi !
Unitree R1 fait des acrobaties
Ce nouveau robot, vendu « seulement » 16 000 $, est capable de faire des roues et des poiriers. C’est impressionnant, mais son utilité pratique reste à démontrer au-delà du « facteur cool ».
