Instant Pub
Ad image

Microsoft revient sur le devant de la scène avec un modèle speech-to-text meilleur que ceux des principaux acteurs du marché

Microsoft reprend du poil de la bête. Après quelques modèles publiés courant 2025, la firme revient avec un système de reconnaissance vocale ainsi qu’une seconde version de son modèle text-to-image. Tous sont disponibles dans Foundry dès à présent et seront progressivement intégrés aux produits clé de l’hyperscaler, à commencer par Copilot, Bing, PowerPoint et Azure Speech.

Benin I-Tech
3 Min de lecture

Il s’agit de la première annonce clé pour Microsoft depuis la réorganisation de ses équipes d’IA mi-mars. La firme de Redmond vient de publier MAI-Transcribe-1, un modèle speech-to-text dédié à la transcription donc, et couvrant 25 langues. Conçu pour fournir un contenu de qualité même dans des environnements réels et complexes, sa vitesse de transcription par lots est 2,5 fois supérieure à celle de l’offre Azure Fast actuelle de Microsoft.

Son taux d’erreur moyen sur l’ensemble des langues rapportées est d’ailleurs le plus faible – 3,9% – comparé à d’autres modèles tels que GPT-Transcribe (4,2%), Scribe v2 (4,3%), Gemini 3.1 Flash (4,9%) et Whisper-large-v3 (7,6%).

MAI-Transcribe-1 est disponible dès à présent dans Foundry et MAI Playground (plateforme disponible uniquement aux Etats-Unis à date) aux côtés de MAI-Voice-1 – un modèle de synthèse vocale lancé en août 2025 – et MAI-Image-2 – seconde itération de son modèle de génération d’image publiée mi-mars. A noter que tous trois sont disponibles dans la version public preview, il ne s’agit donc pas de la version finale.

Créer une voix personnalisée et générer des images dans Copilot

Microsoft explique avoir apporté quelques changements à MAI-Voice-1 : il est désormais possible de créer de sa propre voix personnalisée dans Microsoft Foundry à partir de seulement quelques secondes d’audio. “Le modèle peut générer 60 secondes d’audio en une seule seconde, et son efficacité en utilisation GPU permet de proposer cette qualité et cette vitesse à un coût abordable”, assure la firme.

De son côté, MAI-Image-2, qui fait suite à MAI-Image-1 publié en octobre 2025, a considérablement amélioré les performances et la vitesse de génération d’images dans Copilot, vante Microsoft. “Les utilisateurs constatent des temps de génération au moins deux fois plus rapides dans Foundry et Copilot, à qualité équivalente, selon des données réelles de production”. Des déploiements progressifs sont également en cours dans Bing et PowerPoint.

Un regain d’intérêt pour les modèles propriétaires ?

Mettant en avant un rapport qualité/vitesse/prix imbattable, Microsoft espère ainsi pousser à l’adoption de ses modèles propriétaires sur sa plateforme de création d’applications d’IA Foundry. Les prix affichés sont les suivants : à partir de 0,36 dollar par heure pour MAI-Transcribe-1, à partir de 22 dollars par million de caractères pour MAI-Voice-1 et à partir de 5 dollars par million de tokens (texte) et 33 dpllars par million de tokens (image) pour MAI-Image-2.

La firme semble déterminée à développer d’autres modèles propriétaires comme le laisse entendre la déclaration faite par Mustafa Suleyman (ex responsable de la division IA chez Microsoft déchu d’une bonne partie de ses fonctions lors du dernier remaniement interne) :

“D’autres modèles arriveront bientôt dans Foundry et directement dans les produits et expériences Microsoft”.

VIA:Usine Digitale
Share This Article
Laissez votre point de vue sur ce sujet

Laissez votre point de vue sur ce sujet

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *