Microsoft revient sur le devant de la scène avec un modèle speech-to-text meilleur que ceux des principaux acteurs du marché

Il s’agit de la première annonce clé pour Microsoft depuis la réorganisation de ses équipes d’IA mi-mars. La firme de Redmond vient de publier MAI-Transcribe-1, un modèle speech-to-text dédié à la transcription donc, et couvrant 25 langues. Conçu pour fournir un contenu de qualité même dans des environnements réels et complexes, sa vitesse de transcription par lots est 2,5 fois supérieure à celle de l’offre Azure Fast actuelle de Microsoft.

Grandes Lignes

Créer une voix personnalisée et générer des images dans Copilot Un regain d’intérêt pour les modèles propriétaires ?

Son taux d’erreur moyen sur l’ensemble des langues rapportées est d’ailleurs le plus faible – 3,9% – comparé à d’autres modèles tels que GPT-Transcribe (4,2%), Scribe v2 (4,3%), Gemini 3.1 Flash (4,9%) et Whisper-large-v3 (7,6%).

MAI-Transcribe-1 est disponible dès à présent dans Foundry et MAI Playground (plateforme disponible uniquement aux Etats-Unis à date) aux côtés de MAI-Voice-1 – un modèle de synthèse vocale lancé en août 2025 – et MAI-Image-2 – seconde itération de son modèle de génération d’image publiée mi-mars. A noter que tous trois sont disponibles dans la version public preview, il ne s’agit donc pas de la version finale.

Créer une voix personnalisée et générer des images dans Copilot

Microsoft explique avoir apporté quelques changements à MAI-Voice-1 : il est désormais possible de créer de sa propre voix personnalisée dans Microsoft Foundry à partir de seulement quelques secondes d’audio. “Le modèle peut générer 60 secondes d’audio en une seule seconde, et son efficacité en utilisation GPU permet de proposer cette qualité et cette vitesse à un coût abordable”, assure la firme.

De son côté, MAI-Image-2, qui fait suite à MAI-Image-1 publié en octobre 2025, a considérablement amélioré les performances et la vitesse de génération d’images dans Copilot, vante Microsoft. “Les utilisateurs constatent des temps de génération au moins deux fois plus rapides dans Foundry et Copilot, à qualité équivalente, selon des données réelles de production”. Des déploiements progressifs sont également en cours dans Bing et PowerPoint.

Un regain d’intérêt pour les modèles propriétaires ?

Mettant en avant un rapport qualité/vitesse/prix imbattable, Microsoft espère ainsi pousser à l’adoption de ses modèles propriétaires sur sa plateforme de création d’applications d’IA Foundry. Les prix affichés sont les suivants : à partir de 0,36 dollar par heure pour MAI-Transcribe-1, à partir de 22 dollars par million de caractères pour MAI-Voice-1 et à partir de 5 dollars par million de tokens (texte) et 33 dpllars par million de tokens (image) pour MAI-Image-2.

La firme semble déterminée à développer d’autres modèles propriétaires comme le laisse entendre la déclaration faite par Mustafa Suleyman (ex responsable de la division IA chez Microsoft déchu d’une bonne partie de ses fonctions lors du dernier remaniement interne) :

“D’autres modèles arriveront bientôt dans Foundry et directement dans les produits et expériences Microsoft”.

Microsoft revient sur le devant de la scène avec un modèle speech-to-text meilleur que ceux des principaux acteurs du marché

Créer une voix personnalisée et générer des images dans Copilot

Un regain d’intérêt pour les modèles propriétaires ?

Laissez votre point de vue sur ce sujet Annuler la réponse

TOP ARTICLES

Entrepreneuriat en Afrique : le digital comme levier d’accompagnement d’une nouvelle génération d’entrepreneurs

Unboxing : Quand l’Infinix Note 50 Pro redéfinit la puissance des smartphones de la nouvelle génération

Quels sont les business rentables qu’on peut lancer avec 500 000 F.CFA en Afrique ?

15 Idées d’entreprise innovante qui fonctionnent en Afrique en 2026

Karpersky alerte sur les risques liés aux services digitaux de la médecine

ACTUS TECH

Paiement E-commerce au Togo : Pourquoi Till PayTech est une alternative économique

Paiement en ligne Côte D’Ivoire : Quelle solution utiliser pour accepter le mobile money ?

Bénin: Comment TillMoWoo veut simplifier les paiements numériques en Afrique

Les 5 échecs les plus choquants de startups africaines et les dures leçons à en tirer

Quand l’argent se rarifie : la vague de licenciements dans les startups et ce que cela signifie pour la tech africaine

Créer une voix personnalisée et générer des images dans Copilot

Un regain d’intérêt pour les modèles propriétaires ?

Laissez votre point de vue sur ce sujet Annuler la réponse

TOP ARTICLES

ACTUS TECH

Articles similaires