Instant Pub
Ad image

TurboQuant : l’algorithme de Google qui compresse efficacement les modèles sans sacrifier la précision des données

TurboQuant ne se contente pas d’améliorer l’efficacité des modèles grâce à la compression : il redéfinit l’équilibre économique de l’IA, en la rendant moins coûteuse, plus rapide et plus scalable. À l’échelle du marché, cela ouvre la porte à davantage d’acteurs, multiplie les cas d’usage et accélère son adoption.

Benin I-Tech
6 Min de lecture

Est-ce le début d’une révolution dans l’IA ? Les résultats de recherches publiées en avril 2025 par un chercheur de l’université de New York et des chercheurs de Google (issus de Research et DeepMind) pourraient en tout cas fortement influencer sur l’avenir de l’intelligence artificielle et plus précisément sur l’efficacité des LLM. Nom de code trouvé pour cette solution : TurboQuant.

Réduire le cache clé-valeur

Cet algorithme de compression développé par les chercheurs doit permettre de résoudre de manière optimale le problème de surcoût mémoire. Concrètement, lorsqu’un modèle est développé, un certain nombre de données sont fournies à ce dernier, simples comme complexes, appelées vecteurs. Ces vecteurs, suivant la complexité de l’information donnée au modèle, consomment d’importantes quantités de mémoire, ce qui engendre des goulots d’étranglement au niveau de ce que l’on nomme le cache clé-valeur.

Ce cache, “aide-mémoire numérique” stocke les informations fréquemment utilisées sous des étiquettes simples, permettant ainsi à l’ordinateur de les récupérer instantanément sans avoir à parcourir une base de données volumineuse et lente.

Pour réduire le niveau de consommation, la technique de quantification vectorielle est utilisée, permettant de réduire la taille des vecteurs de grande dimension. Seul hic : cette même technique engendre à son tour un autre problème, cela de la surcharge mémoire. C’est justement pour réduire tous ces points de blocage que Google dévoile TurboQuant.

Une méthode qui combine 2 algorithmes en un

Les chercheurs expliquent que cette méthode de compression qui réduit fortement la taille des modèles sans aucune perte de précision annoncée, est idéale pour la compression du cache clé-valeur et la recherche vectorielle. Elle repose sur deux étapes principales, chacune traitée par un algorithme développé par l’équipe.

Dans un premier temps, il s’agit de capturer l’essentiel du vecteur avec l’algorithme PolarQuant, comme si l’on cherchait à résumer une image ou une phrase avec le moins de mots possibles. TurboQuant commence par réorganiser les données (rotation) pour les rendre plus faciles à compresser, puis garde les informations les plus importantes (le “gros du signal”). C’est cette étape qui fait presque toute la compression.

Dans un second temps, un autre algorithme entre en jeu – Quantized Johnson-Lindenstrauss (QJL) – afin de corriger les détails. En effet, après la compression, il reste toujours un petit écart entre l’original et la version compressée. TurboQuant utilise juste 1 bit (ultra minimal) pour corriger ces erreurs afin d’éviter les pertes de précision.

Des tests réalisés sur des modèles open source

L’équipe de chercheurs a procédé à une batterie de tests sur des benchmarks standards avec un contexte long (LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L-Eval) avec des modèles open source (Gemma et Mistral) et “les résultats montrent que TurboQuant atteint des performances optimales tout en minimisant l’empreinte mémoire du cache clé-valeur”, affirment-ils.

Ils ont comparé TurboQuant (et ses variantes) à d’autres méthodes sur des tâches typiques d’IA telles que répondre à des questions, générer du code, résumer du texte, retrouver une information précise dans un long document, soit des situations réelles où les modèles doivent être rapides et précis avec beaucoup de données.

La taille du cache jusqu’à six fois réduite pour des performances quasi identiques

Les résultats clés sont les suivants : TurboQuant réduit la taille du cache (mémoire interne du modèle) d’au moins 6 fois, tandis que les performances restent quasi identiques (voire parfaites sur certains tests), même sur des tâches difficiles comme retrouver une information cachée dans un long texte.

TurboQuant est présenté comme très simple à implémenter et induit un surcoût d’exécution négligeable, est-il précisé. Par exemple, en version 4 bits, TurboQuant peut accélérer jusqu’à 8 fois le calcul sur des H100 par rapport à des clés non quantifiées en 32 bits.

Un impact fort sur l’avenir de la recherche en IA

“Si l’un des principaux cas d’usage est la résolution du goulot d’étranglement du cache clé-valeur dans des modèles comme Gemini, l’impact va bien au-delà. La recherche moderne évolue vers une compréhension du sens et de l’intention, ce qui repose sur la recherche vectorielle dans des bases contenant des milliards de vecteurs”, estiment les chercheurs.

Ce type de technique pourrait donc s’avérer clé pour l’avenir de l’intelligence artificielle, permettant notamment de construire et interroger des index vectoriels avec très peu de mémoire, presque sans prétraitement, et avec une précision de pointe.

Alors qu’aujourd’hui, le coût de l’IA est largement tiré par la mémoire, les GPU et l’infrastructure, TurboQuant permet effectivement de réduire drastiquement ces coûts (jusqu’à six fois sur la mémoire avec des gains de vitesse) et rendre l’IA – qui tend vers l’agentique – rentable à plus grande échelle et plus seulement pour les mastodontes du marché.

SOURCES:Usine Digitale
Share This Article
Laissez votre point de vue sur ce sujet

Laissez votre point de vue sur ce sujet

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *