Instant Pub
Ad image

Les données des utilisateurs GitHub mises à contribution pour l’entraînement des modèles d’intelligence artificielle

Dès le 24 avril, les données d’interaction des utilisateurs Copilot Free, Pro et Pro+ seront utilisées pour entraîner et améliorer nos modèles d’IA, sauf s’ils choisissent de s’y opposer. Les données utilisées dans ce programme peuvent être partagées avec les entités affiliées à GitHub, à commencer par Microsoft, propriétaire de la plateforme. Retour sur un changement qui risque de froisser certains utilisateurs.

Benin I-Tech
4 Min de lecture

GitHub est passé dans le giron de Microsoft en 2018. Depuis, le rapprochement entre les deux entreprises se fait sentir.

L’annonce est peut-être passée sous les radars, mais elle a son importance. Le 25 mars dernier, GitHub a fait part d’une mise à jour de la politique d’utilisation des données d’interaction de son assistant IA dédié au code, GitHub Copilot. “Aujourd’hui, nous annonçons une mise à jour sur la manière dont GitHub utilisera les données pour fournir une assistance de coding plus intelligente et contextuelle”.

Une mise en place dès le 24 avril

La date fatidique ? Le 24 avril. A partir de ce jour, les données d’interaction — notamment les inputs, les outputs, les extraits de code et le contexte associé — des utilisateurs Copilot Free, Pro et Pro+ seront utilisées pour entraîner et améliorer nos modèles d’IA, sauf s’ils choisissent de s’y opposer. Les utilisateurs de Copilot Business et Copilot Enterprise ne sont pas concernés par cette mise à jour.

Pour ceux qui s’y refuseraient, il est toujours possible de se désinscrire dans les paramètres, rubrique Confidentialité. L’entreprise précise que si l’utilisateur avait déjà refusé la collecte de ces données par GitHub à des fins d’amélioration produit, sa préférence a été conservée : son choix est respecté et ses données ne seront pas utilisées pour l’entraînement, sauf si ce dernier change d’avis et choisit explicitement d’y participer.

Microsoft, jamais loin derrière GitHub

Rappelons que derrière GitHub se cache Microsoft : le géant a racheté la plateforme en 2018 pour la coquette somme de 7,5 milliards de dollars. Depuis, la firme de Satya Nadella a multiplié les initiatives pour rapprocher la plateforme de développeurs de son propre écosystème. En octobre dernier, GitHub a connu un petit bouleversement, sommé par Microsoft de migrer complètement vers Azure d’ici deux ans. Une annonce majeure, seulement quelques mois après le départ au mois d’août de son patron, Thomas Dohmke.

Aujourd’hui donc, Microsoft, par la voix de GitHub, s’apprête donc à récupérer les données clé d’utilisateurs de la plateforme. La justification de cette dernière quant à cette stratégie est pour le moins légère :

“Cette approche s’aligne sur les pratiques établies du secteur et permettra d’améliorer les performances des modèles pour tous les utilisateurs. En participant, vous aiderez nos modèles à mieux comprendre les workflows de développement, à proposer des suggestions de code plus précises et plus sûres, et à mieux détecter les bugs potentiels avant leur mise en production”.

Les interactions réelles, des données en or

Au cours de l’année passée, GitHub affirme avoir commencé à intégrer des données d’interaction issues des employés de Microsoft, avec pour résultat “des améliorations significatives, notamment une augmentation des taux d’acceptation dans plusieurs langages”.

Suite aux progrès observés grâce à ces données, la plateforme veut donc aller plus loin et cherche à améliorer les performances des modèles sur un éventail plus large de cas d’usage en les entraînant sur des interactions réelles.

La liste des données d’interaction susceptibles d’être collectées et exploitées dès le mois prochain est la suivante : les réponses acceptées ou modifiées par l’utilisateur ; les requêtes envoyées à GitHub Copilot, y compris les extraits de code présentés au modèle ; le contexte de code autour de la position de votre curseur ; les commentaires et la documentation que vous rédigez ; les noms de fichiers ; la structure des dépôts et vos schémas de navigation ; les interactions avec les fonctionnalités de Copilot (chat, suggestions en ligne, etc.) ; les retours sur les suggestions (évaluations positives ou négatives).

TAGGED:
VIA:Usine Digitale
Share This Article
Laissez votre point de vue sur ce sujet

Laissez votre point de vue sur ce sujet

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *