Google utilisera tout ce que vous avez publié en ligne pour améliorer son modèle d’IA
Publié par MPI, le 7 juillet 2023 – Auteur : Pierre-Alain Depauw
Avec la mise à jour de sa « politique de confidentialité » – expression paradoxale – le 1er juillet, Google a annoncé qu’il allait potentiellement utiliser tout ce que vous avez publié sur Internet pour améliorer son propre modèle d’intelligence artificielle.
Le Large Language Model (LLM) de Google s’appelle “Bard”. Ces intelligences artificielles sont « formées » à l’aide d’entrées de données. Dont les vôtres.
Auparavant, la politique de confidentialité de Google indiquait une collecte et une application plus limitées des données des utilisateurs. Comme l’a rapporté lundi la source d’information technologique Gizmodo :
“Google utilise les informations pour améliorer nos services et développer de nouveaux produits, fonctionnalités et technologies qui profitent à nos utilisateurs et au public”, indique la nouvelle politique de Google. “Par exemple, nous utilisons des informations accessibles au public pour aider à former les modèles d’IA de Google et à créer des produits et des fonctionnalités telles que les capacités de Google Translate, Bard et Cloud AI.”
Heureusement pour les fans d’histoire, Google conserve un historique des modifications apportées à ses conditions d’utilisation. Le nouveau langage modifie une politique existante, énonçant de nouvelles façons dont vos réflexions en ligne pourraient être utilisées pour le travail des outils d’IA du géant de la technologie.
Et jusqu’ici ?
Auparavant, Google avait déclaré que les données seraient utilisées «pour les modèles de langage» plutôt que pour les «modèles d’IA», et là où l’ancienne politique mentionnait Google Translate, il est maintenant question de Bard et Cloud AI.
Il s’agit d’une clause inhabituelle pour une politique de confidentialité. Généralement, ces politiques décrivent la manière dont une entreprise utilise les informations que vous publiez sur les propres services de l’entreprise. Ici, il semble que Google se réserve le droit de récolter et d’exploiter les données publiées sur n’importe quelle partie du Web public, comme si l’ensemble d’Internet était le terrain de jeu de l’IA pour l’entreprise.
De son propre aveu, Google entend désormais prendre tout ce qu’il peut. Comme l’a dit Gizmodo, le géant de la technologie, dont la société mère est Alphabet, “se réserve le droit d’utiliser à peu près tout ce que vous publiez en ligne pour créer ses outils d’IA. Si Google peut lire vos mots, supposez qu’ils appartiennent maintenant à l’entreprise et attendez-vous à ce qu’ils se nichent quelque part dans les entrailles d’un chatbot”.
Pourquoi est-ce important ?
Le big data est une grosse affaire. Outre l’utilisation risible du terme “vie privée” pour décrire ce processus, Big Tech utilise Big Data pour amplifier son propre pouvoir et son profit.
Ces données sont toutes les informations qui ont été téléchargées à votre sujet sur n’importe quel site Web public. La valeur d’un si vaste pool de données réside dans son utilisation. C’est la construction de modèles toujours meilleurs de prédiction, de mimétisme et de façonnage du comportement humain.
Au fur et à mesure que les modèles «apprennent» à partir des données humaines, y compris les préférences, les opinions politiques, l’historique des achats et les informations publiques telles que l’identité et la famille, ils deviennent plus précis dans la production de contenu qui influencera les émotions et la prise de décision dans la population humaine.
Google cherche à construire la plus grande image de l’humanité sur terre
L’histoire ci-dessus relate le recours collectif d’un cabinet d’avocats californien. Connu sous le nom de procès Clarkson, d’après le nom du cabinet d’avocats qui a intenté l’action, Gizmodo a rapporté son argumentaire squelettique :
L’affirmation centrale du procès Clarkson est que tout le modèle commercial d’OpenAI est basé sur le vol.
Le procès accuse spécifiquement l’entreprise d’avoir créé ses produits en utilisant “des informations privées volées, y compris des informations personnellement identifiables, à des centaines de millions d’internautes, y compris des enfants de tous âges, sans leur consentement éclairé ni leur connaissance”.
Après qu’OpenAI a publié GPT-4, les chercheurs en sécurité de l’IA d’Adversara ont mené de simples attaques par injection rapide pour découvrir comment il est possible de manipuler l’IA. Ces invites incitent l’IA à outrepasser ses propres protections. L’IA pourrait alors créer un article édité pour, par exemple, expliquer comment détruire le monde.
Sans savoir d’où GPT-4 tire ses informations, il est plus difficile de comprendre où se situent les pires dommages. Emily Bender, professeur de linguistique informatique à l’Université de Washington, a écrit sur Twitter que cela a été un problème constant avec OpenAI depuis 2017. Elle a déclaré qu’OpenAI “ignorait délibérément les stratégies d’atténuation des risques les plus élémentaires, tout en proclamant travailler au profit de l’humanité”.
Les modèles de chat tels que Bing de Microsoft et Bard de Google présentent les mêmes dangers potentiels.
Un professeur de linguistique informatique a résumé le cas en mars :
De plus, avec l’intrusion croissante et souvent invisible des systèmes d’IA dans la vie quotidienne, sans connaissance du biais naturel dans l’apprentissage de ces modèles, nous sommes soumis à l’imagination d’un très petit nombre de personnes, dont l’agenda idéologique encadre celui des modèles d’intelligence humaine qu’ils construisent.
Nous pouvons déduire les valeurs transmises à nos nouveaux seigneurs robots à partir de la messagerie de Big Tech.
Remplacer la réalité
La difficulté de déterminer ce qui est réel deviendra immensément plus difficile, car les machines imitent les traits humains, eux-mêmes de plus en plus façonnés par des algorithmes – ou calqués sur des machines.
Les questions de droit d’auteur, de qui détient votre vie privée et de reconnaître si quelqu’un qui écrit sur Internet existe vraiment sont de plus en plus préoccupantes.
La théorie de l’Internet mort – qui postule que la plupart des activités sur Internet ne seront pas le fait d’humains mais de scripts automatisés appelés “bots” – semble être une prédiction de plus en plus probable.