L'IA tire son éducation de tout ce que nous avons jamais écrit sur le web.

L’essor de l’IA repose sur les données, qui proviennent d’Internet, lui-même créé par nous. Une analyse du Washington Post montre comment l’industrie de l’IA utilise largement les données issues des 30 ans de publications sur le Web pour entraîner leurs réseaux neuronaux. Ainsi, si vous avez déjà écrit un blog, construit une page Web ou participé à une discussion sur Reddit, vos mots ont probablement contribué à l’éducation des chatbots d’IA partout dans le monde. Bien que cette réutilisation massive déclenche une bataille juridique importante pour déterminer s’il doit être traité comme une utilisation équitable ou un vol, elle entraîne également une prise de conscience personnelle pour des millions de personnes dont les publications ont construit le monde en ligne d’aujourd’hui. Sans le savoir, nous avons créé une base de données, incomplète mais riche, d’expression humaine, qui rend possible les gymnastiques de complétion de phrases incroyablement habiles de ChatGPT et de ses concurrents.

Les musiciens sont confrontés au même type d’épiphanie, car ils rencontrent de plus en plus de fac-similés de leurs œuvres conjurées par l’IA. Les bases de données d’entraînement de l’IA sont énormes mais loin d’être représentatives, certains sujets sont suréchantillonnés tandis que d’autres sont négligés de manière injuste. Et toutes les tendances du monde en ligne, les limitations et les aspects toxiques se reflètent dans les données d’entraînement de l’IA.

L’appétit de l’IA pour les données d’entraînement doit être vu sous un nouveau jour, comme une conséquence inattendue de la montée du Web. L’existence de ces vastes «corpus» de données était une conséquence involontairement importante de la montée du Web lui-même. De ce point de vue, la production de toutes ces informations par les internautes n’était pas destinée à l’IA mais pour nous tous.

Aujourd’hui, cette conséquence inattendue est au centre de notre expérience en ligne, nous rappelant que tout ce que nous faisons avec AI façonnera l’avenir d’une manière que nous ne pouvons pas prévoir. Par exemple, si nous relâchons une vague de simili-humains sur nos réseaux publics, nous risquons de décourager les gens de continuer à partager, ou même de créer, leur propre travail original. Cela pourrait laisser les modèles d’IA futurs bloqués à jamais avec les sorties figées de l’humanité des années 2000-2020, sans rien de plus récent pour apprendre.

Maintenant que nous nous rendons compte de l’utilisation involontaire de nos contributions pour l’entraînement de l’IA, il faut se demander si c’est ce que nous voulions et si nous avons été consultés. L’apprentissage automatique a l’avantage de pouvoir utiliser une grande quantité de données, et ce n’est que lorsque nous examinons ces données que nous réalisons qu’elles sont un reflet fidèle du monde en ligne dans lequel nous avons vécu. Ces données ont été créées pour nous, en grande partie par nous, et nous n’avons donc pas le droit moral de les utiliser à des fins qui ne nous servent pas directement.

Il est important de noter que les instruments d’IA ont évolué pour inclure des chatbots capables de répondre à des préoccupations commerciales, non éthiques et d’exploitation de données, ce qui soulève des questions sur la réglementation à mettre en place.

En conséquence, nous devons être conscients que l’IA repose sur les données et que ces données sont devenues une conséquence involontaire de la montée du Web. Il peut en résulter une législation plus stricte pour réglementer l’utilisation des données à l’avenir, car l’IA est de plus en plus intégrée à notre expérience en ligne et peut devenir inhérente à notre interaction quotidienne avec le Web.