Intelligence artificielle : quand (la voix de) Kim Kardashian reprend Leonardo DiCaprio • FRANCE 24
Elle est place maintenant à la tech, dans Paris Direct. Et on n'aura pas la virgule, en tout cas. C'est la chronique Tech 24, comme chaque vendredi de Guillaume Gralé. Bonjour, Guillaume. Bonjour, Achrena. On s'intéresse aujourd'hui, Guillaume a un nouveau terrain de jeu pour l'intelligence artificielle. On va parler tout d'abord d'une innovation qui vous a laissé sans voix.
Oui, presque sans voix, parce que c'est une innovation que je trouve très intéressante, parce qu'elle va nous permettre tout simplement en donnant, si je veux se dire, trois secondes de sa voix, de reproduire son intonation, son accent, même son humeur. C'est Microsoft qui présente ça en ce moment, en pleine semaine folle de l'intelligence artificielle, où on a vu des annonces très fortes sur les robots conversationnels, à la fois chez Google et chez Microsoft avec Open AI. Mais là, on s'intéresse à un organe, à quelque chose qui était très important pour Paul Valérie, puisqu'il a expliqué, il regrettait un petit peu qu'on délaisse un peu la voix au mépris, par exemple, de notre vue, par exemple, ou d'autres sens. Il disait un jour 20 où l'on s'ulire des yeux sans entendre, sans éplaits et la littérature en fut tout altérée. Donc on va essayer de faire plaisir à Paul Valérie, à titre postume. Et on va s'intéresser à ce projet de recherche qui a présenté Microsoft, qui a travaillé avec l'université de Cornell et qui on est vraiment dans l'intelligence artificielle générative, c'est-à-dire que vous allez nourrir l'intelligence artificielle de données et elle va reproduire, elle va souvent nous étonner. On a vu ça avec des textes ou encore des images avec Dali au cours des derniers mois.
– Alors quel résultat ça donne concrètement Guillaume? – Eh bien, ce qui est très intéressant, c'est qu'on va avoir de manière industrielle adapté à chaque timbre de voix l'expérimentation qui avait réussi l'IRCAM avec André Dussolier, on était en 2014 avec cette belle voix d'André Dussolier qui était répliquée quasiment à l'infini. Aujourd'hui, tout un chacun peut aller sur le site GitHub, qui appartient Microsoft pour voir un petit peu, pour expérimenter cette innovation et je voulais vous jouer un tout petit peu, c'est-à-dire qu'on va d'abord donner ce qu'on dit un prompt à la machine, aujourd'hui c'est accessible uniquement en anglais et en fonction de ce prompt, la machine, l'ordinateur va vous lire une phrase. Ici, la phrase c'est « nous devons réduire le nombre de sacs plastiques en anglais » et la première phrase que va donner ce qu'on appelle le speaker, elle ressemble à ça. Et donc c'est très court, un 3 secondes, et voici ce que Val Y va reproduire, en essayant de reproduire un petit peu cette couleur. « On a de plastiques bagues, on a de réduire le nombre de bagues en anglais » Voilà, on peut rejouer après avec différentes émotions, avec un ton un peu endormi par exemple. « On a de réduire le nombre de bagues en anglais » Ou alors un ton peut-être un peu plus amusé. « On a de réduire le nombre de bagues en anglais » C'est-à-dire que vous donnez que 3 secondes de voix et on peut tout faire avec.
Alors comment ça fonctionne exactement Guillaume? Eh bien en fait, on va utiliser les spectogrammes des fréquences de notre voix et on va les transformer avec ce qu'on appelle des encodeurs qui au passage ont été développés en partie par Métat et l'Université de Cornell, on l'a dit. On voit bien qu'il y a une vraie coopération. Et pour en faire des chiffres pour les rendre numériques et pour ensuite les composer en direct, c'est assez fascinant. Et pour cela, si vous voulez aller plus loin, je vous encourage à lire Louis Bouchard. C'est un doctorant à l'École Polytechnique de Montréal, un parfait vulgarisateur. Il explique en réalité qu'on va transformer la voix en brique et ensuite on va construire tout ce qu'on veut. La reconstitution de la voix intéresse aussi d'autres startups, Guillaume.
Mais attention aux abus. Oui c'est ça. C'est-à-dire qu'on voit une vraie floraison. On a vu la société américaine Scientific Voices recréer la voix de Steve Jobs. Il y a une autre entreprise, une entreprise britannique que je trouve très intéressante qui s'appelle Eleven Labs, qui vous permet déjà de faire lire une voix totalement artificielle des œuvres assez magnifiques comme Gatsby le magnifique pour le coup. Et ce que je trouve très intéressant, c'est que cette entreprise qui a été créée par un ancien ingénieur de Google, Piotr Dabowski ou encore un ancien cadre de Palantir, c'est qu'elle a joué avec les propos de Leonor Doudicaprio. Elle a fait redire ses propos par différentes personnalités.
Je vous propose d'écouter. Pour vous, pas comme expert, mais comme citizen. Une des formes de 1000 personnes qui marchaient dans les pièces de New York sur la sondage. Et des millions d'autres autour du monde qui veulent résoudre notre crise climatique. Comme acteur, j'attends d'avoir des personnages ficticiens qui se souvient souvent de problèmes ficticiens. Je crois que l'un des uns qui a été regardé comme un édition climatique dans la même manière que si c'était une fiction. Vigates et Kim Kardashian qui reprennent exactement les mêmes propos que Leonor Doudicaprio.
De manière totalement différente, on n'a pas vraiment l'impression d'avoir le même message. Et pourtant ce sont ces mêmes mots. Toujours concernant les sons, Guillaume, la musique conjugée à l'intelligence artificielle, ça peut aussi être une bonne surprise. Oui, c'est ça que je trouve très intéressant parce qu'on avait vu d'autres abus. J'ai préféré pas vouler jouer mais Emma Watson par exemple, le Lier Mein Kampf, on a retrouvé ça sur Fort Chan, ou encore Job Iden proferait des insultes racistes. Là, ce que je trouve très intéressant, donc ça on n'a décidé de pas mettre le son parce que c'est quand même un vrai détournement, ce que je trouve très intéressant, c'est que vous allez avoir un autre projet qui m'a fasciné un petit peu cette semaine et on voit bien le bras de fer entre Microsoft et Google. C'est un projet qui s'appelle Music LM.
Et là, Music LM, elle s'est entraînée à partir de 280 000 heures de musique pour produire des chansons, pour produire des sons complètement différents. Surtout interpréter différentes œuvres, c'est ça que j'ai trouvé très intéressant. C'est-à-dire qu'on va même pouvoir lui suggérer des œuvres d'art comme le tableau, un tableau de Dalil, la persistance de la mémoire, c'est un tableau que j'adore. Et je voulais simplement vous faire écouter ce qui imagine l'intelligence artificielle lorsqu'elle voit ce tableau, lorsqu'on lui glisse ses pixels. Et ça préfigure en réalité une intelligence artificielle qui va reproduire ce temps de nos sons, parfois nous manipulons, il faut toujours en faire attention, mais parfois nous surprendre avec son imagination. Voilà. Alors on peut aimer ou pas, on voit bien que cette imagerie d'horloge fondante inspire, mais on voit bien que ce sont des progrès très intéressants à suivre avec vous, H.
Ren. Merci beaucoup Guillaume pour cette chronique.
Deepfakes, Emma Watson, Google, Intelligence artificielle, Joe Biden, Microsoft, TECH 24, Tech