En décembre 2017, un utilisateur nommé « DeepFakes » a publié des vidéos explicites de célébrités sur Reddit. Mais ces vidéos se sont avérées fausses. Il avait généré ces fausses vidéos en utilisant l’apprentissage en profondeur ; le dernier cri en matière d’intelligence artificielle. Grâce à cela, il avait pu insérer le visage de célébrités sur le corps d’actrice porno.

Dans les semaines qui ont suivi, internet s’est enflammé avec des articles sur les dangers de la technologie de permutation de visage. A cause d’elle il était désormais possible de harceler des innocents, propager de fausses informations ; et ainsi nuire à jamais à la crédibilité à l’aide de (fausses) preuves vidéo.

Il est évident que certaines personnes vont utiliser cette technologie de façon négative. Cependant, puisque le génie est sorti de sa bouteille, ne devrions-nous pas nous arrêter pour examiner les autres utilisations des Deep Fakes ?

Dans cet article, j’explore les fonctionnalités de cette nouvelle tendance, décrit son fonctionnement et discute des applications potentielles. Mais d’abord : déterminons ce que sont les DeepFakes et pourquoi cela est important ?

Deepfakes - Le dangereux phénomène prend de l'ampleur

Qu’est ce que les DeepFakes – Définition

Comme je vous le disais, les DeepFakes offrent la possibilité d’échanger un visage avec un autre ; dans une image ou une vidéo. Sachez que l’échange de visages est utilisé dans les films depuis des années. Cependant, de nombreuses heures ont été nécessaires aux développeurs d’éditeurs de vidéos et experts de CGI pour obtenir des résultats satisfaisants.

L’avancée réside dans le fait que, grâce à des techniques d’apprentissage, toute personne disposant d’un puissant processeur graphique et d’échantillons d’images, peut créer de fausses vidéos tout à fait crédibles.

Juste incroyable : toute personne disposant de centaines d’échantillons d’images, des personnes A et B, peut les intégrer dans un algorithme et produire des échanges de visages de haute qualité ; des compétences en montage vidéo ne sont pas nécessaires.

Cela signifie également que cela peut être fait à grande échelle. Et, étant donné que beaucoup d’entre nous publie à outrance leur visage sur les réseaux sociaux, il est très facile d’utiliser cette banque d’images pour créer de fausses vidéos.

Qu’est-il possible de faire avec les hypertrucages ou permutations intelligentes de visages

Avant d’imaginer comment utiliser cette technologie, je voulais comprendre comment elle fonctionne et ce qu’il est possible de faire avec.

Premièrement, il est très simple de trouver sur GitHub le code DeepFakes originel ; ainsi que de nombreuses améliorations. C’est assez simple à utiliser, mais il incombe toujours à l’utilisateur de collecter et de préparer les données d’apprentissage.

Création de Deepfakes

Source KDnuggets – Gaurav Oberoi

Je ne vous donnerais pas ici les méthodes et moyens précis de faire fonctionner ces outils mais je vous propose de découvrir quelques résultats.

Par exemple, Gaurav Oberoi, un internaute Américain, s’est amusé à transformer Jimmy Fallon en John Oliver. Ce dernier a détaillé toute se procédure. Les vidéos et images suivantes ont été générées en formant un modèle sur environ 15000 images du visage de chaque personne ; 30000 images au total.

La durée totale de la création de cette vidéo a été d’environ 72 heures. Sa machine fonctionnait sur un processeur graphique NVIDIA GTX 1080 TI. Finalement, sur les 30000 images, seules 300 images ont été utilisées pour obtenir ce résultat. Bien que pas totalement parfait, les résultats ci-dessous sont assez convaincants. L’essentiel à retenir est que l’algorithme a réussi à créer cela en voyant nombreux exemples. Les vidéos n’ont en aucune manière été modifiées.

Comment fonctionnent les DeepFakes ?

Le code Deepfakes est basé sur un autoencoder, un réseau de neurones profonds qui apprend à saisir une entrée, à la compresser en une petite représentation ou à un codage, puis à régénérer l’entrée originale à partir de cet encodage.

La mise en place d’un goulot d’étranglement au milieu oblige le réseau à recréer ces images au lieu de simplement restituer ce qu’il voit. Les encodages aident à capturer des motifs plus larges ; comme comment et où dessiner le sourcil de Jimmy Fallon.

Les Deep fakes vont encore plus loin en disposant d’un encodeur pour compresser un visage en un encodage et de deux décodeurs ; l’un pour le transformer en personne A (Jimmy Fallon) et l’autre en personne B (John Oliver). Voici les différentes étapes expliquées en détail :

 

La création des deux visages

Nous transmettons une image déformée de Jimmy Fallon à l’encodeur et essayons de reconstruire le visage de Fallon avec le décodeur A. Cela force le décodeur A à apprendre à créer le visage de Fallon.

Puis, en utilisant le même encodeur, nous encodons une version déformée du visage de John Oliver et essayons de la reconstruire à l’aide du decoder B.

Nous continuons à faire cela maintes et maintes fois jusqu’à ce que les deux décodeurs puissent créer leurs visages respectifs ; et jusqu’à ce que l’encodeur ait appris à «capturer l’essence d’un visage», qu’il s’agisse de Jimmy Fallon ou de John Oliver.

 

Permutation des visages

Une fois l’apprentissage terminé, nous pouvons insérer une image de Jimmy Fallon dans l’encodeur. Puis au lieu d’essayer de reconstruire Jimmy Fallon à partir de l’encodage, nous la passons maintenant au décodeur B pour reconstruire John Oliver.

C’est remarquable de penser que l’algorithme peut apprendre à générer ces images simplement en voyant des milliers d’exemples ; mais c’est exactement ce qui s’est passé ici et avec des résultats assez corrects.

Limites et apprentissages

Bien que les résultats soient intéressants, il existe des limites claires à ce que nous pouvons atteindre avec cette technologie aujourd’hui.

 

Limite 1

Cela ne fonctionne que s’il y a beaucoup d’images de la personne que l’on souhaite cloner en vidéo. Pour cela, il faut environ 300 à 2000 images de son visage pour que le réseau puisse apprendre à la recréer. Le nombre dépend de la variété des visages et de leur correspondance avec la vidéo d’origine.

Cela fonctionne très bien pour les célébrités ou pour tous ceux qui ont beaucoup de photos en ligne. Mais il est clair que cela ne vous permettra pas d’échanger le visage de n’importe qui ; en tout cas pour le moment.

 

Limite 2

Vous avez également besoin de données d’apprentissage représentatives de l’objectif. En général, les images d’apprentissage de votre cible doivent approximer l’orientation, les expressions faciales et l’éclairage des vidéos dans lesquelles vous souhaitez les coller.

 

Limite 3

Ainsi, si vous créez un outil d’échange de visages pour une personne classique, étant donné que la plupart de ses photos seront de face (par exemple, des selfies sur Instagram), limitez les échanges de visages à des vidéos orientée de face. Si vous souhaitez essayer avec une célébrité, il est plus facile d’obtenir un ensemble d’images diversifiées. Et si votre cible vous aide à créer des données, privilégiez la quantité et la variété pour pouvoir les insérer dans n’importe quoi.

 

Combien cela coûte ?

Les modèles de construction peuvent coûter cher. Il fallait 48 heures pour obtenir des résultats satisfaisants et 72 pour obtenir les résultats corrects. À environ 0,50 dollars l’heure pour un processeur graphique, la construction d’un modèle destiné uniquement à l’échange des utilisateurs de A à B, et inversement, coûtera 36 dollars. Sans compter toute la bande passante nécessaire pour obtenir les données d’apprentissage ; ainsi que le processeur et les E/S nécessaires au traitement.

N’oubliez pas que vous avez besoin d’un modèle pour chaque paire de personnes. Le travail investi dans un seul modèle ne s’adapte donc pas à différents visages.

Ce coût de création de Deepfakes élevé rend difficile la création d’une application gratuite ou bon marché dans l’espoir qu’elle devienne virale. Bien sûr, ce n’est pas un problème si les clients sont prêts à payer pour générer des modèles.

L’exécution de modèles est relativement peu coûteuse, mais pas gratuite. Il faut environ 5 à 20 fois plus de temps qu’une vidéo pour créer un échange lors de l’exécution sur un processeur graphique.

Il faut environ 18 minutes pour générer une vidéo 1080p d’une minute. Un GPU permet d’accélérer le modèle principal ; ainsi que le code de détection de visage

Si l’on devait conserver une série de modèles pour différentes formes de visage et les utiliser comme points de départ, le temps et les coûts pourraient être considérablement réduits.

Ce sont donc des problèmes contournables. Des outils peuvent être créés pour collecter des images en masse depuis des canaux en ligne. Les algorithmes peuvent aider à signaler quand les données d’apprentissage sont insuffisantes ou inadéquates. Aussi, des optimisations intelligentes ou la réutilisation de modèles peuvent aider à réduire le temps d’apprentissage. Enfin, un système bien conçu peut être imaginé pour rendre tout le processus automatique.

 

Pourquoi utiliser les DeepFakes ? Quels sont les débouchés potentiels ?

Mais finalement, la question est : pourquoi utiliser les DeepFakes ? Existe-t-il suffisamment de modèles économiques pour que tout cela en vaille la peine ? Quelles sont les applications potentielles ?

 

Production de contenu vidéo

Hollywood dispose de cette technologie depuis de nombreuses années ; mais pas à un si faible coût. S’ils peuvent créer de superbes vidéos avec cette technique, la demande des éditeurs évoluera avec le temps.

Cela pourrait aussi ouvrir de nouvelles opportunités. Par exemple, faire des films avec des acteurs inconnus, puis y superposer les visages de célébrités. Cela pourrait fonctionner pour les vidéos YouTube ou même les chaînes d’information filmées par des gens ordinaires.

Dans des scénarios plus extrêmes, les studios pourraient changer d’acteurs en fonction de leur marché cible ; plus de Schwarzenager pour les Autrichiens par exemple. Aussi, Netflix pourrait permettre aux téléspectateurs de choisir leurs acteurs.

Plus probablement, cette technologie pourrait générer des revenus en ce qui concerne les acteurs morts depuis longtemps en les ramenant à la vie.

 

Applications sociales des DeepFakes

Certains des commentaires sur les vidéos DeepFakes sur YouTube ne sont pas sans rappeler ce qu’un grand générateur de mêmes pourrait créer. Jib Jab est une entreprise qui vend des cartes de vœux vidéo avec échange de visage simple depuis des années.

Mais est-ce là le prochain phénomène viral que nous verrons émerger ? Après tout, les filtres photo, Instagram et SnapChat et les applications de permutation de visage ont très bien fonctionné.

 

De nouveaux revenus pour les célébrités

Imaginez si une grande marque de vêtements pouvait inviter une célébrité à présenter ses vêtements pendant un mois ; simplement en payant des honoraires à son agent, en utilisant des photos existantes et en cliquant sur un bouton.

Cela créerait une nouvelle source de revenus pour les célébrités, les influenceurs, etc. Et cela donnerait aux entreprises un autre outil pour promouvoir les marques et stimuler la conversion. Cela soulève également d’intéressantes questions juridiques sur la propriété de la ressemblance ; ainsi que des questions de modèle commercial sur la manière de partitionner et de fixer les prix des droits pour les utiliser.

Looklet

La société Looklet propose déjà un service de ce genre

Publicité personnalisée

Imaginez un monde où les publicités que vous voyez lorsque vous surfez sur le web vous incluent vous, vos amis et votre famille. Bien que cela puisse sembler inquiétant aujourd’hui, est-il si exagéré de penser que cela ne sera pas la norme dans quelques années ?

Après tout, nous sommes des créatures visuelles et les annonceurs essayent de nous susciter des réactions émotionnelles depuis des années. Par exemple, Coca-Cola peut vouloir donner de la joie en mettant vos amis dans un clip vidéo à la mode. Autre exemple, Allstate peut vous aider à surmonter vos peurs en montrant votre famille dans une publicité.

Ou encore, l’approche peut être plus directe : Banana Republic pourrait superposer votre visage à un type de corps qui correspond à votre visage et vous convaincre que cela vaut la peine d’essayer leurs nouvelles vestes en cuir.

 

Des sites pornos de vidéos DeepFakes

Un peu plus glauque, certains sites porno se sont spécialisés dans la production de vidéos pornographiques utilisant les visages de célébrités ; je pense notamment à CFake, AdultDeepFakes ou MrDeepFakes.

video porno deepfakes Maisie Williams Arya

Exemple de vidéo porno deepfakes avec Maisie Williams aka Arya dans GOT

Un site sur les dangers induits par les Deepfakes

Pour vous informer sur le danger de la désinformation, deux chercheurs de l’université de Washington ont imaginé le site internet Which Face Is Real.

whichfaceisreal

Exemple de visages créés sur whichfaceisreal.com

WhichFaceIsReal.com, Jevin West et Carl Bergstrom veulent expliquer aux internautes que l’intelligence artificielle est capable de créer, à partir de photos, de fausses personnes.

« En faisant ce site, nous voulions éduquer le public, montrer qu’une telle technologie existe » ; explique Jevin West sur le site The Verge. « Quand une nouvelle technologie débarque, la période la plus dangereuse est celle où les gens ne savent pas qu’elle existe ».

Les algorithmes à l’origine de ces faux sont des GAN, des réseaux antagonistes génératifs.

 

Ma conclusion sur les Deepfakes

Quel que soit l’utilisateur original des Deepfakes, il a ouvert un paquet de questions difficiles sur l’impact de la génération de fausses vidéos sur la société.

J’espère que, de la même manière que nous en sommes venus à accepter le fait que les images peuvent facilement être falsifiées, nous nous adapterons également à l’incertitude de la vidéo ; même si tout le monde ne partage pas cet espoir.

Ce que les Deepfakes ont également fait, c’est de mettre en lumière l’intérêt de cette technologie. Les modèles génératifs profonds tels que l’auto-codeur utilisé par Deepfakes nous permettent de créer des données synthétiques mais réalistes ; y compris des images ou des vidéos, uniquement en montrant à un algorithme de nombreux exemples. Cela signifie qu’une fois que ces algorithmes auront été transformés en produits, les gens ordinaires auront accès à des outils puissants qui les rendront plus créatifs.