CinémaDes acteurs bientôt dépassés par l’intelligence artificielle?
Une technologie dopée à l’IA est désormais capable de modifier les expressions de visage des comédiens dans un film.
- par
- Christophe Pinol
Voilà déjà quelques années que les algorithmes de machine learning se sont invités à Hollywood pour peu à peu révolutionner l’industrie. On sait ainsi maintenant comment rajeunir les comédiens – le nouvel «Indiana Jones» est censé nous en donner un nouvel exemple bluffant en juin prochain – et même carrément les ressusciter le temps de quelques scènes. Mais la Mecque du 7e art a aujourd’hui poussé le bouchon encore un tout petit peu plus loin, avec un logiciel capable de modifier à loisir les mouvements de lèvres des acteurs, de leurs expressions faciales et donc de «corriger» leur performance… Et si on venait de sonner le glas de toute la notion de jeu d’acteur?
L’été passé, l’actualité cinématographique américaine avait été marquée par la sortie du long métrage «Fall», réalisé par Scott Mann. Un huis clos assez réussi, inédit en Suisse, qui montre l’ascension de deux jeunes femmes adeptes de sports extrêmes au sommet d’une antenne désaffectée (haute de 600 m, quand même) au beau milieu du désert… et qui se retrouvent coincées au sommet. La majeure partie du film se déroulait donc sur une structure métallique de quelques centimètres carrés où les deux jeunes femmes devaient affronter les éléments et trouver le moyen de descendre. Produit par une petite compagnie, «Fall» avait été racheté juste avant sa sortie par Lionsgate, l’un des gros studios hollywoodiens, afin d’en assurer sa distribution à l’échelle nationale.
Comment faire disparaître 30 «fuck»
Problème: le film venait d’écoper d’une classification R (interdit aux moins de 17 ans non accompagnés d’un adulte) en raison d’une large utilisation de l’injure «fuck». Or, Lionsgate voulait un film grand public, PG13 (film déconseillé aux moins de 13 ans). Seule solution pour obtenir le sésame: supprimer l’injure en question à chaque fois qu’elle était prononcée, soit une bonne trentaine de fois.
Mais avec un film où les deux protagonistes, coincées sur leur plateforme, étaient majoritairement filmées en gros plan, la mission était impossible. À moins de retourner les scènes en question, reconstruire le décor et rappeler toute l’équipe technique… Ce que le budget du film ne permettait pas.
Coup de chance, le réalisateur est aussi le PDG de la société londonienne Flawless dont les travaux portent justement sur l’élaboration d’un logiciel dopé à l’intelligence artificielle capable de modifier le mouvement des lèvres des acteurs dans un film. À l’origine, le programme a été conçu dans le but de faciliter le travail de doublage. De pouvoir assurer la synchronisation labiale en postproduction, sur la base d’un nouveau dialogue: une traduction en langue étrangère par exemple. Alors que jusqu’ici, il était plutôt coutume de faire l’inverse: concocter un texte pour les doubleurs de manière qu’il colle au mieux aux mouvements des lèvres de l’acteur à l’écran.
Un film ruiné
Mais Scott Mann ne voulait plus travailler de cette manière. D’autant plus depuis un soir de 2015 après avoir découvert un extrait doublé de son dernier bébé en date, «Heist», un polar avec Robert de Niro, dont le dialogue avait été modifié de manière si radicale pour respecter la synchronisation labiale que la scène perdait tout son sel. «Les subtilités que j’avais essayé d’apporter à travers le dialogue, et les nuances de jeu sur lesquelles nous avions travaillé, Robert de Niro et moi, disparaissaient complètement, expliquait le réalisateur au «Los Angeles Times» le mois passé. J’étais horrifié!»
Féru de nouvelles technologies, il était alors tombé sur les travaux du Max Planck Institude for Informatics, en Allemagne, dont les recherches sur la modélisation et l’édition numérique de visages humains l’avaient si impressionné qu’il leur avait proposé de s’associer pour créer Flawless.
Concrètement, le programme se charge aujourd’hui d’analyser automatiquement les rushes d’un film (les scènes tournées au cours d’une même journée) et de créer une version 3D – «au pixel près» – de la tête des acteurs sur la base de millions de points de données. Le tout en ayant surtout analysé toutes les nuances de jeu des comédiens, le mouvement de leurs muscles faciaux, leurs réactions physiques… Il suffit alors de donner au programme un nouveau texte pour qu’il y adapte non seulement le mouvement des lèvres d’un acteur, mais également son visage dans sa globalité, comme s’il parlait naturellement chinois, allemand, moldave ou turc. Soit une intégration bien plus réaliste et naturelle que la technologie Deepfake. Et surtout, avec une résolution suffisamment poussée pour afficher le visage retouché en gros plan sur un écran géant, même de type IMAX.
Au placard, les Meryl Streep et autres Daniel Day Lewis!
Bref, c’est finalement grâce à ce programme que Scott Mann a pu expurger, l’été passé, les grossièretés de «Fall», réécrire de nouveaux dialogues et laisser son programme agir afin d’obtenir son label PG13. Le tout en deux petites semaines de travail. Et à l’écran, la magie opère totalement: on ne se doute absolument de rien.
Alors modifier quelques lignes de dialogue, c’est une chose. Mais il n’y a pas de raison que Flawless s’arrête là. Extrapolons un peu et imaginons maintenant qu’un réalisateur, peu satisfait de la performance d’un de ses acteurs, demande au programme d’accroître par exemple l’intensité de son regard, d’ajouter une touche d’amertume ou de mélancolie à son jeu… Voilà qui promet quelques solides questions éthiques, mais en dehors de ça, peut-être ne sera-t-il bientôt plus nécessaire de faire appel à une Meryl Streep ou un Daniel Day Lewis pour espérer décrocher un Oscar du meilleur interprète. Peut-être qu’un acteur de seconde zone fera tout aussi bien l’affaire puisqu’on pourra parfaire son travail en postproduction…
Les plateformes de streaming au taquet
En attendant, dans le cadre propre du doublage, Flawless vient d’annoncer avoir déjà signé un contrat avec un gros client (sans être encore en mesure de le nommer) et être également en discussion avec différentes plateformes de streaming pour voir comment leur technologie pourrait y être appliquée. Attention, on ne parle ici que de la synchronisation labiale. Pour la qualité d’interprétation du doublage, c’est un autre débat. Le programme n’est pas (encore) en mesure de synthétiser une voix.
Il y a quelques jours, interviewé par le magazine Syfy, Scott Mann confiait dans un premier temps trouver sa technologie plutôt innovante, avant de revenir quelques lignes plus loin sur ses propos: «Je crois que je me suis montré trop modeste. En réalité, il faut s’attendre à ce qu’elle transforme littéralement toute l’industrie du cinéma. Peut-être pas encore cette année (ndlr: le premier film bénéficiant de la technologie est attendu dans un an), mais assurément dès 2024».