Los videos deepfake se están volviendo aterradores

Si la tecnología continúa en su trayectoria actual, será imposible detectar videos falsos asistidos por IA.

En esta etapa de su desarrollo, algo innegablemente espeluznante todavía está presente en los deepfakes, una etiqueta general pero engañosa para los videos falsos creados y manipulados con la ayuda de la inteligencia artificial (IA) y el aprendizaje automático profundo.

No son solo los videos extraños, un poco apagados y no del todo correctos producidos por estos programas de software cada vez más sofisticados. Aunque, sí, pueden ser inquietantes. Y tampoco es solo el dilema ético de alterar fotos y videos originales. Aunque eso definitivamente es asaltar un nido de avispas.

Principalmente, es la idea de que nos estamos acercando rápidamente a un punto en el que simplemente no podemos confiar en nuestros propios ojos. ¿Es esa foto una representación fiel de su tema? ¿Es ese vídeo? ¿Ese rostro va con ese cuerpo? ¿Esas palabras van con esa cara?

¿Puede ese tipo realmente ¿bailar así?

La informática detrás de los deepfakes

Hace mucho tiempo, a fines de 2017, un usuario de Reddit conocido como Deepfakes, según Know Your Meme, reveló algunos videos pornográficos de intercambio de caras:es exactamente tan triste y tonto como suena; la cara de alguien, a menudo una figura pública, superpuesta a la cabeza de otra persona, y comenzó el frenesí de las falsificaciones profundas.

Poco después, Deepfakes lanzó una aplicación, FakeApp, y la gente saltó sobre ella. Desde entonces, se han producido todo tipo de memes de ese y otros programas, algunos divertidos, otros simplemente espeluznantes, algunos peores. Incluyen la cara de Nicolas Cage en el cuerpo de Amy Adams (interpretando a Lois Lane en una película de Superman) y una gran producción de BuzzFeed con el comediante Jordan Peele, como el ex presidente Barack Obama, quien advierte sobre algunos de los usos posiblemente más siniestros de la tecnología en un tono ligeramente Video NSFW (que termina con Fauxbama diciendo:"¡Quédate despierto, bi$%*es!").

El último video falso profundo fue cortesía de un TikToker que se hace pasar por Tom Cruise. Tres videos son sorprendentemente reales y muestran a Cruise, entre otras cosas, golpeando una pelota de golf. Los videos fueron creados por Chris Ume, un especialista en efectos visuales de Bélgica.

La informática utilizada para crear los programas detrás de estos videos puede ser extremadamente compleja, mucho más intensa que la que se usa para simples falsificaciones profundas. Algoritmos intrincados y términos informáticos como redes adversarias generativas (GAN) y redes neuronales profundas salpican los documentos académicos de las técnicas de edición de video más avanzadas.

Generalmente, lo que hacen estos programas es examinar el video de un sujeto cuadro por cuadro y "aprender" el tamaño, la forma y los movimientos del sujeto para que puedan transferirse a otro sujeto en el video. Mientras que los deepfakes se han limitado principalmente a intercambiar las caras de los sujetos, los programas más avanzados pueden transferir posiciones de cabeza en 3D completas, incluidas cosas como una cabeza inclinada, una ceja levantada o un conjunto de labios fruncidos. Se han realizado algunos trabajos sobre los movimientos de todo el cuerpo.

Cuanto más detectan estos programas, más variables alimentan y "aprenden" estas redes, más eficientes, efectivos y realistas se vuelven los videos.

Más allá de las falsificaciones

Es importante tener en cuenta que no todas las técnicas de edición de videos y fotos basadas en inteligencia artificial y aprendizaje automático son falsificaciones profundas. Los académicos que trabajan en el campo ven las falsificaciones profundas como amateurs, relegadas a un mero intercambio de caras.

Un grupo de la Universidad de California en Berkeley está trabajando en una técnica que pone en movimiento un cuerpo completo (un bailarín profesional) y lo cambia al cuerpo de un aficionado en un video. Entonces, con un poco de magia de IA, incluso alguien con dos pies izquierdos puede al menos parecer que se mueve como Baryshnikov. El grupo de Berkeley detalla su trabajo en el periódico Everybody Dance Now.

La técnica no es perfecta, por supuesto. Pero esto es algo complicado. Incluso lograr una cara en movimiento generada por computadora es difícil. A partir de ahora, la mayoría de las caras generadas por IA, incluso en deepfakes, especialmente en deepfakes, son falsificaciones obvias. Algo, casi invariablemente, parece un poco fuera de lugar.

"Creo que una cosa son los detalles de las sombras de los rostros", dice Tinghui Zhou, estudiante de posgrado en informática en Berkeley y uno de los autores de Everybody Dance Now. "Nosotros [los humanos] somos muy buenos para identificar si una cara es real o no:los detalles de las sombras, cómo se mueven las arrugas, cómo se mueven los ojos, todo ese tipo de detalles deben ser exactamente correctos. Creo que el sistema de aprendizaje automático en estos días todavía no es capaz de capturar todos esos detalles".

Otro nuevo sistema de manipulación de video de IA, o, como lo llaman sus arquitectos, una "reanimación fotorrealista de videos de retratos", en realidad utiliza un actor "fuente" que puede alterar la cara de un actor "objetivo".

Usted, la "fuente" (por ejemplo), mueve la boca de cierta manera, las computadoras mapean el movimiento, lo introducen en el programa de aprendizaje y el programa lo traduce a un video en el que Obama pronuncia sus palabras. Te ríes o levantas una ceja, y Obama también lo hace.

Un artículo sobre ese proceso, conocido como Deep Video Portraits, se presentó en una conferencia de gráficos por computadora y técnicas interactivas en Vancouver a mediados de agosto de 2018, y revela un lugar para el programa:Hollywood.

"[L]os videos generados por computadora han sido una parte integral de los largometrajes durante más de 30 años. Prácticamente todas las producciones cinematográficas de alto nivel contienen un porcentaje significativo de imágenes generadas por computadora, o CGI, desde El señor de los anillos hasta Benjamin. Button", escriben los autores. "Estos resultados son difíciles de distinguir de la realidad y, a menudo, pasa desapercibido que este contenido no es real... pero el proceso llevó mucho tiempo y requirió expertos en el dominio. La producción de incluso un breve videoclip sintético cuesta millones en presupuesto y múltiples meses de trabajo, incluso para artistas con formación profesional, ya que tienen que crear y animar manualmente grandes cantidades de contenido 3D".

Gracias a la IA, ahora podemos producir las mismas imágenes en mucho menos tiempo. Y más barato Y, si no ahora, pronto, igual de convincente.

Caminando por la cuerda floja ética

El proceso de manipular un video existente o crear un nuevo video con imágenes falsas, como advierten el comediante Peele y otros, puede ser francamente peligroso en las manos equivocadas. A algunas actrices y artistas prominentes les robaron sus rostros y los entretejieron en videos pornográficos en los primeros ejemplos más inquietantes de falsificaciones profundas. Usar imágenes para, como advirtió Peele con su video de Obama, producir "noticias falsas" es una posibilidad muy real.

Muchos puntos de venta ya han tomado medidas para detener las falsificaciones profundas. Reddit, de hecho, cerró los subReddit deepfakes. Pornhub promete prohibir la pornografía generada por IA. Tumblr y Twitter se encuentran entre otros sitios para prohibir las falsificaciones profundas pornográficas.

Pero estos videos pueden no ser particularmente fáciles de vigilar, especialmente a medida que mejoran los programas para crearlos. Michael Zollhöfer, profesor de informática en Stanford y una de las mentes detrás de Deep Video Portraits, dice que la comunidad académica es consciente de la ética involucrada. De Zollhöfer, en un comunicado de prensa anunciando su proyecto:

La industria de los medios ha estado retocando fotos con software de edición de fotos durante muchos años, lo que significa que la mayoría de nosotros hemos aprendido a tomar lo que vemos en las fotos con una pizca de sal. Con la tecnología de edición de video en constante mejora, también debemos comenzar a ser más críticos con el contenido de video que consumimos todos los días, especialmente si no hay prueba de origen.

Todos los involucrados en la construcción de esta tecnología, dice Zhou, deben tomar las medidas adecuadas para garantizar que no se use indebidamente. Desarrollar software para detectar videos mejorados o alterados por computadora, y marcar el video con "marcas de agua" invisibles para mostrar, bajo evaluación forense, que son generados por computadora, ayudará. De nuevo, de Deep Video Portraits:

Es importante tener en cuenta que la investigación detallada y la comprensión de los algoritmos y principios detrás de las herramientas de edición de video de última generación, tal como las llevamos a cabo, también es la clave para desarrollar tecnologías que permitan la detección de su uso. ... Los métodos para detectar manipulaciones de video y los métodos para realizar la edición de video se basan en principios muy similares.

Dice Zhou:"Creo que nosotros, como investigadores, definitivamente tenemos la responsabilidad de aumentar la conciencia pública en términos del abuso de estas tecnologías. Pero quiero enfatizar:hay muchos usos positivos de esta investigación. Hemos tenido solicitudes de bailarines para usar nuestra investigación para ayudarlos a bailar. Hay aspectos positivos de esta tecnología".

Lo que nos espera

El campo continúa mejorando a medida que los programas se vuelven más sofisticados y las máquinas aprenden mejor cómo superar las fallas obvias y menos obvias en estos videos y fotos generados por computadora. Dónde puede ir es una incógnita. Pero a muchos les preocupa que las mejoras en la tecnología puedan llegar tan rápido que podríamos estar entrando en una era en la que ya no podemos confiar en lo que vemos y escuchamos.

Y eso nos lleva a otro tipo de videos falsos que también podrían causar problemas importantes, especialmente para las próximas elecciones presidenciales de 2020:las falsificaciones tontas. En mayo de 2019, por ejemplo, un video distorsionado de la presidenta de la Cámara de Representantes, Nancy Pelosi, corrió como la pólvora en las redes sociales. El video parecía mostrar a Pelosi insultando y dando tumbos en un discurso. En realidad, el video fue alterado digitalmente por un bloguero deportivo y "superfanático de Trump" de Nueva York, quien luego lo subió a Facebook. El video fue rápidamente desacreditado, pero para entonces ya había sido visto millones de veces. YouTube lo eliminó diciendo que el video violaba sus estándares. Sin embargo, Facebook lo mantuvo en el sitio y solo dijo que el video era "falso" y que intentaría limitar cuánto se podía compartir.

Si bien este video alterado de Pelosi no es tan técnico como un deepfake, Hany Farid, un experto en análisis forense digital de la Universidad de California, Berkeley, le dijo a NPR que eso es lo que lo hace aún más preocupante. Estos están etiquetados como tontos porque son más fáciles y baratos de producir que los deepfakes. Por lo general, requiere cambiar la velocidad del video o una edición básica para producir un nuevo video persuasivo.

"El tiempo corre", dijo Farid a NPR. "El video de Nancy Pelosi era un canario en una mina de carbón".

Publicado originalmente:5 de septiembre de 2018