El futuro llegó hace rato. OpenAI y su CEO Sam Altman se lo tomaron en serio y en poco meses dieron un gran paso desde la creación de imágenes estáticas a la construcción de imágenes en movimiento mediante inteligencia artificial.
Aún en fase de prueba, se brindaron ejemplos del funcionamiento de esta inteligencia artificial. Virtudes, defectos y cómo detectar imágenes “falsas”.
El futuro llegó hace rato. OpenAI y su CEO Sam Altman se lo tomaron en serio y en poco meses dieron un gran paso desde la creación de imágenes estáticas a la construcción de imágenes en movimiento mediante inteligencia artificial.
Sora es la nueva herramienta que la empresa que trajo al mercado el ChatGPT ha presentado en los últimos días con pequeños pantallazos de su versión de prueba.
Aún sin precisiones sobre qué nivel de usuarios tendrá acceso a su utilización en el futuro, de momento sólo se le otorgó a una serie de artistas visuales, diseñadores y cineastas para “obtener comentarios sobre cómo hacer avanzar el modelo para que sea más útil para los profesionales creativos”, indicaron desde OpenAI.
El funcionamiento de Sora es simple y los resultados sorprendentes. En base a pequeños comandos de texto o incluso partiendo de imágenes incompletas, logra crear escenas “realistas o imaginativas”.
La gama de oportunidades que traería el uso masivo de esta IA es fascinante a la par de temeraria. La frontera parece correrse cada vez más lejos.
Sora tiene la capacidad de crear videos de hasta un minuto de duración con alta precisión en campos realistas, pero sobre todo en “universos ficticios”. Con un riesgo menor, el mundo de la animación podría encontrar el mejor aliado en esta IA.
“Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo. El modelo comprende no sólo lo que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en el mundo físico”, describe oficialmente OpenAI.
La herramienta no sólo puede partir desde una imagen de base, también es capaz de tomar un vídeo existente y ampliarlo o completar los fotogramas faltantes.
“Utiliza la técnica de recaptioning de DALL·E 3, que implica generar subtítulos altamente descriptivos para los datos de entrenamiento visual. Como resultado, el modelo puede seguir más fielmente las instrucciones de texto del usuario en el vídeo generado”, agregan los investigadores.
:Si bien, puede suceder lo mismo que con las herramientas generativas de texto, que en semanas/meses ya tuvo competidores fuertes. OpenAI nuevamente parte con ventaja en esta carrera y presenta un producto que hasta el momento no posee competidor en el mercado.
Sam Altman respondió a usuarios de X que le realizaron pedidos de creaciones con Sora y las publicó dentro de la plataforma ex Twitter:
Los problemas de estas representaciones artificiales desde el mundo virtual siguen siendo las mismas. Del lado de la objetividad, las manos y movimientos de ojos siguen teniendo elementos erráticos. Por el lado de la subjetividad, las facciones y la “humanidad” de los personajes creados mantienen intriga e incomodidad en el observador.
El término de “valle inquietante” sigue vivo. A pesar de la precisión de las creaciones de Sora, hay “algo” que al ojo humano no termina de cerrarle. La cercanía en exceso a la apariencia y comportamiento de seres humanos “reales” mantienen cierto rechazo.
Una de las críticas sobre ChatGPT giraba en torno a los problemas para comprender en profundidad los contextos. En el caso de Sora suelen repetirse pero en situaciones de “causa y efecto”.
OpenAI admite los lógicos fallos que pueden observarse en algunos de los ejemplos presentados. “Sora a veces crea movimientos físicamente inverosímiles”, “Pueden aparecer animales o personas de forma espontánea, especialmente en escenas que contienen muchas entidades”, “Modelado físico inexacto y “transformación” de objetos antinaturales” o “A veces no logra modelar la silla como un objeto rígido, lo que genera interacciones físicas inexactas”, como algunos de los ejemplos que dan.
El más llamativo es este video en el cual una mujer sopla las velas de su cumpleaños y los personajes secundarios de la escena presentan diversos inconvenientes, principalmente en las manos. “Simular interacciones complejas entre objetos y múltiples personajes suele ser un desafío para el modelo, lo que a veces resulta en generaciones divertidas”, aclara OpenAI, aunque en lugar de divertido toma tintes espeluznantes.
La preocupación vuelve a tomar partido con el caso de Sora. Al igual que las posibilidades, los peligros se multiplican ante la aparición de estas herramientas.
La capacidad para discernir entre imágenes del mundo “real” y las “falsas” (términos en disputa ya que técnicamente las creaciones de las IAs sí son elementos que existen) debe entrenarse día a día. Cuando el ojo, el cerebro y los conocimientos se adaptan, aparece un nuevo desafío.
Actualmente, la creación de imágenes ya posó incluso sobre la agenda diaria de políticos de los más altos estratos. Las redes sociales están plagadas de imágenes nacidas de la inteligencia artificial, pero aún no se plantearon escenarios de riesgo contundentes. Esto no quita que un eventual conflicto por confusión o una exitosa difamación no estén a la vuelta de la esquina.
Dentro de una extensa lista de productos, OpenAI recomienda para sus propias herramientas el uso de sitios web como Content Credentials Verify, el cual permite verificar si una imagen fue generada por la API de OpenAI o ChatGPT.
Para enfrentar el panorama tecnológico y a determinados contenidos de redes sociales, el instinto, el chequeo “casero” y la cautela continúan como las vías más efectivas.