Microsoft

Microsoft VASA-1 AI puede hacer que una sola imagen cante o hable

La IA y sus modelos están evolucionando rápidamente. Desde generar imágenes, vídeos y audio hasta crear clips de audio y vídeo a partir de una sola imagen, ha habido una enorme mejora. Microsoft Research ha anunciado que ha presentado VASA-1, un modelo de IA que puede hacer que una imagen cante o hable. Convierte una imagen en un videoclip con audio y las expresiones faciales que se adaptan al audio.

vasa - 1

Microsoft VASA-1 AI puede hacer que una sola imagen cante o hable

VASA es un nuevo modelo de IA de Microsoft que puede generar caras parlantes hiperrealistas a partir de una sola imagen. Sólo necesita ingresar una imagen y un único clip de audio para obtener un videoclip realista. El modelo VASA no solo sincroniza los labios con el audio, sino que también genera matices faciales y momentos naturales de la cabeza para adaptarse al audio y crear un impacto realista.

El modelo VASA puede ofrecer una salida de vídeo de alta calidad y supera significativamente a otros modelos capaces de generar vídeos. También puede generar vídeos en línea de 512×512 a hasta 40 FPS con una latencia muy insignificante. Este modelo puede resultar muy útil para crear avatares realistas que emulen comportamientos conversacionales humanos.

Con VASA, los usuarios pueden controlar la generación de video ingresando condiciones para la mirada, la distancia de la cabeza y otras compensaciones emocionales. La modelo puede manejar fotografías artísticas como la Mona Lisa, audios de canto y discursos en otros idiomas para generar videos hiperrealistas.

modelo de barco

Microsoft en su artículo de investigación agregó que la investigación se centra en generar habilidades afectivas visuales para avatares virtuales de IA destinados a casos de uso positivos. Cualquier contenido que se genere con la intención de inducir a error o engañar va en contra de sus políticas. Microsoft ha reconocido que, al igual que otros modelos, este también se puede utilizar para hacerse pasar por humanos. Confían en que existe una brecha entre lo que ahora es capaz de lograr y los auténticos vídeos reales.

Microsoft no tiene planes de lanzar al público la demostración en línea, la API, los detalles de implementación adicionales ni ninguna otra oferta relacionada hasta que estén seguros de que las herramientas se utilizarán de manera responsable y siguiendo las regulaciones adecuadas.

Botón volver arriba