La inteligencia artificial de Open AI ya puede generar imágenes a partir de frases como «un sillón con forma de aguacate»

La inteligencia artificial de Open AI ya puede generar imágenes a partir de frases como "un sillón con forma de aguacate"


Ilustración para el artículo titulado

Imagen: Open AI

Open AI ha creado una inteligencia artificial que convierte frases en imágenes. Se llama DALL·E (un juego de palabras entre WALL·E y Dalí) y es una versión reducida del potente generador de textos GPT-3.

DALL·E, una versión de 12.000 millones de parámetros de GPT-3, ha sido entrenada con un segundo modelo llamado CLIP que aprendió a reconocer imágenes a partir de sus descripciones de texto; no de etiquetas como “gato” o “plátano”, que es como se entrena la mayoría de modelos de reconocimiento de imágenes, sino de descripciones completas sacadas de internet.

Según Open AI, CLIP puede identificar objetos más allá del conjunto de datos con el que fue entrenado, mientras que DALL·E es capaz de dibujar cosas como:

Un reloj verde pentagonal

undefined

Imagen: Open AI

Una foto de comida china

undefined

Imagen: Open AI

Una vista de corte transversal de una nuez

undefined

Imagen: Open AI

Un caracol hecho de arpa

undefined

Imagen: Open AI

Una ilustración de un rábano bebé con tutú paseando a un perro

undefined

Imagen: Open AI

Un capibara sentado en un campo en distintos estilos artísticos

undefined

Imagen: Open AI

Todos estos conjuntos de 30 imágenes fueron generados automáticamente por DALL·E a partir de las descripciones escritas de los investigadores y seleccionadas por CLIP, que decidió cuáles se ajustaban mejor a ellas.

Si la versión generadora de texto de GPT-3 imitaba de forma escalofriantemente precisa la escritura humana, DALL·E es capaz de predecir la visión de los humanos de maneras incluso más creativas que los propios humanos.

La inteligencia artificial no solo obedece a la semántica de las descripciones, sino que es capaz de crear versiones antropomórficas de animales y objetos, y de combinar conceptos que no pueden relacionarse de forma plausible.

Con 175.000 millones de parámetros, GPT-3 es la red neuronal más grande del mundo. Su creadora, Open AI, es una compañía sin ánimo de lucro fundada por inversores como Sam Altman y Elon Musk, quien se desvinculó del proyecto. Microsoft invirtió mil millones de dólares en 2019, casi cuatro años después de su fundación. La API de GPT-3 está disponible como beta privada.

Lo más vendido de Tecnología

Bestseller No. 1
Tecnología Natural
  • Amazon Prime Video (Video on Demand)
  • Steve Nicholls (Director)
Bestseller No. 2
Corto circuito
  • Amazon Prime Video (Video on Demand)
  • Ally Sheedy, Steve Guttenberg, Fisher Stevens (Actors)
  • John Badham (Director)
Bestseller No. 3
Todo y nada: La scienza stupefacente dello spazio vuoto
  • Amazon Prime Video (Video on Demand)
  • Nic Stacey (Director)
Bestseller No. 5
El proyecto colibrí
  • Amazon Prime Video (Video on Demand)
  • Jesse Eisemberg, Alexander Skarsgard, Salma Hayek (Actors)
  • Kim Nguyen (Director)

Fuente original