Microsoft AI extrae objetos de descripciones de texto

Según un artículo académico publicado por investigadores de Microsoft, el nuevo software de inteligencia artificial desarrollado en Microsoft puede "dibujar" esencialmente cualquier cosa, desde descripciones textuales. Por ejemplo, si un usuario le pide a la computadora que "dibuje un pájaro amarillo con alas negras y un pico pequeño", el resultado sería el que ve en la imagen.

Estas aves pueden no existir en el mundo real, son solo un aspecto de la imaginación de nuestra computadora sobre las aves.

“Si abres la búsqueda de aves Bing, verás fotos de aves. Pero aquí, las fotos son creadas por la computadora, píxel por píxel, desde cero ”, comentó el líder de investigación de Microsoft, Xiaodong He, en una publicación oficial de Microsoft. "Estas aves pueden no existir en el mundo real, son solo un aspecto de la imaginación de las aves de nuestra computadora", agregó.

Además detalla que los resultados actuales traídos por la computadora no son perfectos, pero pueden acercarse. La idea es que dicho software inteligente pueda eventualmente servir como asistente de diseño para artistas o incluso diseñadores de interiores.

microsoft

En el futuro, tal profesional podría tomar una fotografía de un entorno hogareño y luego pedir una computadora: "Agregue un sillón tapizado en madera gris de estilo modernista en la esquina izquierda". La computadora no solo podría ayudar a configurar el entorno sino también crear muebles y otros elementos.

Proceso

La investigación inicial del equipo que trabaja en este proyecto en Microsoft comenzó experimentando con CaptionBot, un sistema de inteligencia artificial que puede escribir subtítulos descriptivos para cualquier foto. Luego crearon otro software de IA que puede responder a las preguntas de las personas sobre una foto, SeenAI, que puede ser especialmente útil para las personas con discapacidad visual.

Finalmente, el grupo pudo desarrollar una tecnología capaz de generar estos dibujos a partir de descripciones textuales. La primera parte se llama Generative Adversarial Network (GAN), diseñada para generar imágenes, y la segunda parte se conoce como un "Discriminador", que juzga la calidad de las fotos.

La atención es un concepto humano; Usamos las matemáticas para hacer de la atención un concepto computacional

Este sistema fue entrenado con pares de imágenes subtituladas para que el software pudiera entender qué palabras coincidían con qué imágenes. Más tarde, fue necesario crear un modelo matemático para centrarse en la creación desarrollada por el sistema. “La atención es un concepto humano; Usamos las matemáticas para hacer de la atención un concepto computacional ”, dijo He.

El investigador cree que eventualmente será posible crear películas animadas a partir de guiones escritos usando sistemas como este, pero no tenemos predicciones sobre cuándo algo de este tipo podría aplicarse comercialmente a cualquier producto de Microsoft.

Microsoft AI "dibuja" objetos de descripciones de texto a través de TecMundo