top of page
  • Writer's picturecriptodiadia

Microsoft ha creado una red neuronal universal Kosmos-1

Microsoft presentó la red neuronal Kosmos-1, que combina contenido de texto, imágenes, audio y video como entrada.

Foto: forklog.


Los investigadores llamaron al sistema un "modelo de gran lenguaje multimodal". En su opinión, dichos algoritmos se convertirán en la base de la IA general (AGI), que podrá realizar tareas a nivel humano.


"Como parte básica de la inteligencia, la percepción multimodal es esencial para lograr AGI en términos de adquisición de conocimiento y vinculación con el mundo real", dijeron los investigadores.


Según los ejemplos del artículo, Kosmos-1 puede:

  • analizar imágenes y responder preguntas sobre ellas;

  • leer texto de imágenes;

  • crear leyendas de imágenes;

  • pasar una prueba de coeficiente intelectual visual con una precisión del 22-26%.

Demostración del funcionamiento de la red neuronal Kosmos-1. Los cuadros azules indican la solicitud, los cuadros rojos indican la respuesta del modelo. Datos: Microsoft.


Microsoft entrenó a Kosmos-1 con datos de Internet, incluido el recurso de texto en inglés de 800 GB The Pile y el archivo web Common Crawl. Después del entrenamiento, los investigadores evaluaron las habilidades del modelo en varias pruebas:

  • comprensión y generación del lenguaje;

  • clasificación de texto sin reconocimiento óptico de caracteres;

  • subtítulos para imágenes;

  • respuestas visuales a las preguntas;

  • respuestas a preguntas de la página web;

  • clasificación de imágenes de tiro cero.

Demostración de comunicación con Kosmos-1 sobre imágenes. Datos: Microsoft.


Según Microsoft, Kosmos-1 superó a los modelos actuales en muchas de estas pruebas. En un futuro cercano, los investigadores planean publicar el código fuente del proyecto en GitHub.


#Microsoft

bottom of page