criptodiadia
Microsoft ha creado una red neuronal universal Kosmos-1
Microsoft presentó la red neuronal Kosmos-1, que combina contenido de texto, imágenes, audio y video como entrada.

Foto: forklog.
Los investigadores llamaron al sistema un "modelo de gran lenguaje multimodal". En su opinión, dichos algoritmos se convertirán en la base de la IA general (AGI), que podrá realizar tareas a nivel humano.
"Como parte básica de la inteligencia, la percepción multimodal es esencial para lograr AGI en términos de adquisición de conocimiento y vinculación con el mundo real", dijeron los investigadores.
Según los ejemplos del artículo, Kosmos-1 puede:
analizar imágenes y responder preguntas sobre ellas;
leer texto de imágenes;
crear leyendas de imágenes;
pasar una prueba de coeficiente intelectual visual con una precisión del 22-26%.

Demostración del funcionamiento de la red neuronal Kosmos-1. Los cuadros azules indican la solicitud, los cuadros rojos indican la respuesta del modelo. Datos: Microsoft.
Microsoft entrenó a Kosmos-1 con datos de Internet, incluido el recurso de texto en inglés de 800 GB The Pile y el archivo web Common Crawl. Después del entrenamiento, los investigadores evaluaron las habilidades del modelo en varias pruebas:
comprensión y generación del lenguaje;
clasificación de texto sin reconocimiento óptico de caracteres;
subtítulos para imágenes;
respuestas visuales a las preguntas;
respuestas a preguntas de la página web;
clasificación de imágenes de tiro cero.

Demostración de comunicación con Kosmos-1 sobre imágenes. Datos: Microsoft.
Según Microsoft, Kosmos-1 superó a los modelos actuales en muchas de estas pruebas. En un futuro cercano, los investigadores planean publicar el código fuente del proyecto en GitHub.