Microsoft y NVIDIA han creado un modelo de PNL que supera al GPT-3

Microsoft y NVIDIA han creado un modelo de PNL que supera al GPT-3

Las dos multinacionales anuncian que han creado conjuntamente un modelo lingüístico basado en la IA que consideran el mayor y más potente hasta la fecha.

facade dun batiment de microsoft - Microsoft y NVIDIA han creado un modelo de PNL que supera al GPT-3

Microsoft ha diseñado un nuevo modelo de PNL con la ayuda de NVIDIA. Foto: efes / Pixabay

Los dos grupos presentan su modelo de procesamiento automático del lenguaje natural (PLN) titulado Megatron-Turing Natural Language Generation (MT-NLG). Está compuesto por 530.000 millones de parámetros, 355.000 millones más que el GPT-3, el modelo de PNL de Open AI, a menudo presentado como el más avanzado, utilizado habitualmente por la empresa fundada por Bill Gates.

Un nuevo modelo de PNL para diseñar mejores herramientas de IA

En una entrada de blog, las dos empresas afirman que la MT-NLG permite una precisión sin precedentes en una amplia gama de tareas de lenguaje natural. «Estamos deseando ver cómo la MT-NLG dará forma a los productos del futuro y motivará a la comunidad para ampliar aún más los límites de la PNL. El viaje es largo y está lejos de terminar, pero estamos entusiasmados con lo que es posible y lo que nos espera», dice Ali Alvi, director del equipo de Microsoft Turing.

Paresh Kharya, director sénior de gestión de productos y marketing de computación acelerada de Nvidia, afirmó: «La calidad y los resultados que hemos conseguido hoy son un gran paso adelante en el camino hacia la plena promesa de la IA en lenguaje natural. Ambos expertos confían en que MT-NLP, el sucesor de Turing NLG y Megatron-LM, permitirá el despliegue de modelos de IA más potentes y rápidos de entrenar.

¿Cómo se formó la MT-NLG?

Para entrenar a MT-NLG, Microsoft y Nvidia dicen haber creado un conjunto de datos de entrenamiento con 270.000 millones de tokens de sitios web escritos en inglés. A continuación, se entrenó incorporando un conjunto de ejemplos para aprender patrones entre los puntos de datos, como reglas sintácticas y gramaticales. El conjunto de datos procede en gran medida de The Pile, una colección de 835 GB de 22 conjuntos de datos más pequeños creada por EleutherAI. Se utilizaron 560 servidores NVIDIA DGX A100 para el entrenamiento. Cada una contenía 8 GPUs NVIDIA A100 de 80 GB.

En la evaluación comparativa, Microsoft afirma que su modelo puede deducir operaciones matemáticas básicas aunque los símbolos estén parcialmente ocultos. Aunque no es extremadamente preciso, el modelo parece ir más allá de la simple memorización cuando se trata de aritmética. Además, consigue completar las tareas con preguntas y proporcionar una respuesta, todo un logro.

Un modelo que aún se puede mejorar…

Aunque el modelo parece resolver uno de los mayores retos del procesamiento automático del lenguaje natural, no es inmune a los contratiempos. Como señalan las dos multinacionales: «Aunque los modelos lingüísticos gigantes avanzan en el estado del arte de la generación de idiomas, también sufren problemas y sesgos tóxicos. Por ejemplo, NVIDIA y Microsoft afirman que el modelo capta los estereotipos y prejuicios de los datos con los que se entrena.

Este problema puede llevar a situaciones delicadas, como cuando un chatbot médico dopado con GPT-3 aconsejó a un paciente que se suicidara. Los dos gigantes tecnológicos se han comprometido a hacer todo lo posible para eliminar estos nuevos sesgos.

 

Pin It on Pinterest

Shares