POSDATA Digital Press POSDATA Digital Press

Laboratorios de IA se niegan a abrir sus sistemas de código abierto

Te contamos los motivos.

Tecnología 21/08/2022 Rossny Ludelman Rossny Ludelman
IA-códigos cerrados-posdata-digital-press
Crédito:tekcrispy

POSDATA Digital Press | Argentina

Los puntos de referencia, bien sea en la IA u otra rama de aprendizaje, ayuda a que las personas puedan progresar y mejorar. Es por ello que, específicamente en el campo de la tecnología, la comunidad cree que es necesario que las grandes empresas y laboratorios de IA liberen sus sistemas de código abierto. La comunidad ni siquiera puede verificar el funcionamiento del código, pues siempre suele estar custodiado por grandes corporaciones. Un ejemplo de ello lo vemos en OpenAI, empresa que le otorgó a Microsoft  los derechos de licencia exclusivos de su poderoso modelo de lenguaje GPT-3. 

En este artículo hablaremos sobre la necesidad de un sistema de código abierto y las compañías que trabajan para que eso ocurra. 

¿Por qué las grandes corporaciones no manejan un sistema de código abierto?

 Algunas organizaciones dicen que el código que utilizan para desarrollar sistemas dependen de herramientas e infraestructura internas imposibles de liberar o que utilizan conjuntos de datos protegidos por derechos de autor. 

Pero más allá de que las motivaciones sean o no éticas, el efecto es el mismo. Sin un sistema de código abierto necesario, es muy difícil para los investigadores externos verificar las afirmaciones de una organización.

De acuerdo con Gustaf Ahdritz, Ph.D. en ciencias informáticas de Columbia: “Esta no es realmente una alternativa suficiente a las buenas prácticas de código abierto de la industria”. Ahdritz es uno de los principales desarrolladores de OpenFold, una versión de código abierto de AlphaFold 2, que predice la estructura de proteínas de DeepMind . “Es difícil hacer toda la ciencia que a uno le gustaría hacer con el código que DeepMind lanzó”.

Otros investigadores llegaron a decir que ocultar el código de un sistema “socava su valor científico”. En octubre de 2020, una refutación  publicada en la revista  Nature discrepó con un sistema de predicción del cáncer entrenado por Google Health. Los coautores del estudio señalaron que Google ocultó detalles técnicos clave, incluida una descripción de cómo se desarrolló el sistema, hecho que podría afectar su rendimiento.

Los miembros de la comunidad no desean un cambio, quieren abrir los sistemas de código abierto

Algunos miembros de la comunidad de IA, como Ahdritz, se han propuesto una gran misión: abrir los sistemas de código abierto. Estos investigadores, a partir de documentos técnicos,  intentan recrear minuciosamente los sistemas, ya sea desde cero o basándose en fragmentos de especificaciones disponibles públicamente.

OpenFold es uno de esos esfuerzos. Este proyecto inició poco después de que DeepMind anunciara AlphaFold 2. El objetivo es verificar que AlphaFold 2 se pueda reproducir desde cero y poner a disposición componentes del sistema que podrían ser útiles en otros lugares, según Ahdritz.

Esto dijo Ahdritz al respecto.”Confiamos en que DeepMind proporcionó todos los detalles necesarios, pero no tenemos pruebas concretas de eso, por lo que este esfuerzo es clave para proporcionar ese rastro y permitir que otros lo desarrollen. Además, originalmente, ciertos componentes de AlphaFold estaban bajo una licencia no comercial. Nuestros componentes y datos (DeepMind aún no ha publicado sus datos de capacitación completos) serán completamente de código abierto, lo que permitirá la adopción de la industria”.

Proyectos similares a OpenFold
Hay otros grupos de la comunidad de IA que están intentando realizar este tipo de implementaciones. Estos son algunos de ellos: 

  • Codex generador de código de OpenAI. 
  • DALL-E de creación de arte. 
  • AlphaZero de DeepMind para jugar al ajedrez. 
  • AlphaStar, un sistema DeepMind diseñado para jugar el juego de estrategia en tiempo real StarCraft. 2. 

EleutherAI y BigScience de Hugging Face, una startup de IA, que tienen como objetivo entregar el código y los conjuntos de datos necesarios para ejecutar un modelo comparable (aunque no idéntico) a GPT-3.

¿Qué beneficios podría traer tener un sistema de código abierto?

Los desarrolladores que están detrás de estas iniciativas dicen que un sistema de código abierto ayudará a demostrar si los sistemas funcionan como se anuncian, y también permitirá crear nuevas aplicaciones y un mejor soporte de hardware. Los sistemas de grandes laboratorios y empresas como DeepMind, OpenAI, Microsoft, Amazon y Meta se entrenan en servidores de centros de datos costosos y con mucha más potencia de cómputo que la estación de trabajo promedio, lo que se suma a los obstáculos de abrirlos.

La implementación de sistemas propietarios en código abierto está plagada de desafíos, especialmente cuando hay poca información pública para continuar. Por ejemplo, al desarrollar OpenFold, Ahdritz y su equipo tuvieron que recopilar información de los materiales oficiales y conciliar las diferencias entre las diferentes fuentes. Incluido el código fuente, el código complementario y las presentaciones que los investigadores de DeepMind dieron desde el principio. Hubo muchas ambigüedades, tales como la preparación de datos y el código de entrenamiento, pues llevaron a falsos comienzos. Y la falta de recursos de hardware requería compromisos de diseño.

¿Todo esto quiere decir que los laboratorios detrás de los sistemas patentados, como OpenAI, se preocupan de que su trabajo sea sometido a ingeniería inversa? ¿Incluso que las empresas emergentes lo utilicen para lanzar servicios de la competencia? Ahdritz dice que ello no es así, pues el hecho de que DeepMind publicara tantos detalles sobre sus sistemas sugiere que respalda implícitamente los esfuerzos. 

Ahdritz señala: “No hemos recibido ninguna indicación clara de que DeepMind desaprueba o aprueba este esfuerzo. Pero ciertamente, nadie ha tratado de detenernos”.

Esperamos que él y otros desarrolladores logren avanzar con sus iniciativas. Y así pueda democratizarse el conocimiento en IA.

Fuente:https://www.tekcrispy.com/

Lo más visto

Boletín de noticias