Hugging Face y ServiceNow lanzan BigCode, un proyecto para abrir sistemas de IA generadores de código fuente

Hugging Face y ServiceNow lanzan BigCode, un proyecto para abrir sistemas de IA generadores de código fuente

Los sistemas de generación de código como AlphaCode de DeepMind, CodeWhisperer de Amazon y Codex de OpenAI, que impulsa el servicio Copilot de GitHub, brindan una mirada tentadora de lo que es posible con la IA hoy en día dentro del ámbito de la programación informática. Pero hasta ahora, sólo un puñado de tales sistemas de IA se han puesto a disposición del público de forma gratuita y de código abierto, lo que refleja los incentivos comerciales de las empresas que los construyen.

En un intento por cambiar eso, la startup de IA Hugging Face y ServiceNow Research, la división de I+D de ServiceNow, lanzaron hoy Código grande, un nuevo proyecto que tiene como objetivo desarrollar sistemas de inteligencia artificial “de última generación” para código de una manera “abierta y responsable”. El objetivo es finalmente liberar un conjunto de datos lo suficientemente grande como para entrenar un sistema de generación de código, que luego se usará para crear un prototipo: un modelo de 15 mil millones de parámetros, más grande que Codex (12 mil millones de parámetros) pero más pequeño que AlphaCode (~41 400 millones de parámetros), utilizando el clúster de tarjetas gráficas interno de ServiceNow. En el aprendizaje automático, los parámetros son las partes de un sistema de IA aprendidas a partir de datos de entrenamiento históricos y esencialmente definen la habilidad del sistema en un problema, como la generación de código.

Inspirado por el esfuerzo BigScience de Hugging Face para abrir sistemas de generación de texto altamente sofisticados, BigCode estará abierto a cualquier persona que tenga experiencia profesional en investigación de IA y pueda dedicar tiempo al proyecto, dicen los organizadores. El formulario de aplicación salió en vivo esta tarde.

“En general, esperamos que los solicitantes estén afiliados a una organización de investigación (ya sea en la academia o la industria) y trabajen en los aspectos técnicos/éticos/legales de [large language models] para aplicaciones de codificación”, escribió ServiceNow en un entrada en el blog. “Una vez el [code-generating system] está capacitado, evaluaremos sus capacidades… Nos esforzaremos por hacer que la evaluación sea más fácil y más amplia para que podamos aprender más sobre el [system’s] capacidades.”

Al desarrollar en colaboración un sistema de generación de código, que será de código abierto bajo una licencia que permitirá a los desarrolladores reutilizarlo sujeto a ciertos términos y condiciones, BigCode busca abordar algunas de las controversias que han surgido en torno a la práctica de la IA. generación de código potenciado, particularmente en lo que respecta al uso justo. La organización sin fines de lucro Software Freedom Conservancy, entre otras, ha criticado a GitHub y OpenAI por usar código fuente público, no todo el cual está bajo una licencia permisiva, para entrenar y monetizar Codex. Codex está disponible a través de la API paga de OpenAI, mientras que GitHub recientemente comenzó a cobrar por el acceso a Copilot. Por su parte, GitHub y OpenAI continúan afirmando que Codex y Copilot no infringen ningún término de licencia.

Los organizadores de BigCode dicen que se esforzarán para garantizar que solo los archivos de los repositorios con licencias permisivas entren en el conjunto de datos de entrenamiento mencionado anteriormente. A lo largo del camino, dicen, trabajarán para establecer prácticas de IA “responsables” para capacitar y compartir sistemas de generación de código de todo tipo, solicitando comentarios de las partes interesadas relevantes antes de hacer pronunciamientos de política.

ServiceNow y Hugging Face no proporcionaron un cronograma sobre cuándo podría completarse el proyecto. Pero esperan que explore varias formas de generación de código en los próximos meses, incluidos los sistemas que autocompletan y sintetizan el código a partir de fragmentos de código y descripciones en lenguaje natural y funcionan en una amplia gama de dominios, tareas y lenguajes de programación.

Suponiendo que los problemas éticos, técnicos y legales se resuelvan algún día, las herramientas de codificación impulsadas por IA podrían reducir sustancialmente los costos de desarrollo y permitir que los programadores se concentren en tareas más creativas. De acuerdo a un estudiar de la Universidad de Cambridge, al menos la mitad de los esfuerzos de los desarrolladores se dedican a la depuración y no a la programación activa, lo que le cuesta a la industria del software un estimado de $ 312 mil millones por año.


Source link