Lo que hay que saber sobre las empresas de tecnología que utilizan la IA para enseñar su IA

OpenAI, Google y otras empresas de tecnología entrenan sus chatbots con enormes cantidades de datos recopilados de libros, artículos de Wikipedia, noticias y otras fuentes de Internet. Pero en el futuro esperan utilizar algo llamado datos sintéticos.

Esto se debe a que es posible que las empresas de tecnología se estén quedando sin texto de alta calidad que Internet tiene para ofrecer para el desarrollo de la IA. Y las empresas se enfrentan a demandas de derechos de autor por parte de autores, organizaciones de noticias y programadores informáticos por utilizar sus obras sin permiso. (En una de estas demandas, The New York Times demandó a OpenAI y Microsoft).

Según ellos, los datos sintéticos ayudarán a reducir los problemas de derechos de autor y aumentarán el suministro de materiales de formación necesarios para la inteligencia artificial. Esto es lo que debe saber al respecto.

¿Qué son los datos sintéticos?

Son datos generados por inteligencia artificial.

¿Significa esto que las empresas de tecnología quieren que la IA sea entrenada por IA?

SÍ. En lugar de entrenar modelos de IA con texto escrito por personas, empresas de tecnología como Google, OpenAI y Anthropic esperan entrenar su tecnología con datos generados por otros modelos de IA.

¿Funcionan los datos sintéticos?

No exactamente. Los modelos de IA cometen errores e inventan cosas. También se ha demostrado que capturan los sesgos que aparecen en los datos de Internet a partir de los cuales fueron entrenados. Por lo tanto, si las empresas utilizan la IA para entrenarla, pueden terminar amplificando sus propios defectos.

¿Las empresas de tecnología utilizan ampliamente los datos sintéticos en este momento?

No. Las empresas tecnológicas están experimentando con ello. Pero debido a los posibles fallos de los datos sintéticos, no son una parte importante de cómo se construyen los sistemas de IA en la actualidad.

Entonces, ¿por qué las empresas de tecnología dicen que los datos sintéticos son el futuro?

Las empresas creen que pueden perfeccionar la forma en que se crean los datos sintéticos. OpenAI y otros han explorado una técnica en la que dos modelos de IA diferentes trabajan juntos para generar datos sintéticos más útiles y confiables.

Un modelo de inteligencia artificial genera los datos. Luego, un segundo modelo juzga los datos, tal como lo haría un humano, decidiendo si los datos son buenos o malos, precisos o no. En realidad, los modelos de IA son mejores para juzgar el texto que para escribirlo.

«Si le das a la tecnología dos cosas, es bastante bueno elegir cuál se ve mejor», dijo Nathan Lile, director ejecutivo de la startup de inteligencia artificial SynthLabs.

La idea es que esto proporcionará los datos de alta calidad necesarios para entrenar un chatbot aún mejor.

¿Funciona esta técnica?

Un tipo de. Todo se reduce a ese segundo modelo de IA. ¿Qué tan bueno es para juzgar el texto?

Anthropic ha sido el más expresivo en sus esfuerzos para que esto funcione. Desarrolla el segundo modelo de inteligencia artificial utilizando una «constitución» seleccionada por los investigadores de la empresa. Esto enseña al modelo a elegir un texto que apoye ciertos principios, como la libertad, la igualdad y la fraternidad, o la vida, la libertad y la seguridad personal. El método de Anthropic se conoce como “IA constitucional”

Así es como dos modelos de IA funcionan en conjunto para producir datos sintéticos mediante un proceso como el de Anthropic:

Aun así, se necesitan humanos para garantizar que el segundo modelo de IA se mantenga en marcha. Esto limita la cantidad de datos sintéticos que este proceso puede generar. Y los investigadores no están de acuerdo sobre si un método como el de Anthropic seguirá mejorando los sistemas de IA.

¿Los datos sintéticos ayudan a las empresas a evitar el uso de información protegida por derechos de autor?

Los mismos modelos de IA que generan datos sintéticos se entrenaron con datos creados por humanos, muchos de los cuales tenían derechos de autor. Por lo tanto, los titulares de derechos de autor aún pueden afirmar que empresas como OpenAI y Anthropic han utilizado textos, imágenes y vídeos protegidos por derechos de autor sin permiso.

Jeff Clune, profesor de informática de la Universidad de Columbia Británica que anteriormente trabajó como investigador en OpenAI, dijo que los modelos de inteligencia artificial podrían llegar a ser algo más poderosos que el cerebro humano. Pero lo harán porque aprendieron del cerebro humano.

«Tomando prestado de Newton: la IA ve más allá al apoyarse en conjuntos de datos humanos gigantes», dijo.

Más información