GPT-4: OpenAI recurre a YouTube para entrenar su revolucionaria IA con millones de horas de datos
Chatbots: Voraces consumidores de datos y la búsqueda de nuevas fuentes
El dilema de los datos
Los chatbots, impulsados por la inteligencia artificial (IA), son voraces consumidores de datos. Para entrenar estos modelos de IA, los creadores han recurrido a diversas fuentes, pero se están quedando sin recursos. OpenAI, creador de GPT-4, enfrentó este desafío y recurrió a un método poco convencional: transcribir videos de YouTube para obtener textos de entrenamiento.
Métodos controvertidos
El método de OpenAI planteó preocupaciones éticas y legales, ya que potencialmente violó los derechos de autor de YouTube y los creadores de contenido. Google también ha transcrito videos de YouTube para entrenar sus modelos de IA, lo que ha generado críticas similares. Meta consideró comprar una editorial para acceder a textos protegidos por derechos de autor, pero finalmente optó por negociar licencias con los creadores.
"Nos hemos quedado sin datos". - Investigadores de OpenAI
The New York Times
Licencias y acuerdos
Las empresas han recurrido a negociar licencias con los creadores de contenido para obtener datos de entrenamiento legales. Google pagó una suma significativa a Reddit para usar sus contenidos, y OpenAI está haciendo acuerdos similares con los medios de comunicación. Sin embargo, negociar licencias puede llevar mucho tiempo, lo que ha llevado a las empresas a considerar otras opciones.
Datos sintéticos: ¿Una solución futura?
Según The Wall Street Journal, las empresas están explorando la posibilidad de entrenar sus modelos con datos sintéticos, creados por sus propios modelos. Este enfoque controlado podría proporcionar datos de alta calidad, pero la validez de esta retroalimentación aún está por demostrar.
Casos prácticos
- OpenAI transcribió un millón de horas de videos de YouTube para entrenar GPT-4.
- Google negoció una licencia con Reddit para usar sus contenidos para entrenar modelos de IA.
- Meta consideró comprar una editorial para obtener acceso a textos protegidos por derechos de autor.
Conclusión
La búsqueda de nuevas fuentes de datos para entrenar chatbots y otros modelos de IA continúa. Las empresas están explorando métodos controvertidos, negociando licencias y considerando datos sintéticos. El futuro de la capacitación de IA dependerá de encontrar soluciones sostenibles y éticas que garanticen un suministro continuo de datos de alta calidad.
Artículos relacionados