GPT-4: OpenAI recurre a YouTube para entrenar su revolucionaria IA con millones de horas de datos
Chatbots: Voraces consumidores de datos y la búsqueda de nuevas fuentes
El dilema de los datos
Los chatbots, impulsados por la inteligencia artificial (IA), son voraces consumidores de datos. Para entrenar estos modelos de IA, los creadores han recurrido a diversas fuentes, pero se están quedando sin recursos. OpenAI, creador de GPT-4, enfrentó este desafío y recurrió a un método poco convencional: transcribir videos de YouTube para obtener textos de entrenamiento.
Métodos controvertidos
El método de OpenAI planteó preocupaciones éticas y legales, ya que potencialmente violó los derechos de autor de YouTube y los creadores de contenido. Google también ha transcrito videos de YouTube para entrenar sus modelos de IA, lo que ha generado críticas similares. Meta consideró comprar una editorial para acceder a textos protegidos por derechos de autor, pero finalmente optó por negociar licencias con los creadores.
"Nos hemos quedado sin datos". - Investigadores de OpenAI
The New York Times
Licencias y acuerdos
Las empresas han recurrido a negociar licencias con los creadores de contenido para obtener datos de entrenamiento legales. Google pagó una suma significativa a Reddit para usar sus contenidos, y OpenAI está haciendo acuerdos similares con los medios de comunicación. Sin embargo, negociar licencias puede llevar mucho tiempo, lo que ha llevado a las empresas a considerar otras opciones.
Esta entrada ha sido visitada por 1 lectores.
Datos sintéticos: ¿Una solución futura?
Según The Wall Street Journal, las empresas están explorando la posibilidad de entrenar sus modelos con datos sintéticos, creados por sus propios modelos. Este enfoque controlado podría proporcionar datos de alta calidad, pero la validez de esta retroalimentación aún está por demostrar.
Casos prácticos
- OpenAI transcribió un millón de horas de videos de YouTube para entrenar GPT-4.
- Google negoció una licencia con Reddit para usar sus contenidos para entrenar modelos de IA.
- Meta consideró comprar una editorial para obtener acceso a textos protegidos por derechos de autor.
Conclusión
La búsqueda de nuevas fuentes de datos para entrenar chatbots y otros modelos de IA continúa. Las empresas están explorando métodos controvertidos, negociando licencias y considerando datos sintéticos. El futuro de la capacitación de IA dependerá de encontrar soluciones sostenibles y éticas que garanticen un suministro continuo de datos de alta calidad.
¡Esperamos que haya sido de utilidad este artículo de la categoría Inteligencia Artificial. Por cualquier consulta sobre los artículos presentados en esta Web por favor contactanos a redaccion@noticiaspuertosantacruz.com.ar. Recuerda que somos un medio independiente que está 100% automatizado con IA (Inteligencia Artificial) por lo que siempre te recomendamos que visites las fuentes originales de cada artículo presentado en esta web. Todavía no te vayas, ¡tenemos mucho más contenido interesante para vos! Te invitamos a explorar otros artículos similares a GPT-4: OpenAI recurre a YouTube para entrenar su revolucionaria IA con millones de horas de datos en nuestra amplia colección sobre Inteligencia Artificial.
Artículos relacionados