• Home
  • Contact Us
  • Disclaimer
  • Privacy Policy
  • Terms & Conditions
miércoles, noviembre 12, 2025
No Result
View All Result
Corresponsal 360
  • Home
  • Noticias
  • Tecnología
  • Deportes
  • Política
  • Salud
  • Turismo
  • Cultura
  • Home
  • Noticias
  • Tecnología
  • Deportes
  • Política
  • Salud
  • Turismo
  • Cultura
No Result
View All Result
Corresponsal 360
No Result
View All Result
Home Tecnología

OpenAI transcribió más de un millón de horas de videos de YouTube para entrenar GPT-4

by Team
abril 7, 2024
in Tecnología
0
OpenAI transcribió más de un millón de horas de videos de YouTube para entrenar GPT-4


A principios de esta semana, El Wall Street Diario reportado que las empresas de IA se estaban topando con un muro cuando se trata de recopilar datos de capacitación de alta calidad. Hoy, Los New York Times detallado algunas de las formas en que las empresas han abordado esto. Como era de esperar, implica hacer cosas que caen en la nebulosa zona gris de Ley de derechos de autor de IA.

La historia comienza con OpenAI que, desesperado por obtener datos de entrenamiento, supuestamente desarrolló su Modelo de transcripción de audio Whisper para superar el obstáculo, transcribiendo más de un millón de horas de videos de YouTube para entrenar GPT-4, su modelo de lenguaje grande más avanzado. Eso es de acuerdo a Los New York Times, que informa que la empresa sabía que esto era legalmente cuestionable pero creía que era un uso legítimo. El presidente de OpenAI, Greg Brockman, participó personalmente en la recopilación de videos que se utilizaron, el Veces escribe.

La portavoz de OpenAI, Lindsay Held, dijo El borde en un correo electrónico que la empresa selecciona conjuntos de datos «únicos» para cada uno de sus modelos para «ayudar a su comprensión del mundo» y mantener su competitividad en investigación global. Held añadió que la empresa utiliza «numerosas fuentes, incluidos datos disponibles públicamente y asociaciones para obtener datos no públicos», y que está estudiando la posibilidad de generar sus propios datos sintéticos.

El Veces El artículo dice que la compañía agotó los suministros de datos útiles en 2021 y discutió la transcripción de videos, podcasts y audiolibros de YouTube después de analizar otros recursos. Para entonces, había entrenado sus modelos con datos que incluían código informático de Github, bases de datos de movimientos de ajedrez y contenido de tareas escolares de Quizlet.

El portavoz de Google, Matt Bryant, dijo El borde En un correo electrónico, la empresa «vio informes no confirmados» sobre la actividad de OpenAI y agregó que «tanto nuestros archivos robots.txt como nuestros Términos de servicio prohíben la extracción o descarga no autorizada de contenido de YouTube», haciéndose eco de la . Neal Mohan, director ejecutivo de YouTube dijo cosas similares sobre la posibilidad de que OpenAI haya utilizado YouTube para entrenar su modelo de generación de vídeos Sora esta semana. Bryant dijo que Google toma «medidas técnicas y legales» para evitar dicho uso no autorizado «cuando tenemos una base legal o técnica clara para hacerlo».

Google también recopiló transcripciones de YouTube, según el Veces' fuentes. Bryant dijo que la compañía ha entrenado a sus modelos “en algunos contenidos de YouTube, de acuerdo con nuestros acuerdos con los creadores de YouTube”.

El Veces escribe que el departamento legal de Google pidió al equipo de privacidad de la compañía que modificara el lenguaje de su política para ampliar lo que podía hacer con los datos de los consumidores, como sus herramientas de oficina como Google Docs. Según se informa, la nueva política se publicó intencionalmente el 1 de julio para aprovechar la distracción del fin de semana festivo del Día de la Independencia.

Meta también chocó contra los límites de una buena disponibilidad de datos de entrenamiento, y en las grabaciones el Veces Como se escuchó, su equipo de IA discutió su uso no permitido de obras protegidas por derechos de autor mientras trabajaba para ponerse al día con OpenAI. La empresa, después de revisar “libros, ensayos, poemas y artículos de noticias en inglés casi disponibles en Internet”, aparentemente consideró tomar medidas como pagar las licencias de los libros o incluso comprar directamente una editorial importante. Aparentemente, también estaba limitado en la forma en que podía utilizar los datos de los consumidores debido a los cambios centrados en la privacidad que realizó a raíz de la Escándalo de Cambridge Analytica.

Google, OpenAI y el mundo del entrenamiento de IA en general están luchando con datos de entrenamiento que se evaporan rápidamente para sus modelos, que mejoran cuanto más datos absorben. El Diario escribió esta semana que las empresas pueden superar el contenido nuevo para 2028.

Posibles soluciones a ese problema mencionado por el Diario del lunes incluyen modelos de entrenamiento sobre datos «sintéticos» creados por sus propios modelos o el llamado «aprendizaje curricular», que implica alimentar a los modelos con datos de alta calidad de manera ordenada con la esperanza de que puedan utilizar para hacer «conexiones más inteligentes entre conceptos» usando mucha menos información, pero ninguno de los dos enfoques está probado todavía. Pero la otra opción de las empresas es utilizar todo lo que puedan encontrar, tengan permiso o no, y basándose en múltiple demandas archivado en el último año más o menos, esa manera es, digamos, más que un poco complicada.

Tags: entrenarGPT4horasmásmillónOpenAIparatranscribióvideosYouTube
Team

Team

Next Post
Avance y predicción Udinese Vs Inter

Avance y predicción Udinese Vs Inter

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Recomendada

La vida silvestre teñida de azul en São Paulo Chemical Spill

La vida silvestre teñida de azul en São Paulo Chemical Spill

6 meses ago
Rachel Comey Primavera 2026 Collection Ready-to-Wear

Rachel Comey Primavera 2026 Collection Ready-to-Wear

2 meses ago

Noticias populares

  • «EVOLARA: TU SEGUNDO VUELO»

    «EVOLARA: TU SEGUNDO VUELO»

    0 shares
    Share 0 Tweet 0
  • 15 lugares para visitar en la Antártida no puede permitirse perderse

    0 shares
    Share 0 Tweet 0
  • La Inteligencia Artificial Gran Aporte al Turismo en la Región de Los Lagos

    0 shares
    Share 0 Tweet 0
  • Banco de semillas liderado por indígenas protege la biodiversidad del Amazonas – Latin America News Dispatch

    0 shares
    Share 0 Tweet 0
  • INFORME: Los demócratas pusieron al corrupto fiscal general de Obama, Eric Holder, a cargo de examinar a los candidatos a vicepresidente para Kamala Harris | The Gateway Pundit

    0 shares
    Share 0 Tweet 0

Sobre nosotras

Bienvenido a corresponsal360.com ¡El objetivo de corresponsal360.com es brindarle las mejores fuentes de noticias para cualquier tema! Nuestros temas se seleccionan cuidadosamente y se actualizan constantemente, ya que sabemos que la web se mueve rápido y nosotros también lo intentamos.

Categoría

  • Blog
  • Cultura
  • Deportes
  • Noticias
  • Política
  • Salud
  • Tecnología
  • Turismo

Mensajes recientes

  • Las mejores ofertas anticipadas del Black Friday Sam's Club 2025: descuentos disponibles ahora
  • La propuesta hipotecaria a 50 años de la Casa Blanca tiene un beneficio notable pero varios inconvenientes
  • Pacto Histórico insiste en que Iván Cepeda puede participar en el frente amplio pese a nuevas dudas jurídicas por resolución de Registraduría
  • Home
  • Contact Us
  • Disclaimer
  • Privacy Policy
  • Terms & Conditions

Copyright © 2024 Corresponsal360.com | All Rights Reserved.

No Result
View All Result
  • Home
  • Noticias
  • Tecnología
  • Deportes
  • Política
  • Salud
  • Turismo
  • Cultura

Copyright © 2024 Corresponsal360.com | All Rights Reserved.