مهمترین چیز برای اینکه یک مدل هوش مصنوعی طبق برنامه کار کند، حجم عظیمی از دادههای آموزشی است. OpenAI که ظاهراً با کمبود دادههای آموزشی مواجه است، مدل رونویسی صوتی Whisper (تبدیل صوت و گفتار به نوشتار) خود را برای رسیدگی به این مشکل توسعه داده است. اکنون گزارشی ادعا کرده است که این مدل بیش از یک میلیون ساعت از ویدیوهای YouTube را برای آموزش GPT-4، پیشرفتهترین مدل زبان در مقیاس بزرگ OpenAI، که نه تنها از محصولات OpenAI بلکه از خدمات ارائه شده توسط مایکروسافت پشتیبانی میکند، رونویسی کرده است.
طبق گزارش نیویورک تایمز، OpenAI از نگرانیهای قانونی بالقوه آگاه بود، اما معتقد بود اقدامات آنها استفاده منصفانه است. این گزارش همچنین ادعا میکند که گرگ براکمن، رئیس OpenAI، مستقیماً در فرآیند جمعآوری ویدئو نقش داشته است. این توسعه چند روز پس از آن صورت میگیرد که نیل موهان، مدیرعامل یوتیوب در مصاحبهای گفت که حذف ویدیوهای یوتیوب برای آموزش مدلهای هوش مصنوعی نقض قوانین است.
آنچه OpenAI و YouTube برای گفتن دارند
لیندزی هلد، سخنگوی OpenAI، به The Verge گفت که این شرکت از «منابع متعددی، از جمله دادههای در دسترس عموم و مشارکتهای دادههای غیرعمومی» برای حفظ رقابتپذیری تحقیقاتی جهانی خود استفاده میکند و این شرکت مجموعههای داده «محصول» را برای درک آنها از جهان در هر یک از مدلهای خود مدیریت میکند».
مطالب بیشتر: آیا هوش مصنوعی گوگل (Gemini) بهتر از ChatGPT است؟
در همین حال، گوگل که مالک یوتیوب است، گفت که “گزارشهای تایید نشده” در مورد فعالیتهای OpenAI را دیده است.
به نقل از مت برایانت، سخنگوی گوگل، “هم فایلهای robots.txt و هم شرایط خدمات ما، حذف یا دانلود غیرمجاز محتوای YouTube را ممنوع میکنند.” برایانت گفت که گوگل «تدابیر فنی و قانونی» را برای جلوگیری از چنین استفادههای غیرمجاز اتخاذ میکند «در صورتی که مبنای قانونی یا فنی روشنی برای انجام آن داشته باشیم».
در این گزارش همچنین اشاره شد که گوگل رونوشتهایی را از یوتیوب نیز جمعآوری کرده است و سخنگوی این شرکت گفت که این شرکت مدلهای خود را «بر اساس توافقهای ما با سازندگان یوتیوب در برخی از محتوای YouTube» آموزش داده است.