Сайт Reddit за 18 років свого існування накопичив величезну скарбницю людських взаємодій та розмов. Ці обсяги даних є ідеальним вихідним матеріалом для навчання великих мовних моделей (LLM) штучного інтелекту, також відомих як чат-боти на базі ШІ. Тепер Reddit хоче отримати вигоду від накопичених когнітивних скарбів і стягуватиме плату з компаній за доступ до API, який потрібний для навчання LLM.

Великі технологічні компанії, такі як Google та OpenAI, використовують Reddit, щоб надати початкові дані сервісам ШІ. Тепер Reddit хоче монетизувати свої активи та представляє «нову точку доступу преміумкласу для третіх осіб».

Поки що не уточнюється, скільки компаніям доведеться платити за доступ до даних. Відомо лише, що передбачено кілька рівнів доступу, ймовірно, орієнтованих на компанії різних розмірів. Рівні відрізнятимуться обмеженнями (чи ширшими правами) використання.

«Звід даних Reddit дійсно цінний», – сказав Стів Хаффман, засновник і виконавчий директор Reddit. «І нам не потрібно віддавати всю цю цінність деяким з найбільших компаній світу безплатно».

Reddit — далеко не єдине онлайн-сховище інформації, яке використовується для навчання LLM. Вебархіви, такі як Common Crawl, також часто використовуються для навчання чат-ботів. Однак Common Crawl та подібні сервіси надають необроблені дані, наприклад, великі пули інформації, що зберігається в інтернеті. Водночас дані Reddit включають розмови між людьми. Всебічний ШІ вимагає доступу до обох типів даних, щоб підвищити фактичну точність та відповідність людській поведінці.