Сайт Reddit за 18 лет своего существования накопил огромную сокровищницу человеческих взаимодействий и разговоров. Эти объёмы данных являются идеальным исходным материалом для обучения больших языковых моделей (LLM) искусственного интеллекта, также известных как чат-боты на базе ИИ. Теперь Reddit хочет получить выгоду от накопленных когнитивных сокровищ и будет взимать плату с компаний за доступ к API, который необходим для обучения LLM.

Крупные технологические компании, такие как Google и OpenAI, используют Reddit, чтобы дать начальные данные сервисам ИИ. Теперь Reddit хочет монетизировать свои активы и представляет «новую точку доступа премиум-класса для третьих лиц».

Пока что не уточняется, сколько компаниям предстоит платить за доступ к данным. Известно лишь, что предусмотрено несколько уровней доступа, вероятно, ориентированных на компании различных размеров. Уровни будут отличаться ограничениями (или более широкими правами) на использование.

«Свод данных Reddit действительно ценен», — сказал Стив Хаффман, основатель и исполнительный директор Reddit. «И нам не нужно отдавать всю эту ценность некоторым из крупнейших компаний мира бесплатно».

Reddit — далеко не единственное онлайн-хранилище информации, используемое для обучения LLM. Веб-архивы, такие, как Common Crawl, также часто используются для обучения чат-ботов. Однако Common Crawl и подобные сервисы предоставляют необработанные данные, например, большие пулы информации, хранящейся в интернете. В то же время данные Reddit включают разговоры между людьми. Всесторонний ИИ требует доступа к обоим типам данных, чтобы повысить фактическую точность и соответствие человеческому поведению.