«Доказательства есть»: в OpenAI говорят, что китайская DeepSeek «украла» данные ChatGPT для обучения

Опубликовал Катерина Даньшина

Разработчик ChatGPT в комментарии Financial Times заявил, что имеет доказательства того, что китайская DeepSeek использовала данные OpenAI для обучения конкурентной модели искусственного интеллекта.

Речь идет о присутствии признаков «дистилляции» — техники, которую разработчики применяют для повышения эффективности меньших моделей путем использования результатов больших и более мощных версий. Дистилляция является обычной практикой для отрасли, однако, учитывая то, что DeepSeek могла использовать ее для создания конкурентки, это нарушает условия обслуживания OpenAI.

«Проблема в том, что модель создана для собственных целей», — сказал в комментарии изданию человек, близкий к OpenAI.

В условиях обслуживания OpenAI указано, что пользователи не могут «копировать» любой из сервисов компании или «использовать результаты для разработки моделей, которые конкурируют с OpenAI».

Выпуск последней модели рассуждения DeepSeek всколыхнул рынок искусственного интеллекта, обвалив акции ключевых компаний в отрасли. Только Nvidia столкнулась с падением акций более чем на 17% и потеряла почти $600 млрд за день — во вторник ситуация несколько стабилизировалась и акции компании нарастили 9%.

Сообщается, что OpenAI вместе со своим ключевым партнером Microsoft «исследовали аккаунты, которые предположительно принадлежали DeepSeek и использовались прошлой осенью, и заблокировали их по подозрению в дистилляции».

Ранее предприниматель Дэвид Сакс, ответственный за развитие искусственного интеллекта в администрации Дональда Трампа, заявил, что «кража данных вполне возможна».

«В искусственном интеллекте есть техника, которая называется дистилляцией …когда одна модель учится у другой модели и как бы высасывает знания из материнской модели», — говорил Сакс в комментарии журналистам. «Есть существенные доказательства того, что DeepSeek сделала то же самое, изъяв знания из моделей OpenAI, и не думаю, что OpenAI очень этим довольна».

Эксперты говорят, что для меньших китайских и американских лабораторий ИИ кража учебных данных у таких компаний, как OpenAI, является обычным делом — поскольку полноценный процесс обучения требует немало вливаний. Напомним, что DeepSeek заявляла, что использовала кластер из 2000 видеокарт Nvidia H800 и в целом $5,6 млн на обучение модели V3 с 671 млрд параметров — тогда как обучение только GPT-4 обошлось в $100 млн. При этом подозрения в краже данных появились еще на момент запуска китайской модели, когда та сама утверждала, что «она и есть ChatGPT».

«Мы знаем, что китайские компании — и другие — постоянно пытаются скопировать модели ведущих американских компаний по искусственному интеллекту», — пишет OpenAI в своем последнем заявлении. «Мы принимаем контрмеры, чтобы защитить нашу интеллектуальную собственность».

Сейчас OpenAI и сама борется с обвинениями в нарушении авторских прав со стороны изданий и создателей контента — включая иск от The New York Times, который утверждает, что компания Сэма Альтмана без разрешения тренирует свои модели на их статьях.

Контент сайту призначений для осіб віком від 21 року. Переглядаючи матеріали, ви підтверджуєте свою відповідність віковим обмеженням.

Cуб'єкт у сфері онлайн-медіа; ідентифікатор медіа - R40-06029.