«Доказательства есть»: в OpenAI говорят, что китайская DeepSeek «украла» данные ChatGPT для обучения

Опубликовал Катерина Левицкая

29.01.2025 11:25

CEO OpenAI Сем Альтман / Depositphotos

Разработчик ChatGPT в комментарии Financial Times заявил, что имеет доказательства того, что китайская DeepSeek использовала данные OpenAI для обучения конкурентной модели искусственного интеллекта.

Речь идет о присутствии признаков «дистилляции» — техники, которую разработчики применяют для повышения эффективности меньших моделей путем использования результатов больших и более мощных версий. Дистилляция является обычной практикой для отрасли, однако, учитывая то, что DeepSeek могла использовать ее для создания конкурентки, это нарушает условия обслуживания OpenAI.

«Проблема в том, что модель создана для собственных целей», — сказал в комментарии изданию человек, близкий к OpenAI.

В условиях обслуживания OpenAI указано, что пользователи не могут «копировать» любой из сервисов компании или «использовать результаты для разработки моделей, которые конкурируют с OpenAI».

Выпуск последней модели рассуждения DeepSeek всколыхнул рынок искусственного интеллекта, обвалив акции ключевых компаний в отрасли. Только Nvidia столкнулась с падением акций более чем на 17% и потеряла почти $600 млрд за день — во вторник ситуация несколько стабилизировалась и акции компании нарастили 9%.

Сообщается, что OpenAI вместе со своим ключевым партнером Microsoft «исследовали аккаунты, которые предположительно принадлежали DeepSeek и использовались прошлой осенью, и заблокировали их по подозрению в дистилляции».

Ранее предприниматель Дэвид Сакс, ответственный за развитие искусственного интеллекта в администрации Дональда Трампа, заявил, что «кража данных вполне возможна».

«В искусственном интеллекте есть техника, которая называется дистилляцией …когда одна модель учится у другой модели и как бы высасывает знания из материнской модели», — говорил Сакс в комментарии журналистам. «Есть существенные доказательства того, что DeepSeek сделала то же самое, изъяв знания из моделей OpenAI, и не думаю, что OpenAI очень этим довольна».

Эксперты говорят, что для меньших китайских и американских лабораторий ИИ кража учебных данных у таких компаний, как OpenAI, является обычным делом — поскольку полноценный процесс обучения требует немало вливаний. Напомним, что DeepSeek заявляла, что использовала кластер из 2000 видеокарт Nvidia H800 и в целом $5,6 млн на обучение модели V3 с 671 млрд параметров — тогда как обучение только GPT-4 обошлось в $100 млн. При этом подозрения в краже данных появились еще на момент запуска китайской модели, когда та сама утверждала, что «она и есть ChatGPT».

«Мы знаем, что китайские компании — и другие — постоянно пытаются скопировать модели ведущих американских компаний по искусственному интеллекту», — пишет OpenAI в своем последнем заявлении. «Мы принимаем контрмеры, чтобы защитить нашу интеллектуальную собственность».

Сейчас OpenAI и сама борется с обвинениями в нарушении авторских прав со стороны изданий и создателей контента — включая иск от The New York Times, который утверждает, что компания Сэма Альтмана без разрешения тренирует свои модели на их статьях.

Опубликовал Катерина Левицкая

Теги ChatGPTDeepSeekOpenAIискусственный интеллект

29.01.2025 11:25

Контент сайту призначений для осіб віком від 21 року. Переглядаючи матеріали, ви підтверджуєте свою відповідність віковим обмеженням.

Cуб'єкт у сфері онлайн-медіа; ідентифікатор медіа - R40-06029.

«Доказательства есть»: в OpenAI говорят, что китайская DeepSeek «украла» данные ChatGPT для обучения

Читайте также