АrXiv відправлятиме наукових авторів у бан на 1 рік за використання ШІ-слопу

ArXiv, широко используемый открытый репозиторий препринтов научных исследований, усиливает борьбу с небрежным или чрезмерным использованием больших языковых моделей в научных работах.

Хотя статьи на сайте публикуются до прохождения рецензирования, ArXiv стал одним из главных способов распространения исследований в таких областях, как компьютерные науки и математика, а сам сайт также используется как источник данных о трендах в науке.

ArXiv уже предпринимал шаги для борьбы с ростом количества низкокачественных, сгенерированных ИИ материалов — например, ввел требование для новых авторов получать рекомендацию (endorsement) от уже зарегистрированного автора.

«После более 20 лет работы под руководством Корнельского университета организация становится независимой некоммерческой структурой, что должно позволить привлекать больше средств для решения проблем, в частности ИИ-спама», — отмечает портал TechCrunch.

В своем последнем шаге Томас Дитерих — глава компьютерного направления ArXiv — написал в четверг:

«Если в представлении есть неопровержимые доказательства того, что авторы не проверили результаты генерации LLM, это означает, что мы не можем доверять ничему в этой работе».

К таким неоспоримых доказательств могут принадлежать, например, «вымышленные (галлюцинированные) ссылки» или комментарии к или от LLM, отметил Дитерих.

«Если такие доказательства обнаружены, авторы статьи получат запрет на подачу материалов в arXiv сроком на 1 год, после чего последующие представления должны сначала быть приняты в рецензируемом журнале», — добавил Дитерих.

Стоит отметить, что это не полный запрет на использование LLM.

«Речь идет скорее о требовании, чтобы авторы брали «полную ответственность» за содержание, «независимо от того, как оно было сгенерировано», — сказал Дитерих.

То есть, если исследователи просто копируют из LLM «неподобающую лексику, плагиат, предвзятый контент, ошибки, неправильные или ложные ссылки или материал, вводящий в заблуждение», они все равно несут за это ответственность.

Дитерих сообщил 404 Media, что это будет правило «одного нарушения», однако модераторы должны зафиксировать проблему, а руководители секций — подтвердить доказательства перед применением санкций. Авторы также смогут обжаловать решение.

«Мы обнаруживаем резкий рост несуществующих ссылок после массового внедрения LLM, с консервативной оценкой в 146 932 вымышленные цитаты только в 2025 году», — говорят в ArXiv.

Последние рецензируемые исследования показывают, что количество фальсифицированных цитирований растет в биомедицинских науках, вероятно, из-за использования LLM — хотя, справедливости ради, ученые не единственные, кого ловят на использовании вымышленных искусственным интеллектом ссылок.