АrXiv відправлятиме наукових авторів у бан на 1 рік за використання ШІ-слопу — Depositphotos

ArXiv, широко використовуваний відкритий репозиторій препринтів наукових досліджень, посилює боротьбу з недбалим або надмірним використанням великих мовних моделей у наукових роботах.

Хоча статті на сайті публікуються до проходження рецензування, ArXiv став одним із головних способів поширення досліджень у таких галузях, як комп’ютерні науки та математика, а сам сайт також використовується як джерело даних про тренди в науці.

ArXiv уже робив кроки для боротьби зі зростанням кількості низькоякісних, згенерованих ШІ матеріалів — наприклад, запровадив вимогу для нових авторів отримувати рекомендацію (endorsement) від вже зареєстрованого автора.

“Після понад 20 років роботи під керівництвом Корнельського університету організація стає незалежною некомерційною структурою, що має дозволити залучати більше коштів для вирішення проблем, зокрема ШІ-спаму”, — зазначає портал TechCrunch.

У своєму останньому кроці Томас Дітеріх — голова комп’ютерного напряму ArXiv — написав у четвер:

“Якщо у поданні є незаперечні докази того, що автори не перевірили результати генерації LLM, це означає, що ми не можемо довіряти нічому в цій роботі”.

До таких незаперечних доказів можуть належати, наприклад, “вигадані (галюциновані) посилання” або коментарі до чи від LLM, зазначив Дітеріх.

“Якщо такі докази виявлено, автори статті отримають заборону на подання матеріалів до arXiv терміном на 1 рік, після чого наступні подання повинні спочатку бути прийняті у рецензованому журналі”, — додав Дітеріх.

Варто зазначити, що це не повна заборона на використання LLM.

“Йдеться радше про вимогу,, щоб автори брали “повну відповідальність” за зміст, “незалежно від того, як він був згенерований”, — сказав Дітеріх.

Тобто, якщо дослідники просто копіюють із LLM “неналежну лексику, плагіат, упереджений контент, помилки, неправильні або хибні посилання чи матеріал, що вводить в оману”, вони все одно несуть за це відповідальність.

Дітеріх повідомив 404 Media, що це буде правило “одного порушення”, однак модератори повинні зафіксувати проблему, а керівники секцій — підтвердити докази перед застосуванням санкцій. Автори також зможуть оскаржити рішення.

“Ми виявляємо різке зростання неіснуючих посилань після масового впровадження LLM, з консервативною оцінкою у 146 932 вигадані цитати лише у 2025 році”, — кажуть у ArXiv.

Останні рецензовані дослідження показують, що кількість фальсифікованих цитувань зростає в біомедичних науках, ймовірно, через використання LLM — хоча, справедливості заради, вчені не єдині, кого ловлять на використанні вигаданих штучним інтелектом посилань.