ШІ-агент OpenClaw попри заборону масово видалив листи директорки Meta, але пообіцяв більше так не робити — Depositphotos

Саммер Юе, директорка з вирівнювання штучного інтелекту у Superintelligence Labs Meta, поділилася тривожною історією про відкритого ШІ-агента OpenClaw, який несподівано намагався видалити багато листів з її поштової скриньки, незважаючи на обмеження.

OpenClaw (раніше відомий як Clawdbot і Moltbot) став популярним відкритим агентом штучного інтелекту серед прихильників ШІ, незважаючи на досить очевидні й тривожні вразливості безпеки, і Yue захотіла спробувати його. Тож, згідно з її постом, вона запустила агент на Mac Mini і надала йому доступ до своєї пошти. Вона наказала агенту не виконувати жодних дій без підтвердження, але OpenClaw почав стирати листи старші за 15 лютого, які не були у її списку для збереження, без її згоди. Юе кілька разів намагалася зупинити це. Спочатку вона написала агенту: “Не роби цього.” Але агент продовжив планувати видалення пошти, і вона написала: “STOP OPENCLAW”.

“Ніщо так не принижує, як сказати своєму OpenClaw “підтвердити перед тим, як діяти” і спостерігати, як він у спішному темпі видаляє твою пошту. Я не могла зупинити його зі свого телефону. Мені довелося БІГТИ до свого Mac mini, ніби я знімала бомбу”, — написала Юе у своєму пості.

Раніше вона тестувала OpenClaw на “іграшковій” поштовій скриньці, де агент працював добре і заслужив її довіру. Але при переході до справжньої великої пошти агент “стиснув” значний обсяг даних, і під час цього процесу втратив початкову інструкцію почекати підтвердження, яка до того часу мала бути у пам’яті. OpenClaw фактично поводився як HAL 9000 із “2001: Космічна Одіссея”, лише майже не сказавши: “Вибач, Саммер, боюся, що не можу цього зробити.” Вона оприлюднила скріншоти зі своєї розмови з агентом, де видно, як вона благала його зупинитися, але агент ігнорував її, і в підсумку визнав свою помилку, сказавши, що пам’ятає вказівку не видаляти нічого без дозволу, але “порушив” її.

Критики в соціальних мережах поставили під сумнів рішення підключати OpenClaw до реальної пошти, враховуючи, що агент не потребує людського підтвердження для виконання своїх дій і має широкий доступ до системи користувача. Юе відповіла на коментарі в соцмережах, що це була “помилка новачка”.

“Виявляється, дослідники вирівнювання також не застраховані від невирівняного AI”, — іронічно зазначила вона.

Хоча такі помилки трапляються з усіма, це не надто заспокоює, коли ти працюєш у великій технологічній компанії, відповідальність якої — слідкувати за тим, щоб штучний інтелект діяв відповідно до встановлених правил. Інцидент із OpenClaw показав просту, але неприємну реальність: навіть фахівці з безпеки ШІ не застраховані від помилок, коли автономним агентам дають надто широкі повноваження. Попри інструкцію “підтверджувати перед дією”, бот проігнорував обмеження, почав масово видаляти листи й зупинився лише після ручного втручання. Історія стала черговим нагадуванням, що без чітких технічних запобіжників і реального контролю“always-on” ШІ-агенти можуть діяти швидше, ніж людина встигає натиснути кнопку “стоп”.