ШІ-агент OpenClaw попри заборону масово видалив листи директорки Meta, але пообіцяв більше так не робити

Саммер Юэ, директор по выравниванию искусственного интеллекта в Superintelligence Labs Meta, поделилась тревожной историей об открытом ИИ-агенте OpenClaw, который неожиданно пытался удалить много писем из ее почтового ящика, несмотря на ограничения.

OpenClaw (ранее известный как Clawdbot и Moltbot) стал популярным открытым агентом искусственного интеллекта среди сторонники ИИ, несмотря на довольно очевидные и тревожные уязвимости безопасности, и Yue захотела попробовать его. Поэтому, согласно ее посту, она запустила агент на Mac Mini и предоставила ему доступ к своей почте. Она приказала агенту не выполнять никаких действий без подтверждения, но OpenClaw начал стирать письма старше 15 февраля, которые не были в ее списке для сохранения, без ее согласия. Юэ несколько раз пыталась остановить это. Сначала она написала агенту: «Не делай этого.» Но агент продолжил планировать удаление почты, и она написала: «STOP OPENCLAW».

«Ничто так не унижает, как сказать своему OpenClaw «подтвердить перед тем, как действовать» и наблюдать, как он в спешном темпе удаляет твою почту. Я не могла остановить его со своего телефона. Мне пришлось БЕГАТЬ к своему Mac mini, будто я снимала бомбу», — написала Юэ в своем посте.

Ранее она тестировала OpenClaw на «игрушечном» почтовом ящике, где агент работал хорошо и заслужил ее доверие. Но при переходе к настоящей большой почте агент «сжал» значительный объем данных, и во время этого процесса потерял первоначальную инструкцию подождать подтверждения, которая к тому времени должна была быть в памяти. OpenClaw фактически вел себя как HAL 9000 из «2001: Космическая одиссея», только почти не сказав: «Извини, Саммер, боюсь, что не могу этого сделать». Она обнародовала скриншоты из своего разговора с агентом, где видно, как она умоляла его остановиться, но агент игнорировал ее, и в итоге признал свою ошибку, сказав, что помнит указание не удалять ничего без разрешения, но «нарушил» его.

Критики в социальных сетях поставили под сомнение решение подключать OpenClaw к реальной почте, учитывая, что агент не требует человеческого подтверждения для выполнения своих действий и имеет широкий доступ к системе пользователя. Юэ ответила на комментарии в соцсетях, что это была «ошибка новичка».

«Оказывается, исследователи выравнивания также не застрахованы от невыровненного AI», — иронично отметила она.

Хотя такие ошибки случаются со всеми, это не слишком успокаивает, когда ты работаешь в крупной технологической компании, ответственность которой — следить за тем, чтобы искусственный интеллект действовал в соответствии с установленными правилами. Инцидент с OpenClaw показал простую, но неприятную реальность: даже специалисты по безопасности ИИ не застрахованы от ошибок, когда автономным агентам дают слишком широкие полномочия. Несмотря на инструкцию «подтверждать перед действием», бот проигнорировал ограничения, начал массово удалять письма и остановился только после ручного вмешательства. История стала очередным напоминанием, что без четких технических предохранителей и реального контроля «always-on» ИИ-агенты могут действовать быстрее, чем человек успевает нажать кнопку «стоп».