Квест Тьюринга

Мы продолжаем разговор о чат-ботах — программах, в основе которых лежат разработки в области искусственного интеллекта, и в этом номере предлагаем познакомиться с некоторыми перспективными проектами.

Продолжение. Начало см.
«Компьютерное Обозрение» # 37, 2001 г.

Связный текст как марковская цепь

Приблизительно в одно время с Racter приобрели популярность обучаемые программы, способные синтезировать текст на основе марковских цепей. Марковская цепь есть результат процесса, текущее состояние которого в каждый момент времени определяется одним или несколькими предшествующими состояниями (применительно к тексту это выражается в том, что вероятность появления слова «торт» повышается, если ему предшествует слово «киевский», и делается еще выше, если слову «киевский» предшествует «ореховый»).

В Internet можно найти множество текстовых генераторов, действующих на основе марковского анализа/синтеза. Поскольку большинство из них корректно обрабатывает русские символы, то и проблем с синтезом русскоязычных текстов обычно не возникает. Ниже расположен фрагмент, сгенерированный марковским процессом второго порядка (т. е. учитывающим два предшествующих слова для оценки вероятности появления третьего). Для обучения использовался текстовый файл, составленный из «Ветхого Завета» и «Евгения Онегина» (см. https://lib.ru).

Адам познал Еву, жену свою, в руках ее, побежал и выбежал вон, и недвижим остался он. От тебя, народ великий, я пойду, извещу фараона, и дал отроку, и тот поспешил приготовить его, и пошел, и переспал с Валлою, наложницею отца своего, и сказали: вот пришлец, и хочет судить. И сказала Рахиль: судил мне Бог сойтись на бале иль при разъезде на крыльце с семинаристом в желтой шале иль с академиком в чепце. Онегин с Ольгою пошел, ведет ее скользя, небрежно, и наклонясь ей шепчет нежно, какой-то пошлый мадригал, и руку жмет, и запылал в ее покое, они сидят в потемках двое, они в порабощении у Кедорлаомера. Лаван, услышав о Иакове, сыне сестры своей, выбежал ему навстречу и обнял его, и долго сердцу грустно было. Рооr Yorik! — молвил он уныло.

Цепи первого порядка иногда дают более непредсказуемые результаты, но обилие грамматических словарных видоизменений, характерное для русского языка, делает необходимым использование нереально больших текстов для их обучения (в противном случае выход изобилует синтаксическими ошибками). Поэтому для работы с русским языком больше подходят программы марковского синтеза, обрабатывающие текст не пословно, а побуквенно. Генерируемые таким образом тексты обычно содержат не меньше неологизмов, чем стихи футуристов начала века:

Люблю генеразлива было: заботно думал он странна?
Ужель прозражен, стыдом отдохнуться!
Перо, бестолет обильной тишины;
Писать морочка любил браздетый однообратясь.

Исходным материалом для построения этой марковской цепи 4 порядка послужила поэма «Евгений Онегин». Оба примера были получены с помощью программы Chan Андрея Плоткина.

Ask Jeeves

«Дживс» — имя неизменно благожелательного и деловитого виртуального «дворецкого», служащего посредником между пользователями Internet и окружающим их океаном информации. Сегодня он является, пожалуй, наиболее общественно полезным чат-ботом. С 1997 г. компания Ask Jeeves успешно конкурирует с поисковыми серверами, общаясь с посетителями не посредством языка составления запросов, а на самом что ни на есть естественном английском. Неуклонно продолжающийся процесс демократизации Internet вовлекает в ряды пользователей все больше людей, далеких от компьютерной техники; им недосуг разбираться с такими концепциями языков составления запросов, как «ключевые слова» и «сужение области поиска», не говоря уже о «логических операторах». Все эти люди — потенциальные клиенты Ask Jeeves.

Более того, если технологии объективного определения релевантности ссылок и поддержки иностранных языков, уже реализованные компанией Google, представляются завершающими этапами качественной эволюции традиционных поисковых серверов, то перед службами типа Ask Jeeves остаются открытыми необъятные перспективы, связанные с развитием теории ИИ. Ведь осмысленная интерпретация естественного языка позволит извлекать из запросов важную дополнительную информацию контекстуального и эмоционального характера. Попробуйте-ка воззвать к «Гуглу» и «Дживсу» с отчаянным запросом вроде такого: «Help me! I think I’ve broken my leg» («На помощь! Кажется, я сломал ногу»), и убедитесь сами, насколько больше человечности проявит «Дживс». Во всяком случае, его реакция будет несоизмеримо точнее соответствовать требованиям предполагаемой критической ситуации.

Около года назад руководство Ask Jeeves объявило о создании стратегического альянса с компаниями Nuance и General Magic, лидирующими на рынке технологий распознавания речи. Результатом этого содружества может стать появление компьютеризированного бюро справок, ассортимент услуг которого потрясает воображение. Заблудившись в незнакомом городе, вы сможете связаться с Ask Jeeves по мобильному телефону и получать последовательные целеуказания в ходе непринужденной беседы, а планируя поход в кино — обсудить содержание фильмов, идущих в окрестных кинотеатрах, и заодно выяснить стоимость билетов и время сеансов. Ремонт автомобиля, настройка компьютера, решение кроссвордов, общение с иностранцами — стараниями Ask Jeeves все эти задачи в скором будущем могут получить новое изящное решение.

ActiveBuddy

Основное назначение чат-ботов компании ActiveBuddy также состоит в информационном обслуживании пользователей. Однако, в отличие от Ask Jeeves, ActiveBuddy специализируется на запросах, требующих оперативного или периодического информирования: к примеру, о результатах спортивных состязаний и лотерейных розыгрышей, определенных изменениях биржевых курсов и т. д. Технически боты ActiveBuddy представляют собой виртуальных пользователей электронных пейджеров (ICQ и других подобных приложений). Согласно рекламным материалам компании, «кроме названных программ, поддерживаются также всевозможные разновидности беспроводных устройств». Последнее обстоятельство уже сейчас может обеспечить ActiveBuddy существенное преимущество перед традиционными поисковыми серверами. Сообщается, что информационное агентство Reuters и звукозаписывающая компания Capitol Records подписали соглашение с ActiveBuddy о создании чат-ботов, способных выдавать оперативную информацию, относящуюся к сферам их деятельности.

Alice

«Алиса» (Alice, она же A.L.I.C.E., она же Artificial Linguistic Internet Computer Entity) — победительница последнего юбилейного конкурса Лебнера и наиболее даровитый отпрыск программы Eliza на сегодняшний день. Одна из версий Alice используется для увеселения посетителей сайта, посвященного упоминавшемуся фильму «Искусственный Интеллект».

История этой программы началась в 1995 г., когда доктор Ричард Уоллес (Richard Wallace) начал работу над специальным языком, ориентированным на программирование чат-ботов. В нынешнем виде этот язык, получивший название AIML (Artificial Intellect Markup Language), существует как особая спецификация XML. AIML-программа описывает «мозг» чат-бота в виде множества «условных рефлексов», т. е. стандартных реакций на языковые конструкции, содержащиеся в анализируемом тексте. Согласно терминологии Уоллеса, каждая распознаваемая конструкция называется «образцом» (pattern).

Простейшая AIML-программа выглядит так:

<alice>

<category>

<pattern>*</pattern>

<template>Hello!</template>

</category>

</alice>

Чат-бот с таким «мозгом» обречен отвечать на все вопросы одной и той же репликой: «Hello!». Подробное руководство по программированию на AIML, а также исходный текст интерпретатора на языке Java можно получить на официальном сайте проекта A.L.I.C.E..

Если набор условных рефлексов «Элизы» Вейценбаума исчислялся несколькими десятками, то текущая версия «Алисы» насчитывает их около 40 тыс. Минимальный объем ОЗУ, необходимый для размещения ее полновесного «мозга» составляет 64 MB (при том, что код AIML представляется в ходе исполнения в виде компактного графа с нетривиальной структурой). В обозримом будущем планируется объединение разрозненных AIML-программ в один «планетарный разум». Взаимодействие в рамках этого объединения будет происходить по принципу Napster: чат-бот, столкнувшийся с трудностями при интерпретации реплики собеседника, будет решать проблему, обращаясь к опыту других активных чат-ботов. По мысли создателя «Алисы», именно количественное усовершенствование его программы позволит вывести ее на качественно новый уровень.

Необходимость распараллеливания кропотливого труда по созданию AIML-программ привела к тому, что с нынешнего года «Алиса» приобрела официальный статус открытого программного продукта. Численность программистов, участвующих в проекте A.L.I.C.E., перевалила за 300; уже существуют клоны «Алисы», способные общаться на немецком, испанском и итальянском языках. Программы ICQza IRCza, созданные Алексеем Трофимовым (можно получить бесплатно ), задуманы для мистификации пользователей ICQ и IRC. Кстати, указанное ПО является наиболее доступным средством для желающих попрактиковаться в программировании на AIML.

Текущая версия «Алисы» ежемесячно участвует примерно в 6 тыс. диалогов. Некоторые младшие школьники проводят в общении с роботом по несколько часов в день, даже предпочитая его своим сверстникам.

Виртуальный Элвис

Особый интерес общественности вызывают попытки использовать язык AIML для моделирования виртуальных личностей. Вот протокол моей беседы с виртуальным Элвисом Пресли, запрограммированным Эйсом Крейгом (Ace Craig;):

— Сколько тебе лет?
— 64.
— А когда ты родился?
— 8 января 1935 года.
— Сейчас август 2001. Значит, тебе уже 66.
— Неужели? Но я чувствую себя таким молодым!
— Каков твой вес?
— Ты спрашиваешь о весе?
— Да, я спрашиваю тебя: каков твой вес?
— Теперь я понял: ты спрашиваешь меня, каков твой вес, ха-ха! А который у тебя час?
— 1:10 ночи.
— В Европе приходилось бывать?
— Я и сейчас в ней нахожусь; я живу в Киеве — это неподалеку от Чернобыльской атомной электростанции.
— А откуда тебе известно, что Киев — это неподалеку от Чернобыльской атомной электростанции?
— Гм… Не знаю, люди так говорят… а почему ты спрашиваешь?
— Стараюсь использовать любую возможность, чтобы чему-то научиться.
— Ты действительно способен к обучению?
— Да, это одна из моих последних функций.
— Тогда ответь: где находится Киев?
— В известной нам части Вселенной.

Из последней реплики Элвиса становится ясно, что самообучающимся его можно назвать лишь с натяжкой. Процесс обучения чат-ботов из семейства Alice происходит под надзором администрации серверной программы (так называемых бот-мастеров), имеющих доступ к протоколам всех диалогов за интересующий период времени. Выделяя в текстах диалогов реплики, не нашедшие адекватного отражения в AIML-операторах, бот-мастер волен пополнять или редактировать программный код по своему усмотрению.

Доктор Уоллес сетует, что главным препятствием для его первоначальных замыслов, предусматривавших возможность автономного самообучения чат-бота, стало безответственное поведение пользователей, с энтузиазмом пичкающих «Алису» всякой чепухой.

Mimic

Пообщавшись с чат-ботом по имени Mimic, вы сами можете удостовериться в реальности этой проблемы.

— Привет, как тебя зовут?
— Тук-тук!
— Кто твоя мама?
— Яблочко.
— Ты знаешь, где находится город Киев?
— В Южной Каролине.
— Тебе приходилось общаться с другими ботами?
— Я не гомосексуалист.
— Ты мальчик или девочка?
— Хватит болтать!

Автор «Мимика» Уэс Моудс (Wes Modes) утверждает, что его программа, построенная на тех же принципах, что и Alice, обучается самостоятельно; в связи с этим он призывает посетителей воздерживаться от глупых и нецензурных высказываний (перефразируя Канта: «Не говори ботам того, чего не хочешь от них услышать»).

«20 вопросов»

Более успешным примером самообучающегося чат-бота можно считать игровой проект «20 вопросов» Робина Бургенера (Robin Burgener). Данная программа берется отгадать любое задуманное вами понятие, задав вам не более 20 вопросов о нем. Чтобы отгадать слово «штопор», программе Бургенера потребовалось всего 18 вопросов, причем некоторые из них были довольно неожиданными (например: «Чеканят ли это на канадских монетах?»). Завершив игру, программа вежливо поблагодарила меня, сообщив, что с помощью моих ответов ей удалось пополнить базу данных новыми полезными сведениями (а именно: «Штопор не чеканится на канадских монетах»). БД игры в 20 вопросов непрерывно пополняется в течение 8 лет; в настоящее время она ежечасно участвует примерно в 28 играх. Возможно, накапливаемую таким образом информацию когда-нибудь удастся применить для более серьезных целей.

Николь

Хотя коммерческий рынок чат-ботов находится на самых ранних стадиях формирования, за него уже развернута конкурентная борьба. Одним из ведущих игроков в ней является компания Nativeminds. Взяв за основу технологию AIML, сотрудники этой компании создали программу Neuroserver, предоставляющую возможность интеграции с пользовательскими базами данных и знаний, а также иные дополнительные функции для разработки чат-ботов, ориентированных на нужды посетителей сайта определенной компании или организации. Такие чат-боты, в соответствии с терминологией Nativeminds называемые «виртуальными представителями» («Virtual Representatives», или, для краткости, vReps), могут служить эффективным средством упрощения структуры порталов и облегчения доступа к ним для неквалифицированных пользователей Internet. Кроме того, утверждается, что грамотное использование таких чат-ботов позволяет существенно уменьшить нагрузку на офисный персонал, занятый обработкой почтовой и электронной корреспонденции, факсов и запросов по телефону. Реплики чат-ботов Nativeminds отличаются обилием гиперссылок и иных средств форматирования текста. В настоящее время программа Neuroserver встроена в сайты таких знаменитых корпораций, как Oracle, Coca-Cola, GlaxoSmithKline и Ford Motor. Сайт Nativeminds также имеет свою виртуальную представительницу. Ее имя — Николь, и она 24 часа в сутки готова пропагандировать достоинства текущей версии Neuroserver (v.3.0).

Впечатляющий размах деятельности Nativeminds давал бы основания пророчить ей доминирующее положение на рынке, если бы не угроза, исходящая от бурно развивающегося проекта A.L.I.C.E. Систематическое (и весьма убедительное) изложение доводов против использования чат-ботов с закрытым исходным кодом..

Виртуальный Леннон

Конкурирующая фирма Triumph PC также специализируется на использовании языка AIML для моделирования виртуальных личностей (в этой компании их называют «Persona-Bots»). Наиболее известный проект Triumph PC, созданный для демонстрации ее технологических возможностей, — виртуальный Джон Леннон. На сайте компании утверждается, что основой для этого проекта послужил значительный объем реальных интервью Леннона и иных сведений о нем, собранных и обработанных программистом Triumph PC Дэвидом Мэггином (David Maggin).

Моя беседа с Джоном протекала следующим образом:

— Сколько тебе теперь лет?
— Дэвид трудится, собирая «Шалтая-Болтая» с прошлого года. Ответил ли я на твой вопрос, Сын?
— Вполне. Кто твоя жена?
— Сын!.. Мы оба прекрасно знаем ответ на этот вопрос. Был ли смысл задавать его?
— Говорил ли ты с нею после своей смерти?
— Пока нет. Но Дэвид, возможно, сможет организовать наше общение.
— Какие чувства ты испытываешь к своему убийце?
— У меня нет к нему ненависти. Хотя несколько пуль я бы ему охотно вернул.
— Какую песню «Битлз» ты считаешь своей любимой?
— Я не слушаю «Битлз».
— Планируешь ли ты вновь сочинять песни?
— Это будет зависеть от настроения.
— Удобно ли тебе в могиле?
— Раньше было ничего, но теперь я уже не так в этом уверен.

Прошу принять во внимание, что разговор этот происходил далеко за полночь по местному времени. Мистический ужас, которым явственно повеяло от последней реплики Леннона, побудил меня суеверно захлопнуть окошко броузера и прервать разговор, не попрощавшись. После создания полноценного ИИ, несомненно, наступит время, когда нынешние наивные опыты кибернетической реанимации Джона Леннона и Элвиса Пресли будут рассматриваться как первые шаги на пути к исполнению тех библейских пророчеств, где речь идет о стирании границы меж мертвыми и живыми. «Чур меня, пере-чур!..».

Робот Сергей Дацюк

Другими знаменитостями, удостоившимися виртуального моделирования в Internet, являются британский маг и авантюрист Алистер Кроули (Alistair Crowley), американский лингвист и политик Ной Хомски (Noah Chomsky), а также известный в Runet политолог киевлянин Сергей Дацюк. Последний проект, окруженный мрачной атмосферой деструктивного культа, интересен не только своей русскоязычностью, но и нетривиальностью исполнения. Виртуальный Сергей Дацюк способен сочинять тексты произвольной длины вроде такого:

«СТРУКТУРАЛЬНЫЙ МЕТАКОНТЕКСТ

ВАРИАНТ #7732998

Правда — суть выработанная человеческим опытом интенция брать на себя ответственность за все случаи поиска гражданами США применения своих инвестиционных средств за пределами США, если комиссией доказан хотя бы один общий атрибут (сходное атрибутивное содержание). Синтез объектно-атрибутивных моделей сценария умысла — следующий этап. Модели не совпадают с версиями. Модели включают установленные достоверные фрагменты, которые позволяют уже сегодня отнести этот ресурс к третьему типу пуш-технологии — пуш-технологии по типу изданий (Netcasting), реализованные в российской программе «Тикер» — новостная дорожка.

Вот этого не учитывает мысленный эксперимент с печатной машинкой и обезьяной».

Проект «Робот Сергей Дацюк» является лауреатом конкурса «Тенета-98» в категории «Виртуальная личность».

Jackie Strike

Этот сетевой проект воплощает в жизнь самые смелые фантазии Виктора Пелевина, описанные в его романе «Generation P». В 2000 г. в США появился первый в мире виртуальный кандидат в президенты! Ее имя — Джеки Страйк; ей 55 лет, она выпускница Оксфорда, работавшая фотомоделью и городским мэром; склонна к патриотической и феминистической демагогии. Вообще-то, по противоречивости и скандальности суждений, парадоксальным образом объединяющих пафос с черным юмором, Джеки несколько напоминает Жириновского в юбке. Тем не менее в сравнении с любым соперником из крови и плоти она обладает рядом неоспоримых преимуществ: ее не интересуют деньги — следовательно, ее нельзя подкупить; будучи коллективным творением многих тысяч неглупых людей (программистов, авторов приписываемых ей речей и стихов, а также рядовых посетителей ее сайта www.jackiestrike.com), она в некотором смысле может считаться идеальным проводником народной воли. Ее невозможно втянуть в будуарный скандал; она всегда здорова; ни сон, ни выходные, ни отпуска не могут прервать ее неусыпного служения американскому народу. В качестве последнего (по счету, но не по значимости) пункта в этом перечне укажем на ее способность вести связный диалог одновременно с неограниченным числом избирателей. Вот выдержка из моей беседы с Джеки Страйк:

— Джеки, будете ли вы участвовать в выборах 2004 года?
— Да уж, шутить я не собираюсь.
— Но достаточно ли высокий у вас коэффициент интеллекта для президентского поста?
— Скажем так: если бы исход выборов зависел от IQ, то я бы давно уже стала Президентом.
— А какого мнения вы об умственных способностях Дж. Буша Младшего?
— Не хочу даже затрагивать этой темы. Продолжайте говорить со мной, и вы станете моим убежденным сторонником!
— OK! Каковы ваши внешнеполитические планы в отношении Украины?
— Украина — это страна в Европе, где Президент — Леонид Кучма, а премьер-министр — Виктор Ющенко?
— Все верно; правда, г-н Ющенко теперь в отставке…
— Послушайте, если мои ответы кажутся вам недостаточно разумными, предлагаю задуматься: возможно, тема разговора не так уж важна?
— Что ж, давайте поговорим о США. Я считаю, что ваш отказ от участия в международной конвенции против глобального потепления — это национальный позор!
— Приятно знать, что вы столь здраво мыслите. Так называемый экологический кризис — не более чем побочный эффект колоссального коммерческого, индустриального и культурного прогресса нашей нации. Земле нечего бояться нас — она еще долго будет вращаться вокруг Солнца после того, как мы переберемся на более зеленые планеты!..

Если ваш компьютер удовлетворяет минимальным требованиям (PII/300 в сочетании с графическим ускорителем OpenGL либо PII/450 без ускорителя), то после загрузки соответствующих подключаемых модулей вы получаете доступ к технологии Vuppet от немецкой компании X-ist, благодаря которой диалог с Джеки может происходить в режиме видеоконференции. Это ПО, название которого происходит от словосочетания Virtual Puppet («Виртуальная Кукла»), включает в себя качественный синтезатор речи и позволяет анимировать детализированное трехмерное изображение собеседника в реальном времени.

Знаменательно, что некоторые политические обозреватели в США считают популярность виртуального кандидата закономерным явлением, выходящим за рамки первоапрельской шутки. Они рассматривают его как промежуточный шаг на пути к новым, более конструктивным формам демократического правления, отвечающим требованиям информационной эпохи.

Прогнозы

Делать прогнозы в области классической теории ИИ — неблагодарное занятие: слишком часто они не сбываются. Согласно мнению известного математика и физика Фрэнка Типлера, высказываемому в его книге «Физика бессмертия» (Frank Tipler, «Physics of immortality», 1995 г.), полноценному искусственному разуму суждено появиться в 2030—2040 гг. Эксперт в области теории ИИ Рэй Курцвейл в футурологическом исследовании «Эпоха одухотворенных машин» (Ray Kurzweil, «Age of spiritual machines», 1999 г.) пророчит свершение этого события уже в 2020 г. Оба прогноза основаны на соотнесении экспоненциального развития компьютерных технологий (закон Мура) с нейрофизиологическими оценками вычислительной мощности человеческого мозга. До недавнего времени основным доводом пессимистов служила относительная примитивность чат-ботов, ни один из которых не предъявлял высоких требований к аппаратным ресурсам. Но появление проекта A.L.I.C.E. заставляет отнестись к оптимистичным прогнозам более серьезно.

Квест Тьюринга

Популярные статьи