Русские поисковые системы: лингвистические особенности

     Поисковые механизмы являются своеобразным зеркалом развития Сети. По мере того как возрастает число серверов и повышается качество их наполнения, все большее внимание уделяется поисковым системам. Увеличивается и количество желающих зарегистрироваться в базе данных того или иного поискового сервера, поскольку присутствие ссылки на сайт в результатах запроса, сделанного пользователем, влияет на объем финансовых поступлений или косвенных выгод для владельцев информации.
     

     Среди основных поисковых механизмов в русскоязычной части Сети на сегодняшний день можно выделить три проекта: Rambler (www.rambler.ru), Yandex (www.yandex.ru) и Aport (www.aport.ru). Несомненно, как минимум одно из вышеупомянутых имен знакомо каждому пользователю Internet, а более опытным "сетянам", равно как и Web-мастерам, приходилось бывать по всем трем адресам в поисках нужной информации. Эта статья посвящена лингвистическим алгоритмам, используемым поисковыми машинами русскоязычной части Сети, поэтому вначале следует вкратце напомнить читателям лингвистические особенности русского языка.
     

     Синтетика или аналитика: особенности морфологии

     Большинство языков можно разделить на две большие морфологические подгруппы: синтетические и аналитические. Аналитические языки для выражения падежей используют служебные части речи (предлоги, частицы, союзы), в то время как в синтетических языках принадлежность к определенному падежу передается окончанием. Русский же язык, в котором словоформы образуются с помощью как служебных слов, так и флексий, относят к аналитико-синтетическим.

     Так, например, если в русском, который более синтетичен, нежели аналитичен, дательный падеж слова "броузер" образуется прибавлением окончания "у" — "броузеру", то в аналитическом английском — предлога "to": "browser" — "to browser". Во втором случае форма главного слова не меняется в зависимости от значения.

     Именно этот фактор следует учитывать при разработке как русскоязычных, так и украиноязычных страниц. В английском все гораздо проще — при индексации сайта поисковый механизм выделяет основной абзац текста, отбрасывает ненужные ему второстепенные члены предложения и индексирует оставшиеся значимые части речи. В русском же варианте, проиндексировав слово "брат", он обязан внести в базу данных и другие формы этого слова: "брата", "брату", "братом" и т. д.
     

     Порядок слов: особенности синтаксиса

     Не отличается русский язык и строгим порядком слов или иными непоколебимыми правилами образования предложения. Изучавшие немецкий помнят, насколько важно место слова в предложении: последовательность четко определена правилами и не может быть изменена ни под каким предлогом. Английский, хотя и не так строг в отношении синтаксиса, все же не либерален и имеет определенные синтаксические структуры, которые непосредственно влияют на тематическое наполнение предложения. Так, английское предложение "I am a student" — повествовательное, в то время как "Am I a student?" даже без явно свидетельствующего о том вопросительного знака — вопросительное. Благодаря этому местонахождение глагола в предложении и порядок слов позволяют даже программе-роботу определить тематическую направленность отрывка текста.

     В русском языке предложения "Вася подарил Оле розу", "Оле Вася подарил розу", "Подарил Вася Оле розу" и "Розу Вася Оле подарил" представляют собой, по сути, одинаковые смысловые отрезки, хотя в разговорной речи эти примеры, безусловно, отличаются, так как логическое ударение будет на первом слове. С одной стороны, это позитивный фактор для поискового механизма, поскольку без особой на то нужды никто не будет использовать предложения типа "Розу Вася Оле подарил", а если встречается такой пример в реальной жизни, то это значит, что автор желал обратить особое внимание на вид цветка (не ромашку и не лютик, а именно розу), т. е. увеличивается смысловая нагрузка слова "роза". С другой стороны, простых алгоритмов распознавания типов предложений в русском языке быть не может, так как четыре приведенных примера для спайдера поисковой машины являются ничем иным, как набором символов, которые имеют возможность вольно чередоваться внутри предложения.
     

     Определение наполнения: особенности стилистики

     Единственным утешением создателям алгоритмов поиска и классификации русскоязычных текстов является стилистическое оформление предложений. Для русского и украинского языков характерны четко определенные стили, которые хотя и имеют тенденции смешиваться, но это происходит не так часто. Художественно-литературный и публицистический стили довольно легко отличить от разговорного или официально-делового. Таким образом, спайдер поискового механизма может распознать стилистическую направленность текстов, в русскоязычной части Internet это пока не практикуется, но на Западе все больше говорят о возможности проверки стилистической принадлежности того или иного текста.

     Дизайн сайта: до регистрации

     Профессиональным создателям сайтов наверняка не имеет смысла напоминать о таких особенностях HTML, как метатеги и оптимизация содержания Web-страниц для успешного индексирования поисковыми системами. Наиболее часто встречаемые метатеги содержат описание содержания сайта <META NAME="description" CONTENT="Описание содержания вашего сайта"> и ключевые слова <META NAME="keywords" CONTENT="слово1, слово2, слово3, …">. Удачный заголовок также поможет появлению сервера в поисковых системах, так как в большинстве случаев поисковый механизм уделяет внимание именно тегу <TITLE>. Чаще всего заголовки становятся той строкой, которую поисковый сервер покажет в ответ на запрос как ссылку на сайт.

     Желающим побольше узнать о спецификациях и особенностях написания метатегов можно посоветовать посетить "Энциклопедию Internet-рекламы" под редакцией Тимофея Бокарева, которая находится по адресу www.promo.ru. Дополнительная информация касательно оптимизации сайта и подготовки его для индексации поисковиками содержится и в моей прошлогодней статье "Лингвистические особенности поисковых систем" ("Компьютерное Обозрение", # 45, 1998).

     Что еще можно посоветовать владельцам русскоязычных ресурсов? Желательно наличие необходимых кодировок, хотя все спайдеры могут распознать тип используемой русской кодировки и регистрацию домена в зонах стран СНГ, поскольку большинство русскоязычных поисковых систем довольно подозрительно относятся к серверам в зарубежных доменах (хотя подобные сайты регистрируются при наличии на них русских страниц), а персональные и деловые страницы, расположенные на Geocities или Hypermart, не регистрируются вовсе.

     Поговорим о главном: регистрация в поисковой системе

     Появлению сайта в базе данных поискового механизма предшествует его регистрация. Если дизайн сделан качественно, содержание не вызывает нареканий, а метатекст оформлен правильно, то обычно этот процесс происходит без всяких затруднений. Однако именно тут необходимо учитывать определенные лингвистические особенности и детали дизайна. В табл. 1 приведен подробный отчет о нюансах индексирования документов в Сети каждым из поисковых механизмов. Рассмотрим некоторые категории нижеприведенной таблицы.

     Появление в индексах незарегистрированных страниц. Чаще всего при регистрации указывается заглавная страница сайта. В течение некоторого периода времени спайдер исследует внутренние ссылки, размещенные на ней, и переходит к индексации остальных страниц. Не следует также забывать, что с точки зрения HTML ссылки типа "http://www.server.com.ua" и "http://www.server.com.ua/" разные, и если в первом случае проиндексируется лишь страница по умолчанию (чаще всего index.htm или default.asp), то во втором случае спайдеру будет предоставлена дополнительная информация о необходимости регистрации всей корневой директории.

     Глубина индексирования. Этот показатель свидетельствует о возможностях спайдера в отношении перехода на другие страницы сайта с помощью гиперссылок. На сегодняшний момент, как видно из таблицы, он не ограничен, однако с ростом объема информации в русскоязычной части Сети можно ожидать ограничения на уровни гиперссылок, которые спайдер проследит и проиндексирует.

     Поддержка фреймов. В случае использования тегов <FRAME> спайдер правильно прочитает ссылки на документы, которые входят в состав фрейма, и все они будут проиндексированы.

     Поддержка ImageMaps. Тег ImageMap определяет в документе HTML графический файл, внутри которого содержатся гиперссылки. Подобный прием довольно часто встречается при создании заглавных страниц. В большинстве случаев информация с ImageMap продублирована текстовыми ссылками внизу, однако для спайдера, не "видящего" ссылки на графические объекты, подобный дизайн может вызывать затруднения.

     Индексация закрытых разделов. Эта практика широко применяется для предоставления платного доступа к информации. Спайдер при получении имени пользователя и пароля регистрирует часть закрытого раздела сервера, и, таким образом, потенциальный посетитель может узнать, что интересующая его информация существует.

     Индексация внешних ссылок (outbound links). Довольно часто для определения качества содержания того или иного сайта поисковая система проиндексирует внешние ссылки, исходящие к серверу от других страниц. По логике создателей спайдеров, чем больше ссылок в Сети существует на определенную страницу, тем выше качество содержащихся там материалов. Эта практика находит применение в западных поисковых машинах, но не соответствует динамичной сущности Internet, так как молодому неизвестному сайту довольно трудно получить широкую огласку в сетевых кругах в отличие от конкурентов, которые могут работать уже несколько лет.

     Определение частоты обновления. Часто этот показатель путают с метатегом <META NAME="revisit-after" CONTENT="X days">, полагая, что именно он говорит поисковому механизму, когда следует вернуться на страницу для повторной индексации содержания. На самом деле спайдеры обладают своим алгоритмом и логикой определения частоты индексации, в то время как вышеуказанный метатег направлен всего лишь на обновление кэша на proxy-сервере клиента, т. е. он указывает proxy провайдера, как долго тот может хранить зеркальную копию сайта и когда он должен вернуться, чтобы обновить содержание. Не следует также забывать, что за каждым поисковым механизмом и, соответственно, за каждым спайдером находятся вполне конкретные люди, поэтому если сайт представляет собой набор ежедневно обновляющейся информации, интересной для широкого круга пользователей (в основном речь, конечно же, идет о новостях), то можно договориться об индексации персонально с администраторами системы. Алгоритмы поискового механизма представляют собой сравнение полученных результатов после переиндексации и определения коэффициента частотности, который будет увеличиваться, если содержимое сайта находится в процессе пополнения, и будет уменьшаться, если он не модифицируется из месяца в месяц.

     Robots.txt. В некоторых случаях администраторы не горят желанием проиндексировать содержание своего сайта. Причины для этого могут быть, естественно, самые разные. В то же время спайдер, следующий по ссылкам, может вполне резонно проиндексировать все файлы, находящиеся на сервере. К счастью, есть способ оградить себя от подобных "атак", к примеру помещение в корневой директории файла robots.txt. Опытные дизайнеры наверняка знают, что при посещении сайта большинство спайдеров (те, у которых функция чтения этого файла присутствует) сперва востребуют файл robots.txt, а уж затем, согласно полученным указаниям, займутся индексацией содержания.

     Такой подход, в принципе, удобен, однако и он имеет нюансы. Если информация на сервере является конфиденциальной (скажем, вы создали отдельную директорию на сервере и поместили туда восторженные письма своих поклонниц), то, защитив ее от спайдеров поисковых механизмов, не сделаете недоступной для посторонних глаз. Без надлежащего режима аутентификации любой желающий может набрать в строке броузера http://www. server.com/robots.txt и узнать, какие файлы вы пытаетесь оградить от взоров широкой общественности. Более практичным является применение в секции <HEAD> документа HTML метатега <META NAME="robots" CONTENT="noindex">.

     Возможность проверки страницы на наличие в индексе. Эта функция поисковых механизмов применяется в том случае, когда владелец сайта хочет узнать, проиндексирован ли его сайт или как давно была произведена последняя индексация. В таблице приведен синтаксис запросов к поисковому механизму.

     Возможность проверки внешних ссылок. Некоторые поисковые механизмы предоставляют возможность выяснить, кто решил разместить ссылку на сайт на своем ресурсе. Синтаксис подобного запроса к поисковому механизму представлен в таблице.

     После определения основных концепций дизайна сайта следует подумать о специфических требованиях всех поисковых механизмов. В идеале, при наличии лидирующей тройки, каждый владелец сервера должен создать три копии, оптимизированные под конкретные требования. Однако на практике такое решение, конечно же, не применимо. В редких случаях создается одна или несколько дополнительных страниц (gateway pages), которые затем и индексируются каждым поисковым механизмом в отдельности.

     Владельцы поисковых механизмов, как правило, не скрывают их особенностей. Например, вот что пишет один из администраторов сервера Rambler Дмитрий Крюков в материале "Как сделать, чтобы Rambler находил мои документы" (он доступен на сайте): "Роботы Rambler при сканировании игнорируют поля <МЕТА NAME="keywords" CONTENT="…">. Это связано с тем, что наша система старается индексировать документ таким, как есть, а не таким, как хочет владелец. Не секрет, что зачастую владельцы документов злоупотребляют этими полями в документе с тем, чтобы их документы обязательно находились по словам, при этом часто реальное содержание документа не отвечает данным критериям".

     А вот что создатели Rambler говорят об особенностях индексации: "Базовые понятия и ключевые слова для данного сайта следует включать в теги HTML (в порядке значимости): (1) <TITLE>, (2) заголовки <H1>…H6>, (3) тег <ADDRESS> и (4) теги <B> или <STRONG>", подчеркивающие обычно наиболее значимые слова в документе. Что касается общего текстового содержания сайта, то тут разработчики обращают внимание на расположение ключевых слов: "Чем ближе располагается поисковое слово к началу документа, тем больше весовой коэффициент данного слова".

     Как и любая поисковая машина, Rambler ведет собственный список стоп-слов (stop words, в программном обеспечении от Microsoft иногда называемые noise words). Дмитрий Крюков по этому поводу говорит: "Не следует включать в список желаемых ключевых слов общеупотребительные, часто встречающиеся слова, такие, как сервер, html, ru, страница и другие. Ваши слова должны быть достаточно информативными (в идеале уникальными). Не следует также ориентироваться на слова, состоящие из одних цифр".

     Разработчики сервера Aport на странице "Вэбмастеру" вкратце обращают внимание на основные особенности поискового механизма: "Апорт — полнотекстовая поисковая система. Это означает, что она индексирует все слова, которые бы увидел на экране человек, просматривая конкретную страницу вашего сервера. В результате любое слово из текста ваших документов может служить критерием последующего поиска. Для документов HTML, кроме обычного текста, теперь индексируется также и содержимое ряда полей. К ним относятся: (1) заголовок документа <TITLE>, (2) ключевые слова <META NAME ="keywords" CONTENT="…">, (3) дескрипторы графических файлов <ALT>, (4) комментарии <!=комментарий=> и (5) гиперссылки <A HREF>. В ближайшее время появится возможность избирательного поиска по этим полям. Кроме того, Апорт индексирует и текстовые файлы (с расширением TXT), на которые найдет ссылки".

     Таким образом, в среде создателей поисковых машин можно отметить различные мнения касательно эффективности метатегов и использования ключевых слов и комментариев в структуре документов, равно как и схожие взгляды относительно неоценимой роли заголовка <TITLE> при индексации документа.

     В табл. 2 приведены основные параметры, на которые поисковые системы ориентируются при индексации документов на сервере. Пожалуй, несколько категорий требуют дополнительных объяснений.

     Морфологический поиск. Возможность склонения словоформы, т. е. при индексации на странице слова "пользователь" в базу данных системы попадут и все падежные формы существительного.

     Учет регистра. Позволяет производить отдельную регистрацию ключевых слов в зависимости от регистра, т. е. слова "Зима" и "зима" будут рассматриваться как самостоятельные термины. Такая стратегия, используемая, как видно из таблицы, только в поисковом механизме Yandex, добавляет работы и персоналу поддержки сайта, так как теперь приходится продумывать возможные варианты поиска и вносить соответствующие изменения в ключевые слова и заголовок.

     Meta-refresh. Роботы распознают переадресацию на другую страницу, однако в некоторых случаях спайдер, посчитав, что если страница зарегистрирована, то она должна быть и проиндексирована, займется ею вне зависимости от того, увидит ее пользователь или нет. В большинстве случаев робот перейдет на URL, указанный в теге переадресации.

     Невидимый текст. Вредная привычка некоторых дизайнеров, жаждущих пробраться в первую десятку ссылок при поиске по особо популярным ключевым словам, на данный момент спайдерами распознается и наказывается. Зачастую сайты, попавшие в число спаммеров, попросту исключаются из индекса, иногда без возможности дальнейшего туда вхождения.

     Повторяемость ключевых слов. Этот вопрос постоянно встречается во многих списках рассылки и FAQ поисковых механизмов. Излишняя повторяемость ключевых слов в любой части документа уже вызывает подозрение, и зачастую, при индексации страницы, на которой ключевые слова повторяются уж слишком часто, сайт будет исключен из базы данных. Подобная порочная стратегия хоть и встречается иногда в русскоязычной части Сети, но быстро теряет свою популярность из-за все той же политики поисковых механизмов. Однако разработчик может внести сайт в число спаммерских, даже не подозревая о том.

     Здесь стоит особо отметить то, что все знаки препинания, кроме используемых HTML кавычек, спайдером отвергаются. Таким образом, если среди ключевых фраз или в заголовках страниц присутствуют словосочетания, в которых повторяется одно или несколько слов (например, "синие автомобили, красные автомобили, автомобили ГАЗ, автомобили российского производства" на страницах автодилера), подобная информация будет прочитана поисковой машиной без учета знаков препинания, а значит, обозначена как попытка некорректного влияния на индексацию страницы.

     Мелкий текст. Один из самых примитивных приемов воздействия на спайдер, когда ключевые слова набираются мелким шрифтом и предназначаются сугубо для поискового механизма, на сегодняшний день хорошо распознается.
     

     Жизнь после регистрации

     По окончании процесса создания сайта и успешной его регистрации в поисковых системах возникает еще один вопрос, который чрезвычайно актуален для менеджеров проектов, занимающихся коммерческой деятельностью, — как сервер предстанет перед потенциальным покупателем. Действительно, ничто не мешает разместить в заголовке и описании максимум ключевых слов, однако привлечет ли ссылка на него пользователя, обратившегося за помощью к поисковому механизму?

     В табл. 3 собраны основные параметры отображения результатов поиска на рассматриваемых русскоязычных поисковых ресурсах. Однако следует помнить, что они все чаще стремятся предоставить своим клиентам максимальные возможности персонализации интерфейса. Таким образом, приведенные данные являются обобщенными и правильными, только когда речь идет о так называемых "пользователях по умолчанию", т. е. не интересующихся особенностями настройки интерфейса. К счастью, таковых большинство.
     

     Вместо заключения

     Регистрация в поисковых системах с некоторых пор начала котироваться наряду с такими услугами, как дизайн или информационная поддержка, поскольку именно рекламная политика или умение заявить о себе свидетельствует о коммерческом успехе Internet-проекта. Вот тут и будут востребованы качественная лингвистическая подготовка разработчика, его умение подыскать синонимы к ключевым словам и спрогнозировать наиболее вероятные термины, которые станут искать посетители. Поисковые машины также находятся в постоянном развитии, и можно смело утверждать, что уже через два-три месяца после публикации статья во многом потеряет свою актуальность. Однако понимание работы поисковых механизмов и внутренней логики спайдеров зачастую является гораздо более редким даром, нежели умение правильно оформить метатеги.