Рубрики Блоги

Интерфейсы: на пути к окончательному решению

Опубликовал
programmeritc

Прежде всего, позвольте воспользоваться случаем и отрекомендовать забавный сервис от отечественного производителя: Cachescope.

Сопроводительный текст гласит:
"Гугл выдал ссылку на измененную или недоступную страницу? Хорошо, если имеется доступ к кэшу поисковой системы. Если же такого доступа нет, то вам не повезло: в этом случае доступным оказывается лишь крошечный фрагмент искомого текста, отображаемый в окне с результатами поиска. Впрочем, Сachescope шлёт вам луч надежды! Испробуйте наш сервис, реализующий алгоритмы глубокого зондирования кэша Google."

Под алгоритмом глубокого зондирования понимается, очевидно, рекурсивный скрипт, использующий фрагменты найденного текста в качестве строки для нового поискового запроса и так далее.

К примеру, часть окна с выдачей результатов поиска может выглядеть так:

Основи Python для школярів від Ithillel.
Відкрийте для вашої дитини захопливий світ програмування з нашим онлайн-курсом "Програмування Python для школярів". Ми вивчимо основи програмування на прикладі мови Python, надаючи зрозумілі пояснення та цікаві практичні завдання.
Зареєструватися

Обратите внимание на отсутствие ссылки "Cached", обычно завершающей текстовые фрагменты (вероятно, вызванное наличием в HTML-коде проиндексированной страницы строки <META HTTP-EQUIV="CACHE-CONTROL" CONTENT="NO-CACHE">, указывающей на нежелание администрации questia.com мириться с дуплицированием своей информации на серверах поисковых служб).

Введя в текстовые поля Cachescope "After having learned that" и "www.questia.com", вы получите более полный фрагмент текста, а имено: "After having learned that she had just given birth to a baby, the herder’s family followed the woman and climbed the mountain. When they were about to enter the cave, a crow flew out of the opening and a wolf came running out. "Surely . the crow has pecked out the child’s eyes and the wolf has eaten it," they said, and went to the bottom of the cave. There they discovered the baby with a drop of milk on his lips as if he had just drunk its mother’s milk. His eyes were wide open and it seemed as if he had a full stomach. This child who had been cared for by a wolf and a crow was the Lama Jiambel Jongdui, who was famous in the area." (естественно, в силу разрушения содержимого кеша Google по мере его устаревания, результаты ваших экспериментов с данным поисковым запросом могут оказаться иными).

К упомянутому в сопроводительном тексте сочетанию обстоятельств, делающих сервис полезным (и без того многочисленных), очевидно, следует добавить еще одно: "на обозримых просторах интернета нет иных страниц, позволяющих получить искомый текст безо всяких ухищрений". Т.о., Cachescope относится к сервисам, востребуемым в столь редкостных ситуациях, что, возможно, вам он и вовсе  никогда не понадобится. И все же согласитесь: в случае, если он вам все же понадобится, лучше, чтобы ссылка на него была под рукой (если в вашем дереве закладок имеется фолдер с названием вроде "exotic surfhacks", то там ей — самое место).

Еще один инструмент нетрадиционного обращения с текстовыми данными Google организован пару месяцев назад самой Google при участии Гарвардского Университета: насколько полезен проект Books Ngram Viewer — трудно сказать, но затягивает он не меньше "тетриса". Он представляет собой нечто вроде экстраполяции сервиса Google Trends www.google.com/trends в область печатных изданий и позволяет строить графики изменения относительной частоты упоминания интересующих пользователя слов и словосочетаний с течением времени, начиная чуть ли не с зари книгопечатания. Поиск ведется в текстах на англ., нем., фр., исп., кит., русском и иврите, хранимых в виртуальном книгохранилище Google Books.

Точнее сказать, не в самих этих текстах, а в списках энграмм, полученных в результате их преобразования. На арго разработчиков энграмма это просто-напросто словосочетание, состоящее из энного количества слов (напр., "Ленин" — монограмма, "Компьютерное Обозрение" — биграмма, и т.д.).

Желающие поэкспериментировать со списками энграмм самостоятельно, вольны их скачать в форме множества обычных текстовых файлов, строки которых отформатированы следующим образом:

энграмма TAB год TAB количество_упоминаний TAB количество_страниц TAB количество_томов

Вот выдержка из перечня русских 5-грамм (как видите, знаки препинания считаются в энграммах отдельными словами):


. « Теперь мне все    1950    1    1    1
. « Теперь мне все    1951    3    3    3

? Какой угрюмый дурак станет    1989    1    1    1
? Какой угрюмый дурак станет    1990    2    2    2
? Какой угрюмый дурак станет    1993    1    1    1
? Какой угрюмый дурак станет    1995    1    1    1
? Какой угрюмый дурак станет    1997    1    1    1
? Карамзин ? но Карамзин    1949    2    2    2
? Карамзин ? но Карамзин    1950    3    3    3

в жизни нашего государства и    1999    1    1    1
в жизни нашего государства и    2000    5    5    5
в жизни нашего государства и    2001    1    1    1
в жизни нашего государства и    2004    2    2    2

— въезжает в город он    1924    1    1    1
— въезжает в город он    1937    1    1    1
— въезжает в город он    1939    1    1    1
— въезжает в город он    1940    3    3    3


Имейте ввиду, что общий размер текстовых файлов в разархивированном виде составляет по моим поверхностным оценкам несколько сот гигабайт.

Важный вопрос, стоящий перед всяким пользователем сервиса касается степени зависимости формы наблюдаемых графиков с одной стороны от изменений, происходящими с объективной актуальностью описываемых поисковой строкой понятий, с другой — от конъюнктурно-политических и прочих субъективных факторов, а с третьей стороны — от изменений, происходящих с языком. Конечно, в этих явлениях много общего и границы меж ними размыты, однако, путать их нельзя. К примеру, широкие скачки в графике употребления слова "шизофрения" в течение XX в. никак не связаны с распространенностью этого заболевания (которая, как говорят медики, составляет на редкость стабильную константу). Скорее всего, с отношением общества к шизофреникам и продуктивности психиатров, специализирующихся на изучении шизофрении у этих скачков тоже связи немного. Скорее всего, эти скачки гл. обр. отражают распространенность практики обиходного использования слова "шизофрения" (напр., в шутливом или ругательном смысле).

Эволюция языка представляется принципиально новым фактором, непривычным для пользователей традиционных поисковых сервисов, доселе имевших дело с электронными публикациями, возраст которых по лингвоисторическим меркам покамест пренебрежимо мал. Можно предположить, что в ходе предстоящего поисковым сервисам развития им помимо привычых функций межъязыкового перевода придется обзавестись функцией перевода с современого русского на русский 100-летней давности, позуоляющей приводить поисковые строки в соответствиии стандартам начала ХХ в. и т.о. улучшить качество текстового поиска в тогдашних документах.

Поп-блоггеры окрестили построитель графиков энграммоумотребления инструментом исследования "периода полураспада звезд", — т.е., характера флуктуаций интенсивности общественного внимания, уделяемого знаменитостям. Как видно из этого примера, звезды мерцают очень по-разному. Интересно сравнивать интенсивность внимания, уделяемого "звездам" современниками и потомками: превалирование второго показателя, вероятно, указывает на талант, опережающий время.

Примечательно, что графики популярности большинства американских "звезд" (из пришедших мне на ум), — да и многих вполне обыденных понятий, — характеризуются заметным спадом в области конца 1950-х — начала 1960 гг. Похоже, что в это время американцам было не до развлечений, и их обычные интересы вытеснялись из СМИ какими-то другими заботами. Какими же? Одна из них была обнаружена мною по прошествии примерно часа неудачных экспериментов (как же я раньше не догадался?!); буду признателен читателям за другие комментарии к странному "провалу 1960-го года".

В заключение прошу взглянуть на график, собственно говоря, побудивший меня к написанию этого поста.

Он свидетельствует о том, что в сравнении с 2003 г. частота упоминания слова "interface" упала почти вдвое. Сейчас этот показатель находится где-то на уровне четвертьвековой давности. Т.е., на уровне времен гегемонии IBM PC XT. И это несмотря на чуть ли не ежемесячное появление сообщений о революционных интерфейсах от Nintendo, Apple и Microsoft; на разговоры о скором вымирании компьютерных мышек и клавиатур и на общее впечатление о перемещении основного упора в конкурентной борьбе меж производителями гаджетов с вычислительной мощности на оригинальность и привлекательность интерфейсов.

Знакомый функционер из немецкого филиала IBM, с самозабвением культиста пропагандирующий облачные вычисления, утверждает, что это парадоксальное явление вызвано тем, что слово "interface" употребляется-де преимущественно в составе словосочетания "man-machine interface", теряющим актуальность по мере того, как пользователи все меньше взаимодействуют с компьютерами, и все больше — с Сетью. Не могу подыскать смайлика, отражающего смехотворность этой гипотезы.

Может быть, дело в том, что обсуждение интерфейсов привлекает преимущественно технически продвинутую часть населения, презирающую "dead-tree publishing" и предпочитающую взаимодействовать с современными электронными изданиями? В ошибочности этого предположения легко убедиться, взглянув на этот ниспадающий график https://www.google.com/trends?q=interface.

Полагаю, ярко выраженный спад интереса к интерфейсам после 2003 года вызван, гл. обр., характерным для минувшего десятилетия изменением отношения массового пользователя к компьютерам, которые все более воспринимаются как всего лишь одна из разновидностей бытовой техники. А с потребителями бытовой техники говорить об интерфейсе неуместно (ср. "интерфейс кофемолки", "интерфейс холодильника"). В этом смысле крах "Компьютерного Обозрения", в каждом номере которого слово "интерфейс" употреблялось по нескольку раз, неизбежен и закономерен.

Disqus Comments Loading...
Поделитесь в соцсетях
Опубликовал
programmeritc