Аудиовизуализация


Если бы мы могли соединить внешние окончания зрительных нервов с нашими ушами, а окончания слуховых нервов — с нашими глазами, то мы слышали бы молнию и видели бы гром; видели бы симфонию и слышали бы движение дирижера. Уильям Джемс. "Научные основы психологии"


Начнем с теории

Объединение визуальных и звуковых образов так же естественно, как повседневный опыт человека, свидетельствующий о том, что большинство движущихся предметов движется синхронно с производимыми ими звуками, а большинство звучащих предметов звучат в такт своему движению. Первым, кто оценил значимость этой простой мысли для художественного самовыражения, был, вероятно, некий наш далекий предок, впервые объединивший пение с танцем.

Событие это случилось задолго до изобретения колеса, и, осмелюсь предположить, задолго до появления первобытного человека.

Обозримый период истории искусства изобилует настойчивыми попытками интеграции визуальных и звуковых компонентов. Стремясь усилить воздействие своих произведений, некоторые музыканты прибегали к живописи, а некоторые художники — к музицированию. Представителями этих очень условно разделяемых категорий могут быть Робин Стори (Robin Storey) и M. Чюрленис (Ciurlionis).

Даже "по определению" немое кино не является в строгом смысле немым, поскольку оно обычно сопровождается аккомпанементом тапера. С другой стороны, значительно ухудшается восприятие театра и оперы при отсутствии визуального компонента, а балет и вовсе нельзя представить без него. А уж для современных форм искусства вроде MTV-кинематографа и компьютерных игр аудиовизуальный синтез поистине является краеугольным камнем.

Изучение связей между звуковым и визуальным восприятием имеет богатую и увлекательную историю. Например, в основе древнейшей пентатонической музыкальной традиции лежит незыблемая для сознания восточных музыкантов связь между нотами и соответствующими им цветами. В 1672 году для создания похожей теории И. Ньютон использовал открытый им феномен дисперсии белого света в стеклянной призме, установив формальное соответствие между семью синусами углов преломления и семью тонами в октаве. В 1734 году эта теория вдохновила французского ученого Л. Кастеля на изобретение цветового клавесина. В этом "прадедушке" всех современных цветомузыкальных установок для сопряжения клавиш со светофильтрами использовалась рычажная передача, а источником света служили свечи.

В 1810 году оппонентом теории И. Ньютона выступил И. Гете, более двадцати лет посвятивший исследованию психических, физиологических и гармонических свойств цвета. Согласно его убеждениям, основная цветовая палитра должна исчисляться не семью, а шестью циклически связанными цветами, взаимоотношение между которыми устанавливается так называемой конструктивно-гармонической круговой диаграммой.

Другой гений немецкой мысли — Шопенгауэр — усовершенствовал систему Гете, введя в нее понятие цветовой энергии.

Авторы и приверженцы всех этих систем претендовали на цветомузыкальную универсальность: гармоничное (в установленных ими рамках) сочетание цветов должно было соответствовать гармоничным сочетаниям звуков, и наоборот. Одним из крайних проявлений этого стремления стала теория немецкого художника А. Хельцеля, пытавшегося описывать сочетания звуков и цветов одинаковыми языковыми терминами. Хельцель предлагал классифицировать цветомузыкальные контрасты на тональные, яркостные, температурные, хроматические и т. д.

Практика

Цветомузыкальная система Ньютона и древнекитайская цветная пентатоника
В диаграмме Иоганна Вольфганга Гете гармоничность сочетания цветов пропорциональна длине связующей их хорды
В "равноэнергетическом круге" Артура Шопенгауэра центральная точка, используемая для определения гармоничности цветовых сочетаний, смещена в сторону энергичных (теплых) тонов

Исследование практической применимости описанных теорий долгое время сдерживалось недостаточным уровнем развития технологии. В течение более чем двух веков со времен Кастеля цветомузыкальные установки продолжали оставаться разновидностями волшебных фонарей и железнодорожных семафоров, использовавших в качестве источников света свечи и солнечный свет, вольтовы дуги и лампы накаливания. Конструированием подобных устройств для цветомузыкальных представлений занимались Бишоп (B. Bishop), Римингтон (W. Rimington), Гектор (A. Hector), Уилфред (T. Wilfred), Шенберг (A. Shoenberg), а также многие другие известные изобретатели, ученые и музыканты.

В России признанным пионером цветомузыкальной теории является А. Н. Скрябин, создавший в 1909—1910 гг. концептуальное симфоническое произведение "Прометей, или Поэма огня". Скрябин, обладавший цветовым слухом, считал, что между цветами и музыкальными тональностями существует взаимное соответствие. Ноты "Прометея" содержали двухголосую партию Luce, предназначенную для исполнения на 12-ламповом "световом органе" Римингтона.

Скудость и противоречивость сведений, необходимых для адекватной интерпретации авторского замысла, породили после смерти Скрябина (1915 г.) ожесточенные споры, которые не утихают в музыковедческих кругах и по сей день. Одним из наиболее известных современных интерпретаторов партии Luce считается норвежский пианист Хакон Аустбо (Hakon Austbo), сконструировавший уникальную световую клавиатуру для управления 400 цветными лампами.

Однако первой по-настоящему новой и продуктивной технологией аудиовизуализации стала мультипликация. В 1940 году художники студии Уолта Диснея получили задание найти художественные средства для интерпретации популярных классических произведений; результатом стала одна из самых знаменитых диснеевских работ — "Фантазия"(Fantasia). В 1941 г. Дисней заявлял: ""Фантазия" не вмещается в узкие рамки таких жанров, как концерт, ревю или водевиль; ее, скорее, следует определить как синтез комедии, эпопеи, балета, драмы, импрессионизма, цвета, звука… Необыкновенная гибкость ее концепции позволит нам каждый год создавать очередной выпуск "Фантазии"".

Хотя из-за финансовых трудностей ожидание очередного выпуска растянулось на долгие 60 лет, "Фантазия" стала учебником по анимационной хореографии для нескольких поколений мультипликаторов.

С 1960-х годов доступность электронных компонентов позволила воплотить цветомузыкальные теории в электронных схемах. Конструирование цветомузыкальных установок стало популярным хобби и привычным атрибутом танцплощадок. Базовая радиолюбительская установка включала набор полосовых фильтров, регулирующих интенсивность свечения разноцветных ламп. Окраска ламп обыкновенно выбиралась в соответствии с ньютоновской системой: низкочастотным ("теплым") звукам соответствовала "теплая" часть спектра, состоящая из красных, оранжевых и желтых оттенков; высокочастотные же звуки связывались с "холодными" цветами, т. е. с голубым, синим и фиолетовым.

Венцом эволюции цветомузыкальных установок является ультрасовременное лазерное оборудование для световых шоу, управляемое с помощью компьютеров. Ведущие силы на рынке весьма дорогостоящего программного обеспечения для организации таких шоу представлены компаниями Pangolin и Laseranimation.

Появление мультимедийных компьютеров в первой половине 1990-х годов стало революционным в области аудиовизуального синтеза. В результате экспериментаторы получили доступ к богатствам арсенала алгоритмов цифровой обработки и интерпретации звукового сигнала, а также возможность формирования изображений потенциально неограниченной сложности. Из-за относительно низкой производительности тогдашней техники первые программы визуализации писались только на ассемблере, работали только под DOS и были рассчитаны только на непосредственное взаимодействие с аппаратными ресурсами. И последний фактор обусловил их крайне нестабильное поведение.

Нынешнее положение дел

Слева направо, сверху вниз: базовые интерфейсы Oozic Player, WinAmp, UltraPlayer и Sonique. Отсутствие нарочито футуристического дизайна не мешает WinAmp лидировать с большим отрывом

Сегодня аудиовизуализация фактически становится стандартным функциональным элементом ОС (так как поддерживается проигрывателем Misrosoft Windows Media Player). Количество же free- и shareware-программ исчисляется многими десятками. Регулярно обновляемые их списки с аннотациями пользователей ведутся, например, на сайтах www.mp3.com и www.download.com. В этой категории тройку лидеров составляют WinAmp, Sonique и UltraPlayer.

Популярность WinAmp во многом обусловлена универсальным законом положительной обратной связи: чем больше программистов проявляют интерес к разработке подгружаемых модулей для WinAmp, тем популярнее он становится; а чем популярнее он становится, тем больший интерес вызывает у программистов. Поэтому основой своей маркетинговой стратегии руководство компании NullSoft сделало обеспечение комфортности для программистов: посетителям сайта www.winamp.com предоставляется бесплатный доступ к развитой среде разработки (SDK) и подробнейшей документации. А модуль WinAmp Advanced Visual Studio (WVS), включаемый в стандартную поставку WinAmp начиная с версии 2.6, сделал процесс создания авторских аудиовизуальных эффектов беспрецедентно демократичным и не требующим владения ни одним языком программирования, причем понимание тригонометрических формул также не является необходимым, но оно очень желательно. Сейчас указанный сайт размещает около 2 тыс. подгружаемых модулей, получивших официальное одобрение. Недавно администрацией сайта даже проводился полушутливый опрос посетителей: "Сколько времени занимает у вас создание очередного модуля: менее часа? более часа? менее суток? более суток?". Ответы респондентов разделились примерно поровну.

Smoke — представитель последнего поколения модулей визуализации для проигрывателя WinAmp, созданный Райаном Гейссом. Алгоритмическая основа — моделирование гидродинамических процессов; минимальные требования к компьютеру — P-III-800
"A Knight’s Tale": широкоэкранный цветной художественный… plug-in!

Аудиовизуальные эффекты — одна из тех немногих заповедных областей программирования, где "один в поле — все еще воин". Однако для того чтобы не потеряться в этом поле, необходимо обладать сочетанием таких разноплановых качеств, как художественный и музыкальный вкус, знание эффективных и эффектных графических алгоритмов, а также умением реализовать их с помощью современных средств аппаратной акселерации. Воплощением этих качеств является культовая фигура в мире аудиовизуального программирования 24-летний Райан Гейсс (Ryan Geiss). Еще будучи студентом, он создал для WinAmp модуль Geiss, который и поныне остается одним из самых популярных в мире. Весной 2001 г. руководство NullSoft зачислило Райана в штат постоянных сотрудников; результатом этого шага уже стало появление двух модулей, задающих новый стандарт в области аудиовизуализации, — Smoke и Milk Drop (для просмотра последнего можно использовать стереоскопические очки).

Другим законодателем мод в области программирования трехмерных аудиовизуальных эффектов является компания WildTangent ("Компьютерное Обозрение", # 21, 2001). Естественным следствием ориентации WildTangent на совместимость интерактивных графических приложений с широким спектром системных драйверов, броузеров и иного программного обеспечения (в том числе с модулем анимации антропоморфных персонажей Character Studio) стало появление серии модулей аудиовизуализации Virtual Dancers. Недавняя вариация на эту тему — модуль "A Knight’s Tale", созданный в рамках рекламной кампании одноименного фильма Columbia Pictures. Этот модуль изображает сражающихся под музыку средневековых рыцарей. В настоящее время WildTangent поддерживает совместимость своих модулей со всеми ключевыми проигрывателями: WMP, WinAmp, UltraPlayer, Sonique и Real Audio Player.

Персонажи, визуализованные MP3-проигрывателем DPlayer южнокорейской компании Spaceillusion, также трехмерны. Однако они "не вполне виртуальны", поскольку для их анимации используется технология Motion Capture, заимствованная из крупнобюджетных игровых проектов и кино. Сайт www.spaceillusion.com предоставляет доступ к богатой и регулярно обновляющейся библиотеке файлов, созданных с помощью оборудования, отслеживающего движения профессиональных танцоров (DPlayer может настраивать скорость воспроизведения анимации, синхронизируя ее с ритмом проигрываемой мелодии). Поддерживаются также библиотеки файлов, определяющих геометрию сценического антуража и анатомию самих пляшущих персонажей. Согласно заявлениям разработчиков, DPlayer является идеальным средством для самостоятельного обучения танцам.

К концу 90-х компьютер, укомплектованный мощным проектором, стал привычным атрибутом дискотек и ночных клубов, а наряду с устойчивым буквосочетанием DJ в обиходе появилась другая аббревиатура — VJ, т. е. массовик-затейник, ответственный за визуальное сопровождение вечеринки. Ответом компании Creative Labs на эти тенденции стала разработка технологии LAVA! (Live Audio Video Animation). Современными наследниками LAVA! являются продукты семейства Oozic.

Oozic Player — проигрыватель звуковых и графических файлов, которые могут попарно связываться в плей-листе. Графические файлы имеют расширение .mv3 и служат для описания объектов, составляющих трехмерные сцены, а также способов их реакции на звук. В ходе визуализации пользователь может управлять движением виртуальной камеры, ему также предоставляется некоторая свобода взаимодействия с объектами трехмерной сцены. Отметим, что размеры инсталляционного файла этого проигрывателя превосходят 10 MB. Кроме того, он предъявляет высокие требования к компьютеру: P-II-400, 128 MB ОЗУ и "достаточно быстрый" 3D-акселератор. Для клубного использования рекомендуется видеоадаптер с поддержкой двух мониторов: проектор в этом случае применяется для вывода изображения в полноэкранном режиме, а обычный дисплей — для работы с диалоговым окном.

Oozic Reactor позиционируется как инструмент ви-джея и представляет собой проигрыватель с некоторыми дополнительными функциями: в частности, он позволяет назначать клавиши компьютерной клавиатуры для различных манипуляций с изображением в соответствии с пользовательскими предпочтениями.

Наконец, Oozic Producer — это средство создания .mv3-файлов с возможностью импорта трехмерных объектов и текстур из пакета 3ds MAX.

К сожалению, с недавних пор руководство компании приняло решение изъять программы серии Oozic как из свободного распространения, так и из продажи. Отныне они будут доступны лишь для покупателей Creative WebCamera и других устройств, производимых CreativeLabs. Это, скорее всего, приведет к тому, что перспективная технология вскоре будет перехвачена конкурентами, проводящими более агрессивный маркетинг.

В заключение раздела необходимо упомянуть о движущей силе, представленной теми компьютерными художниками, программистами и музыкантами, которые считают, что любая технология, получившая широкое распространение, ограничивает творческую свободу и потому является для них неприемлемой. Они заняты созданием эксклюзивных светомузыкальных инструментов, интерактивных мультимедийных инсталляций и иных подобных средств самовыражения. Представителем этого сообщества нонконформистов может служить Фред Коллопи (Fred Collopy).

Должно ли время быть реальным?

Disney’s Fantasia — звездный час Микки Мауса
Кадр из фильма "Fantasia 2000": эти треугольные бабочки кружатся в ритме Пятой симфонии Бетховена

В конце 1999 года на гигантские экраны кинотеатров IMAX вышел фильм "Fantasia 2000", продолживший исторический диснеевский проект и обогативший его достижениями современной анимационной технологии. Естественно, при создании этого фильма активно использовалась компьютерная графика, однако ни один кадр не был синтезирован в реальном времени.

Увы, недостаточная производительность компьютеров не позволяет программам реального времени (т. е. всем программам, рассмотренным нами выше) обеспечить качество изображения, приемлемое для кино- и видеоиндустрии. Попытаемся оценить срок, необходимый для исправления этой ситуации. Один-единственный кадр телевизионной заставки, создающийся с использованием таких стандартных концепций, как антиалиасинг, трассировка лучей, сглаживание во времени и т. д., просчитывается на компьютерах современных видеостудий около 15 минут, т. е. в 22,5 тыс. раз медленнее, чем в реальном времени. Следовательно, требуемый прирост вычислительной мощности произойдет через log1,5(22500) " 25 лет (где 1,5 — коэффициент Мура).

Заметим, однако, что эта оценка не принимает во внимание несколько новых поколений ресурсоемких алгоритмов (например, связанных с прямой трассировкой лучей или воксельной графикой), которые обязательно появятся в течение этого срока. Кроме того, мы не учли повышения требований к качеству вещания, которое будет связано с внедрением телевидения высокой четкости, а также иных, еще неведомых нам стандартов. В результате можно уверенно предсказать, что и в 2025 году аниматоры будут оставлять свои компьютеры включенными на ночь, как это делали их деды в эпоху лукасовских "Звездных войн". Оффлайновая аудиовизуализация, несомненно, останется средством, позволяющим задействовать для реализации художественного замысла всю мощь доступных алгоритмов без оглядки на ограничения, налагаемые производительностью компьютеров.

Do it yourself!

Самый доступный путь создания собственного эффекта аудиовизуализации — использование модуля WVS v2.0. Даже для программиста-виртуоза, привыкшего мыслить на C++, WVS является наиболее оправданным выбором в качестве инструмента начального уровня, поскольку простота его концепции не препятствует созданию удивительно разнообразных и очень неожиданных эффектов.

Автор WVS Джастин Фрэнкел (Justin Frankel) — основатель и ведущий программист NullSoft — кропотливо проанализировал общие характеристики, присущие алгоритмам аудиовизуализации, и разложил их на "элементарные кирпичики". Кроме того, он предоставил пользователю инструментарий для возведения из них "строений" произвольной степени сложности (если только не учитывать ограничений, накладываемых производительностью компьютера).

Базовые объекты в WVS представлены тремя классами: Render, Transition и Buffer, а взаимодействие между ними осуществляется путем связывания в древовидную структуру. Окно для непрерывной визуализации звучащей музыки с учетом текущих результатов пользовательских действий делает работу с WVS больше похожей на компьютерную игру, чем на процесс программирования.

Если вас привлекает имидж ви-джея — пользуйтесь продуктами серии Oozic; если же ваш компьютер для них слабоват — возможно, вам подойдет минималистский Vusic CD Player. Наконец, если ваш интерес к компьютерной графике связан преимущественно с видео- или кинопроизводством, то вам обязательно следует испытать себя в оффлайновой аудиовизуализации с помощью 3ds MAX, Adobe After Effects или иных популярных программ подобного рода, позволяющих использовать звук для управления анимацией. По адресу www.molodchyk.fromru.com размещены два небольших ролика, сделанных с помощью такой технологии, а также соответствующие пошаговые инструкции с описанием некоторых профессиональных хитростей.

Чего ожидать в будущем

В мире ПК самой перспективной в ближайшем будущем, как мне кажется, является программа WVS. Сейчас ей, пожалуй, не хватает поддержки 3D-акселерации, возможности импорта объектов из программ трехмерного моделирования и экспорта видео в формате .avi, а также средств написания (интерактивных) сценариев. Вероятно, какие-либо из этих функций будут добавлены в новых версиях.

Впрочем, в скором будущем аудиовизуализация перестанет ассоциироваться исключительно с персональными компьютерами: уже сегодня многие бытовые электронные устройства имеют достаточные вычислительные ресурсы для ее поддержки, например — игровые приставки и DVD-проигрыватели. Использование же технологий аудиовизуального синтеза в компьютерных играх (для более полного погружения в игровое пространство) и различных разновидностях машин для быстрого обучения (так называемых brainmachines) сулит выгоды, которые сложно представить человеку, обладающему самой буйной фантазией.

Синестезия, т. е. способность видеть звуки и слышать цвета, считается уделом людей с сильным воображением. Известно, что ею обладали, например, Скрябин, Набоков и Феллини. Некоторые психологи полагают, что она свойственна также всем маленьким детям. Возможно, дальнейшее развитие технологий, описанных в этой статье, позволит вернуть нам утраченную синестезию и сделать ее всеобщим достоянием.

E-mail автора: molodchik@inbox.ru