Сліпа камера робить «фото» на основі навколишніх звуків за допомогою ШІ

Если камеры, «фотографирующей» по данным о местоположении вам недостаточно – то вот «фотоаппарат», генерирующий изображение на основе звуков. Разработчик Диего Трухильо Писанти создал на базе Raspberry Pi слепую камеру, в качестве данных для «фото» использующей окружающие звуки.

Чтобы получить изображение, достаточно навести звукоуловитель аппарата на объект и нажать кнопку. Искусственный интеллект распознает обстановку и выдаст результат. Специально для этого проекта Писанти разработал собственную модель нейронной сети, которую обучил на видеороликах, снятых в Мехико. Чем уникальнее звук – тем лучше выходит «фото».

Для обучения модели использовались все кадры видео и последняя секунда аудио. Таким образом были созданы ассоциативные ряды, привязанные к местности. Отсюда следует ограничение модели: все воссозданные изображения будут напоминать столицу Мексики. Впрочем, дальнейшее обучение способно расширить географию.

Для создания камеры использован модуль Raspberry Pi 3B, но можно взять и Raspberry Pi 4. На компьютере работает софт Tensorflow. Камера также имеет небольшой экран-«видоискатель», позволяющий следить за процессом создания изображений и видеть результат. Корпус и звукоуловитель напечатаны на 3D-принтере.

Модель ИИ, используемая для обучения слепой камеры, создана с использованием Python 3. Она предназначена для работы с Tensorflow 2 и запускается на Raspberry Pi с использованием TFLite. Подробнее о проекте можно узнать на сайте создателя.