Нейросеть обучили распознавать птиц по пению даже при наличии фонового шума

Опубликовал
Тетяна Нечет

В последние годы автономные записывающие устройства (Autonomous recording unit или ARU) упростили запись тысяч часов звуков в лесах. Эти данные используют для лучшего понимания работы экосистем, отслеживания поведения животных и птиц, их количества, определения критических мест обитания и т.д. Например, если в лесу много дятлов, то в нем полно сухостоя.

Однако изучение аудиоданных вручную занимает огромное количество времени, а специалисты по пению птиц встречаются не часто. Помочь в этом может искусственный интеллект. Занимающееся ИИ подразделение Google представило нейросеть, способную быстро и с высокой точностью классифицировать пернатых по пению.

Аудиоклассификация видов птиц на основе машинного обучения (ML) оказалась сложной: птицы часто поют вместе, нет четких записей голосов отдельных птиц, на которых можно было бы обучить нейросеть, ИИ часто не слышат голоса распространенных видов, так как обучены искать более редкие и т.д.

Поэтому исследователи разработали новый неконтролируемый метод, называемый смешанным инвариантным обучением разделения звуков на аудиозаписях (MixIT). Исходный код есть на GitHub.

Онлайн-курс "Маркетингова аналітика" від Laba.
Опануйте інструменти для дослідження ринку й аудиторії та проведення тестувань.Дізнайтесь, як оптимізувати поточні рекламні кампанії та будувати форкасти наступних.
Детальніше про курс

MixIT может разделять одноканальные записи на несколько отдельных дорожек с трелями птиц, а также различает фоновый шум. Для этого нейросети «скормили» записи с ARU пения птиц из Xeno-Canto и Macaulay Library. Затем доработали алгоритм распознавания трелей EfficientNet. Исследователи разделили звук на пятисекундные сегменты, а затем создали мел-спектрограммуСпектрограмма, где частота выражена не в Гц, а в мелах.  каждого сегмента. Классификатор EfficientNet идентифицировал виды птиц по изображениям мел-спектрограммы, обучаясь на аудиозаписях из Xeno-Canto и Macaulay Library.

«Мы подготовили два отдельных классификатора, один для видов в горах Сьерра-Невада и один — для северной части штата Нью-Йорк. Эти классификаторы не обучаются на разделенном аудио. Мы также представили несколько новых методов для улучшения обучения классификаторов. Таксономическое обучение требовало от классификатора сделать метки для каждого уровня таксономии видов (род, семейство и порядок), что позволяет модели изучить группы видов, прежде чем добраться до тонких различий между похожими видами. Мы также обнаружили, что случайная фильтрация нижних частот полезна для имитации далеких звуков во время обучения: по мере удаления источника звука высокочастотные участки затухают раньше, чем низкочастотные. Это было особенно эффективно для идентификации видов из выскогорья Сьерра-Невады, где пение птиц распространяется на очень большие расстояния», — отметили в подразделении Google.

По словам исследователей, разделение аудио с помощью новой модели MixIT улучшило производительность классификатора, что проверили на трех независимых реальных наборах данных. Особенно успешно ИИ идентифицировал тихие и фоновые трели пернатых.

 

Не обошлось без «минусов». Иногда наблюдалось чрезмерное разделение одной песни на несколько каналов, что может привести к неправильной классификации. А когда поют несколько птиц, самая четкая трель нередко получала более низкую оценку после разделения. Это может быть связано с потерей контекста окружающей среды или другими артефактами.

В 2018 году в рамках Bird Audio Detection challenge с помощью глубокого обучения удалось научить искусственный интеллект распознавать птиц по их пению. В рамках некоторых тестов точность достигала 88-89%, что довольно далеко от идеала.

Disqus Comments Loading...