Depositphotos

Група американських дослідників з Університету штату Пенсильванія виявила, що слабкі вібрації, які створює динамік телефона, можна використати для віддаленного прослуховування розмов.

У новому дослідженні американські науковці продемонстрували, що розшифровувати телефонні дзвінки можна за допомогою даних з радара, отриманих на відстані близько 3 метрів від телефону. Зазначається, що точність цієї розшифровки залишається обмеженою і складає близько 60% на середній обсяг з 10 тис. слів. Дослідження базується на проєкті 2022 року, у якому дослідники використовували датчик-радар і програмне забезпечення для розпізнавання голосу і віддаленої розшифровки 10 слів, букв і цифр з точністю до 83%.

“Коли ми розмовляємо по мобільному телефону, ми схильні ігнорувати вібрації, що передаються через динамік і змушують вібрувати весь телефон. Якщо ми вловимо ці вібрації за допомогою віддалених радарів та застосуємо машинне навчання, щоб розпізнавати сказане, використовуючи контекстні підказки, ми зможемо розпізнавати цілі розмови”, — пояснює перший автор дослідження Суредай Басак.

Суредай Басак та його науковий керівник Махант Гоуда, співавтор дослідження з кафедри комп’ютерних наук та інженерії, використали датчик-радар міліметрового діапазону — той самий пристрій використовується беспілотним транспортом, датчиками руху та бездротовими мережами 5G, для вивчення потенціалу компактних пристроїв на основі радарів. Дослідники прагнули зменшити розміри цих пристроїв до таких, які дозволяли б інтегрувати їх у такі предмети, як, наприклад, кулькові ручки.

За словами дослідників, розроблена ними установка призначена виключно для проведення експериментів і створена з урахуванням потенційних дій зловмисників. Вони адаптували Whisper, масштабну модель розпізнавання мови з відкритим вихідним кодом, що працює на базі штучного інтелекту, для декодування вібрацій у відомі мовні транскрипції.

“За останні три роки стався величезний прорив у можливостях штучного інтелекту та моделях розпізнавання мовлення з відкритим вихідним кодом. Ми можемо використовувати ці моделі, але вони більше орієнтовані на чисту мову або повсякденні завдання, тому нам доводиться адаптувати їх для розпізнавання низькоякісних, “зашумлених” радіолокаційних даних”, — підкреслив Суредай Басак.

Для того, аби перейти від сповнених шумом даних до розпізнавання мови без перенавчання усієї моделі Whisper, дослідники використали метод адаптації, відомий як низькорангова адаптація. Це дозволило науковцям спеціалізувати модель для даних радара, перенавчивши всього 1% параметрів Whisper.

Для реєстрації вібрацій дослідники використали датчик міліметрового радара, розташований на відстані декількох метрів від телефону, щоб уловлювати ледь помітні вібрації поверхні під час відтворення мови через динамік. Для аналізу даних вони передали цей сигнал з радара у свою модифіковану версію моделі розпізнавання мови Whisper, що забезпечило точність до 60%. Дослідники підкреслюють, що точність розшифровки можна підвищити, задіявши ручну корекцію на основі контексту, наприклад, шляхом коригування певних слів або фраз, якщо відомі попередні відомості про розмову.

Автори дослідження порівняли власний метод з читанням по губах. Хоча читання по губах дозволяє вловити лише близько 30–40% сказаних слів, багато людей, які читають по губах, використовують контекстні підказки для розшифровування достатньої інформації, щоб брати участь у розмові.

“Метою нашої роботи було з’ясувати, чи можуть ці інструменти потенційно використовувати зловмисники для прослуховування телефонних розмов на відстані. Наші результати показують, що це технічно здійснено за певних умов, і ми сподіваємося, що це підвищить обізнаність громадськості, щоб люди могли бути уважнішими під час конфіденційних дзвінків”, — зазначають у підсумку дослідники.

Результати дослідження були представлені під час цьогорічної конференції ACM

Джерело: TechXplore