Lossless набирає обертів: ШІ навчився стискати дані без втрат у два рази щільніше

Опублікував Олександр Федоткін

Дослідники з Китаю та Канади представили нову концепцію стиснення даних на основі ШІ під назвою LMCompress.

Користувачі зберігають на власних електронних носіях великі обсяги даних і часто обмінюються ними. Це викликає потребу покращувати застосунки, що дозволяють без втрат стискати великі обсяги інформацїі для пришвидшення їхньої передачі.

Як пояснює провідний автор дослідження Мінг Лі, концепція полягає у тому, що стиснення даних базується на їхньому розумінні. Якщо людина, наприклад, у чомусь добре розбирається, вона може стисло викласти це.

У рамках дослідження Мінг Лі та його колеги намагались продемонструвати, що чим краще великі мовні моделі на базі ШІ засвоюють дані, тим краще вони можуть їх об’єднувати та стискати. Першим подібну ідею запропонував математик Клод Шеннон у 1948 році. 

Шеннон припустив, що за умови належного розуміння даних, які необхідно передати, їх можна стиснути і тим самим скоротити час комунікації. Ця ідея довгий час обговорювалась, аж до поки не з’явились великі мовні моделі на базі ШІ.

Мінг Лі підкреслює, що якщо велика мовна модель здатна належним чином розуміти дані, вона може передбачити, що має йти слідом. Це дозволяє значно краще стискати дані без жодних втрат інформації, або якості цієї інформації. Ключовою ідеєю виступає можливість ШІ згенерувати ті дані, які користувач планує передати, що позбавить його необхідності взагалі щось передавати. За результатами випробування такого підходу науковці переконались, що за допомогою ШІ вдалось щонайменше подвоїти показники стиснення для різних типів даних, включно з текстами, відео та аудіофайлами. 

«LMCompress — це алгоритм стиснення, який використовує великі моделі (велика мовна модель для текстів, велика модель для зображень, відео, тощо). Він стискає тексти більш ніж удвічі краще класичних алгоритмів, зображення та аудіо удвічі краще, а відео трохи менш ніж удвічі краще. Тому під час передачі даних ви можете працювати приблизно вдвічі швидше», — наголошує Мінг Лі. 

Алгоритм LMCompress незабаром може бути покращений і представлений для реального застосування. Як підкреслює Мінг Лі, їхнє дослідження прокладає шлях до нової ери стиснення даних з використанням великих мовних моделей на базі ШІ. На його думку, у подальшому цей метод буде використовуватись у всіх без виключення гаджетах і замінить класичні застосунки. 

Результати дослідження опубліковані у журналі Nature Machine Intelligence

Джерело: TechXplore