Розвиток штучного інтелекту передбачає створення вузькоспеціалізованих мовних моделей. Вузька сфера навчання обумовлює адекватніші відповіді ШІ. Особливість даркнету в тому, що багато його ресурсів недоступні для звичайних браузерів – тому популярні мовні моделі можуть бути некомпетентними щодо нього. Для дослідження даркнету у Південній Кореї створили модель DarkBERT на архітектурі RoBERTa. Мета – допомога дослідникам безпеки та правоохоронним органам.
Детальний опис моделі дає загальне уявлення про даркнет та методи роботи ШІ в ньому. RoBERTa була розроблена ще у 2019 році. Особливість її в тому, що вона здатна розпізнавати прийняті у Dark Web способи кодування інформації у повідомленнях і витягувати з них корисну інформацію.
Звернувшись до моделі зараз, дослідники виявили її великий потенціал та недостатнє тренування на ранніх етапах розвитку. Вони просканували Dark Web через систему анонімного доступу Tor, а потім відфільтрували необроблені дані (застосовуючи такі методи, як дедуплікація, балансування категорій та попередня обробка даних) для створення бази даних. DarkBERT – поєднання цієї бази та моделі RoBERTa.
Результат виправдав зусилля – знаючи специфічну «мову» даркнету та навчаючись у ній, DarkBERT перевершує інші мовні моделі у дослідженні та «розумінні» Dark Web. Навчання та налаштування моделі триває, вона має потенціал покращити власні результати.
Джерело: Tom’s Hardware