Додатки Smart TV непомітно збирають веб-дані користувачів для навчання ШІ

Опублікував Андрій Шадрін

Фірми, що спеціалізуються на розскрапуванні або зборі публічно доступного контенту для навчання моделей штучного інтелекту, стають дедалі поширенішими. Зокрема, деякі компанії націлені на додатки для Smart TV та подібні платформи.

Компанії шалено потребують даних для навчання ШІ, намагаючись використати підключення користувачів до інтернету в обмін на низьковартісні стимули, такі як зменшена реклама або безкоштовний доступ до стрімінгу. Bright Data управляє глобальною проксі-мережею, призначеною для збору публічно доступного веб-контенту, і клієнти добровільно приєднуються до мережі, щоб трохи заощадити на перегляді телевізора. Згідно з нещодавнім звітом, код, пов’язаний з Bright Data, з’явився в певних додатках для Smart TV. Коли запитували про цю практику, деякі розробники відмовилися коментувати або видалили проксі-інтеграцію.

BrightData описує свою платформу як спосіб перетворити веб-скрапінг у структуровану систему “доставки даних”. Рекламні матеріали стверджують, що технологія Bright SDK дозволяє “100 %” монетизацію користувачів, обіцяючи глобальне охоплення при збереженні первісного досвіду користувача. Bright SDK можна вбудувати в додатки для Smart TV, і користувачів зазвичай просять погодитися перед приєднанням до проксі-мережі. Після активації з’єднання його можуть використовувати для маршрутизації веб-трафіку через інтернет-з’єднання домашнього користувача. Потім завантажені дані відправляються на сервери Bright Data для продажу компаніям з ШІ для навчання моделей і робіт із великими мовними моделями.

На одному вебінарі, проведеному для учасників галузі кілька років тому, головний операційний директор Bright Data Аріель Шульман заявив, що SDK безпосередньо не відстежує користувачів: код начебто працює анонімно у фоновому режимі, а активність веб-краулінгу може бути складною для моніторингу, оскільки використовує розподілені IP-з’єднання домашніх користувачів. Bright Data стверджує, що її проксі-мережа включає приблизно 150 мільйонів клієнтів-краулерів, що охоплює не лише додатки Smart TV, а і програмне забезпечення на ПК та мобільних пристроях.

Представник Bright Data Дженніфер Бернс заявила, що участь у мережі є “добровільною”, додавши, що користувачі можуть відмовитися від участі в будь-який час через простий двоетапний процес. Тобто, Bright SDK нібито розроблений таким чином, щоб ініціювати веб-краулінг лише тоді, коли локальні обчислювальні та мережеві ресурси не зазнають значного впливу. Однак у користувачів загалом обмежена видимість того, скільки фонового трафіку передається, поки SDK активний під час перегляду телевізора або веб-перегляду.

Звіт порівнює бізнес-модель Bright Data з IPIDEA, величезною проксі-мережею, що базувалася в Китаї та була розгромлена Google цього місяця. Хоча критики стверджують, що розподілені проксі-мережі можуть бути зловживані зловмисними цілями, Bright Data запевняє, що її платформа призначена для законного доступу до даних та наукових досліджень. Однак постачальники платформ, здається, посилюють обмеження на фонову діяльність SDK. Google почала забороняти додаткам запускати стійкі фоновые SDK-процеси, а Amazon вжив кроків для блокування додатків, які покладаються на сторонні проксі-механізми, такі як інтеграції Bright SDK. Компанія продовжує підтримувати партнерства з екосистемами смарт-телевізорів, що працюють на Tizen OS та webOS, де за повідомленнями сотні додатків можуть включати функціональність збору веб-даних через проксі.

Джерело: TechSpot

Контент сайту призначений для осіб віком від 21 року. Переглядаючи матеріали, ви підтверджуєте свою відповідність віковим обмеженням.

Cуб'єкт у сфері онлайн-медіа; ідентифікатор медіа - R40-06029.