Фирмы, специализирующиеся на раскрапывании или сборе публично доступного контента для обучения моделей искусственного интеллекта, становятся все более распространенными. В частности, некоторые компании нацелены на приложения для Smart TV и подобные платформы.





Компании безумно нуждаются в данных для обучения ИИ, пытаясь использовать подключение пользователей к интернету в обмен на низкостоимостные стимулы, такие как уменьшенная реклама или бесплатный доступ к стримингу. Bright Data управляет глобальной прокси-сетью, предназначенной для сбора публично доступного веб-контента, и клиенты добровольно присоединяются к сети, чтобы немного сэкономить на просмотре телевизора. Согласно недавнему отчету, код, связанный с Bright Data, появился в определенных приложениях для Smart TV. Когда спрашивали об этой практике, некоторые разработчики отказались комментировать или удалили прокси-интеграцию.

BrightData описывает свою платформу как способ превратить веб-скрапинг в структурированную систему «доставки данных». Рекламные материалы утверждают, что технология Bright SDK позволяет «100 %» монетизацию пользователей, обещая глобальный охват при сохранении первоначального пользовательского опыта. Bright SDK можно встроить в приложения для Smart TV, и пользователей обычно просят согласиться перед присоединением к прокси-сети. После активации соединения его могут использовать для маршрутизации веб-трафика через интернет-соединение домашнего пользователя. Затем загруженные данные отправляются на серверы Bright Data для продажи компаниям по ИИ для обучения моделей и работ с большими языковыми моделями.

На одном вебинаре, проведенном для участников отрасли несколько лет назад, главный операционный директор Bright Data Ариэль Шульман заявил, что SDK напрямую не отслеживает пользователей: код вроде бы работает анонимно в фоновом режиме, а активность веб-краулинга может быть сложной для мониторинга, поскольку использует распределенные IP-соединения домашних пользователей. Bright Data утверждает, что ее прокси-сеть включает примерно 150 миллионов клиентов-краулеров, охватывающий не только приложения Smart TV, а и программное обеспечение на ПК и мобильных устройствах.





Представитель Bright Data Дженнифер Бернс заявила, что участие в сети является «добровольным», добавив, что пользователи могут отказаться от участия в любое время через простой двухэтапный процесс. То есть, Bright SDK якобы разработан таким образом, чтобы инициировать веб-краулинг только тогда, когда локальные вычислительные и сетевые ресурсы не испытывают значительного влияния. Однако у пользователей в целом ограничена видимость того, сколько фонового трафика передается, пока SDK активен во время просмотра телевизора или веб-просмотра.

Отчет сравнивает бизнес-модель Bright Data с IPIDEA, огромной прокси-сетью, которая базировалась в Китае и была разгромлена Google в этом месяце. Хотя критики утверждают, что распределенные прокси-сети могут быть злоупотреблены злонамеренными целями, Bright Data уверяет, что ее платформа предназначена для законного доступа к данным и научным исследованиям. Однако поставщики платформ, кажется, ужесточают ограничения на фоновую деятельность SDK. Google начала запрещать приложениям запускать устойчивые фоновые SDK-процессы, а Amazon предпринял шаги для блокировки приложений, которые полагаются на сторонние прокси-механизмы, такие как интеграции Bright SDK. Компания продолжает поддерживать партнерства с экосистемами смарт-телевизоров, работающих на Tizen OS и webOS, где по сообщениям сотни приложений могут включать функциональность сбора веб-данных через прокси.

Источник: TechSpot