Подрядчики Google наугад оценивают ответы Bard из-за ограничений во времени для тестирования — Insider

Опубликовал
Катерина Даньшина

Сотрудники фирмы Appen помогают усовершенствовать чат-бот Google, а среди их основных задач – проверка текстов Bard на соответствие подсказкам пользователей. Однако работы настолько много, что некоторые ставят оценки наугад.

Чат-бот Bard был запущен компанией Google в марте – в ответ на популярность ChatGPT от OpenAI. Сначала технологию вручную тестировали сотрудники подразделений техногиганта, а ныне эту задачу передали фирме Appen. Эти подрядчики обычно оценивали поисковые алгоритмы Google и релевантность объявлений, размещенных в результатах поиска, а также обозначали вредоносные сайты, чтобы они не появлялись в результатах поиска.

Специалистам по оценке не сообщали название тестируемого инструмента – но внутренняя переписка на эту тему началась примерно 7 февраля, когда Google впервые анонсировала Bard.

Документы, полученные изданием Insider, содержат инструкции для оценки качества ответов теоретического чат-бота с ИИ. По словам четырех тестировщиков, с которыми пообщались журналисты, с января вся работа компании в основном была сосредоточена на просмотрах подсказок и ответов ИИ. Сотрудники компании пожаловались, что им выделяют слишком мало времени на процесс оценивания, поэтому иногда приходится делать это наугад, чтобы получить обещанные деньги.

Онлайн-курс "Computer Vision" від robot_dreams.
Застосовуйте Machine Learning / Deep Learning та вчіть нейронні мережі розпізнавати об’єкти на відео. Отримайте необхідні компетенції Computer Vision Engineer.
Дізнатись більше про курс

Bard критиковали еще во время публикации его промо – в нем чат-бот дал неправильный ответ, чем спровоцировал масштабное падение акций Alphabet. Впоследствии вице-президент Google Search Прабхакар Рагхаван направил электронное письмо сотрудникам, попросив их вручную переписать ответы чат-бота.

Как проходит процесс оценивания

В документе с инструкциями говорится, что тестировщики получат «подсказку от пользователя (например, вопросы, инструкцию, заявление) вместе с двумя потенциально созданными машиной ответами, из которых сотрудник должен выбрать лучший. Тестировщики могут уточнить в текстовом поле, почему сделали такой выбор, что поможет чат-боту узнать, какие атрибуты искать в приемлемых ответах. Ответы должны быть последовательными и точными, а также основываться на актуальной информации.

На выполнение задания выделяют разное время – от 60 секунд до нескольких минут. Но работники говорят, что им трудно быстро оценить ответ, в котором они не разбираются – например, если он касается технических вопросов, таких как блокчейн.

«Три часа исследования для выполнения 60-секундной задачи – это отличный способ сформулировать проблему, с которой мы сейчас сталкиваемся», – сказал один из работников.

Условия работы для подрядчиков Google

Подрядчики, работающие на Google через аутсорсинговые фирмы, все чаще агитируют за лучшие условия труда. В феврале тестировщики посетили Googleplex, чтобы передать петицию Прабхакару Рагхавану с просьбой повысить зарплату.

Тестировщики, работающие через Appen, зарабатывают от $14 до $14,50 в час – несмотря на то, что поддерживают бизнес, который получает большую часть дохода от поиска и рекламы. Профсоюз работников Alphabet поддерживает их и помогает в активных действиях, но официально не представляет и не ведет переговоры по заключению коллективного договора.

В Google работают более 200 000 подрядчиков, которые не входят в официальное количество сотрудников компании.

  • С 21 марта Google открыла ограниченный доступ к Bard — пока только для пользователей из США и Великобритании, которые могут записаться в список ожидания на сайте. Сообщается, что чат-бот имеет похожий на ChatGPT интерфейс, но генерирует сразу по три ответа на запрос. Под каждым — светится кнопка «Google It», которая перенаправляет пользователей в поиск Google с соответствующими результатами.
Disqus Comments Loading...