Новини Софт 31.03.2024 о 18:38 comment views icon

Google DeepMind та Стенфорд розробили систему перевірки даних ШІ — виправляє 76% неправдивих відповідей

author avatar

Андрій Русанов

Автор сайту

Google DeepMind та Стенфорд розробили систему перевірки даних ШІ — виправляє 76% неправдивих відповідей
Розділ Технології виходить за підтримки

Одним з найбільших недоліків чатботів на основі штучного інтелекту є так звані «галюцинації», коли ШІ вигадує недійсну інформацію, тобто фактично бреше. Деякі експерти кажуть, що це одна з цікавих особливостей ШІ, і це може бути корисним для генеративних моделей, які створюють зображення та відео. Але не для мовних моделей, які дають відповіді на запитання користувачів, котрі розраховують на точні дані.

Лабораторія Google DeepMind та Стенфордський університет, схоже знайшли обхідний шлях для розв’язання проблеми. Дослідники розробили систему перевірки для великих мовних моделей штучного інтелекту: Search-Augmented Factuality Evaluator, або SAFE перевіряє довгі відповіді, створені чатботами ШІ. Їхні дослідження доступні як препринт на arXiv разом з усім експериментальним кодом та наборами даних.

Система аналізує, обробляє та оцінює відповіді в чотири кроки, щоб перевірити їхню точність та відповідність. Спочатку SAFE розбиває відповідь на окремі факти, переглядає їх і порівнює з результатами пошуку Google. Система також перевіряє релевантність окремих фактів наданому запиту.

Щоб оцінити продуктивність SAFE, дослідники створили LongFact, набір даних із приблизно 16 000 фактів. Потім вони випробували систему на 13 великих мовних моделях з чотирьох різних сімейств (Claude, Gemini, GPT, PaLM-2). У 72% випадків SAFE давала ті самі результати, що й перевірка людьми. У випадках незгоди з результатами ШІ SAFE мала рацію у 76% випадків.

Дослідники стверджують, що використання SAFE у 20 разів дешевше, ніж перевірка людьми. Таким чином, рішення виявилося економічно життєздатним та придатним до масштабування. Наявні підходи до оцінки відповідності контенту, створеного моделлю, зазвичай покладаються на безпосередню людську оцінку. Попри цінність, цей процес обмежений суб’єктивністю та мінливістю людського судження та проблемами масштабованості застосування людської праці до великих наборів даних.

ШІ-чатбот влади Нью-Йорку дає неправдиві відповіді щодо міських правил та діяльності бізнесу

Джерело: Marktechpost

Розділ Технології виходить за підтримки

Favbet Tech – це ІТ-компанія зі 100% украі‌нською ДНК, що створює досконалі сервіси для iGaming і Betting з використанням передових технологіи‌ та надає доступ до них. Favbet Tech розробляє інноваційне програмне забезпечення через складну багатокомпонентну платформу, яка здатна витримувати величезні навантаження та створювати унікальний досвід для гравців.


Що думаєте про цю статтю?
Голосів:
Файно є
Файно є
Йой, най буде!
Йой, най буде!
Трясця!
Трясця!
Ну такої...
Ну такої...
Бісить, аж тіпає!
Бісить, аж тіпає!
Loading comments...

Повідомити про помилку

Текст, який буде надіслано нашим редакторам: