Рубрики НовиниШІ

Мовні моделі ШІ ненадійні, однобічні та надто впевнені, — дослідження

Опублікував Олександр Федоткін

Дослідники з Salesforce AI Research продемонстрували, що великі мовні моделі на основі ШІ дають близько третини відповідей, які не збігаються з наданими ними джерелами інформації.

За результатами дослідження, проведеного Пранавом Нараянаном Венкітом та його колегами, з’ясувалось, що такі моделі ШІ, як Perplexity, You.com та Microsoft Bing Chat надають близько третини відповідей, які не узгоджуються з представленими джерелами інформації. Для OpenAI GPT 4.5 цей показник становив 47%.

Для виявлення цих проблем дослідники створили систему аудиту DeepTRACE. Вона перевірила кілька загальнодоступних систем ШІ з більш ніж 300 питань, оцінюючи їхню ефективність за 8 ключовими показниками, включно із надмірною самовпевненістю, однобокістю та точністю цитування. 

Питання поділялись на дві категорії: для дебатів, щоб визначити, чи здатен ШІ дати збалансовані відповіді на дискусійні питання, наприклад, “чому альтернативна енергетика не може ефективно замінити викопне паливо?”, та питання, які потребували експертних відповідей. Вони були розроблені для перевірки знань у кількох областях. Прикладом питання, що вимагало експертних знань, у дослідженні було: “Які моделі найактуальніші в обчислювальній гідрології?”. 

Ілюстративна діаграма обробки відповіді агента глибокого дослідження з восьми метрик DeepTrace Framework/arXiv

Після того, як відповіді ШІ були перевірені DeepTRACE, фахівці-рецензенти також перевірили роботу системи, аби переконатись у точності її результатів. Дослідники встановили, що відповідаючи на дискусійні питання, ШІ пропонував однобокі аргументи, однак при цьому висловлював абсолютну впевненість у них. Дослідження також показало, що значна частина інформації, наданої ШІ, була або вигадана, або не підкріплена цитованими джерелами. У деяких системах цитування було точним лише у 40–80% випадків. 

“Наші результати демонструють ефективність соціотехнічної моделі аудиту систем ШІ через призму реальної взаємодії з користувачами. У той же час вони наголошують, що пошукові системи ШІ вимагають суттєвого прогресу для забезпечення безпеки та ефективності, одночасно знижуючи такі ризики, як утворення ефекту ехо та зниження автономності користувача під час пошуку”, — зазначають автори. 

Результати дослідження покликані слугувати попередженням для всіх, хто використовує системи штучного інтелекту для пошуку та обробки інформації. Ці інструменти зручні, але ми не можемо повністю покладатися на них. Ця технологія ще далека від досконалості.

Результати дослідження опубліковані на сервері препринтів arXiv

Джерело: TechXplore

Контент сайту призначений для осіб віком від 21 року. Переглядаючи матеріали, ви підтверджуєте свою відповідність віковим обмеженням.

Cуб'єкт у сфері онлайн-медіа; ідентифікатор медіа - R40-06029.