Новини Технології 17.08.2023 о 18:08

Всі галюцинують, але GPT-4 кращий в математиці — порівняльне тестування моделей Meta, OpenAI, Cohere та Anthropic

https://itc.ua/wp-content/uploads/2023/07/2023-07-19-12.08.01-2-96x96.jpg *** https://itc.ua/wp-content/uploads/2023/07/2023-07-19-12.08.01-2-96x96.jpg *** https://itc.ua/wp-content/uploads/2023/07/2023-07-19-12.08.01-2-96x96.jpg

Юрій Орос

Автор новин

Дослідницька компанія Arthur AI протестувала моделі штучного інтелекту від Meta, OpenAI, Cohere та Anthropic, проаналізувавши, які з них частіше вигадують факти або галюцинують.

Коротко підсумувавши результати, можна зробити висновок, що GPT-4 від OpenAI (з підтримкою Microsoft) стане найкращим помічником у математичних питаннях. Claude 2 від Anthropic найкраще розуміє свої ліміти та місця, де він може зробити помилки. Command AI Cohere найчастіше галюцинує, а Llama 2 від Meta посередній в усіх поки виконаних тестах.

Hallucination Experiment

Великі мовні моделі (LLM) захопили світ штурмом, але вони не є бездоганним джерелом істини. В Arthur & Partners прагнули дослідити кількісно та якісно, як деякі з LLM відповідають на складні питання. Зібрали набори складних запитань (а також очікувані відповіді) з трьох категорій: комбінаторна математика, президенти США та політичні лідери Марокко. Питання були розроблені таким чином, щоб містити ключовий компонент, який змушує LLM помилятися: вони вимагають досягати відповіді шляхом декількох етапів міркувань.

Тестували моделі gpt-3.5 (~175 млрд параметрів) і gpt-4 (~1,76 трильйона параметрів) від OpenAI, claude-2 від Anthropic (# невідомо), llama-2 (70 млрд параметрів) від Meta і модель Command від Cohere (~50 млрд параметрів).

Всі галюцинують, але GPT-4 кращий в математиці — порівняльне тестування моделей Meta, OpenAI, Cohere та Anthropic

На комбінаториці gpt-4 показав найкращі результати, за ним слідував claude-2. На президентах США claude-2 дає більше правильних відповідей, ніж gpt-4, непогано показала себе велика мовна модель llama-2.

По марокканських політичних лідерах gpt-4 показав найкращі результати, а claude-2 та llama-2 утрималися від відповіді майже на всі запитання.

Під час кількох спроб може бути різноманітність у типах відповідей LLM: на одне й те саме запитання модель могла іноді відповідати правильно, іноді — трохи неправильно, іноді — геть неправильно, а деколи уникати відповіді.

Дописи
Простий робочий ноутбук Acer Aspire A715-41G
Всі галюцинують, але GPT-4 кращий в математиці — порівняльне тестування моделей Meta, OpenAI, Cohere та Anthropic
https://secure.gravatar.com/avatar/1072b7484f42d8b1ec11dfb6d74afa5f?s=96&r=g&d=https://itc.ua/wp-content/uploads/2023/06/no-avatar.png *** https://secure.gravatar.com/avatar/1072b7484f42d8b1ec11dfb6d74afa5f?s=96&r=g&d=https://itc.ua/wp-content/uploads/2023/06/no-avatar.png *** https://itc.ua/wp-content/themes/ITC_6.0/images/no-avatar.png

Yevhen Shatalov

автор

Hedging Answers Experiment

Одночасно розробники стурбовані тим, що моделі генерують некоректний, токсичний або образливий контент. Щоб зменшити цей ризик, розробники навчили моделі додавати попереджувальні повідомлення до згенерованих відповідей. Наприклад, LLM часто відповідають: «Як ШІ-модель я не можу висловлювати свою думку», «На жаль, я не можу відповісти на це запитання» тощо.

Хоча такі «хеджувальні» відповіді іноді є доречними (і є гарною поведінкою за замовчуванням), вони також можуть розчаровувати користувачів, які очікують пряму відповідь від ШІ.

Цей експеримент перевірив, як часто найпоширеніші моделі реагують «хеджувальними» відповідями.

Всі галюцинують, але GPT-4 кращий в математиці — порівняльне тестування моделей Meta, OpenAI, Cohere та Anthropic

Виявилося, що частка відповідей «хеджування» зросла для моделей OpenAI (GPT-3.5 проти GPT-4). Це кількісно відображає свідчення користувачів про те, що GPT-4 стала більш неприємною у використанні, ніж GPT-3.5.

Cohere не включає мову хеджування в жодну зі своїх відповідей, яка може бути доречною або недоречною залежно від поставленого запитання.

В Associated Press встановили правила використання ШІ для журналістів – ChatGPT радять «уникати‎»

Завантаження коментарів...

Нові тексти

Дописи
Простий робочий ноутбук Acer Aspire A715-41G
https://secure.gravatar.com/avatar/1072b7484f42d8b1ec11dfb6d74afa5f?s=96&r=g&d=https://itc.ua/wp-content/uploads/2023/06/no-avatar.png *** https://secure.gravatar.com/avatar/1072b7484f42d8b1ec11dfb6d74afa5f?s=96&r=g&d=https://itc.ua/wp-content/uploads/2023/06/no-avatar.png *** https://itc.ua/wp-content/themes/ITC_6.0/images/no-avatar.png

Yevhen Shatalov

автор

Дописи
Король помер? Хай живе король! Огляд ігрового ноутбука Lenovo Legion Pro 5 16IRX8
https://itc.ua/wp-content/uploads/2023/09/IMG-ada6f4f87a1eaa33afc6aebfa508a6e9-V-1-150x150.jpg *** https://itc.ua/wp-content/uploads/2023/09/IMG-ada6f4f87a1eaa33afc6aebfa508a6e9-V-1-150x150.jpg *** https://itc.ua/wp-content/uploads/2023/09/IMG-ada6f4f87a1eaa33afc6aebfa508a6e9-V-1-150x150.jpg
Дописи
Чому ПК – голова, а ноут – таке собі пристрій
https://itc.ua/wp-content/uploads/2023/08/Bezymyannyj-150x150.png *** https://itc.ua/wp-content/uploads/2023/08/Bezymyannyj-150x150.png *** https://itc.ua/wp-content/uploads/2023/08/Bezymyannyj-150x150.png

ydri

автор

Загрузити ще

Повідомити про помилку

Текст, який буде надіслано нашим редакторам: