Модель штучного інтелекту Claude 3 вперше перевершила GPT-4 на Chatbot Arena

Опублікував Вадим Карпусь

28.03.2024 11:25

Велика мовна модель (LLM) Claude 3 Opus від Anthropic вперше перевершила GPT-4 від OpenAI на Chatbot Arena.

«Король мертвий», — написав у X (Twitter) розробник ПЗ Нік Добос у дописі, в якому порівнював GPT-4 Turbo та Claude 3 Opus.

Chatbot Arena – це краудсорсингова відкрита платформа для оцінювання великих мовних моделей. Для складання рейтингу оцінюється велика кількість людських відгуків про роботу моделей за системою рейтингу Ело. Як працює тест — люди вводять запит та обирають кращу відповідь з кількох варіантів від різних моделей. На основі тисяч користувацьких тестів формується і ранжирується топ.

Таблицю лідерів Chatbot Arena було запущено 3 травня 2023 року, а GPT-4 було включено в рейтинг 10 травня. З того часу різні варіації GPT-4 незмінно перебували на вершині рейтингу. Дотепер. Тому поява нового лідера в цій сфері привертає до себе увагу. Ба більше, одна з менших моделей Anthropic, Haiku, також привернула увагу своєю продуктивністю в таблиці лідерів.

«Вперше найкращі доступні моделі — Opus для складних завдань, Haiku для економії та ефективності — доступні від постачальника, який не є OpenAI», — сказав незалежний дослідник ШІ Саймон Віллісон. «Це заспокоює — ми всі отримуємо вигоду від різноманітності провідних постачальників у цій сфері. Але GPT-4 на цей час існує понад рік, і цей рік знадобився, щоб хтось наздогнав її».

Слідом за Claude 3 Opus та двома версіями GPT-4 в рейтингу розмістилася модель Bard (Gemini Pro) від Google. Проте, якщо між першими трьома позиціями різниця в балах Ело незначна (2-3 бали), то Bard відстає від третього місця вже на 45 балів. Всі інші конкуренти набрали менш ніж 1200 балів.

Джерело: arstechnica

Опублікував Вадим Карпусь

Теги Chatbot ArenaClaudeGPT-4Штучний інтелект

28.03.2024 11:25

Контент сайту призначений для осіб віком від 21 року. Переглядаючи матеріали, ви підтверджуєте свою відповідність віковим обмеженням.

Cуб'єкт у сфері онлайн-медіа; ідентифікатор медіа - R40-06029.

Модель штучного інтелекту Claude 3 вперше перевершила GPT-4 на Chatbot Arena

Читайте також