Рубрики НовостиСофт

Модель искусственного интеллекта Claude 3 впервые превзошла GPT-4 на Chatbot Arena

Опубликовал
Вадим Карпусь

Большая языковая модель (LLM) Claude 3 Opus от Anthropic впервые превзошла GPT-4 от OpenAI на Chatbot Arena.

«Король мертв», — написал в X (Twitter) разработчик ПО Ник Добос в посте, в котором сравнивал GPT-4 Turbo и Claude 3 Opus.

Chatbot Arena — это краудсорсинговая открытая платформа для оценки больших языковых моделей. Для составления рейтинга оценивается большое количество человеческих отзывов о работе моделей по системе рейтинга Эло. Как работает тест — люди вводят запрос и выбирают лучший ответ из нескольких вариантов от разных моделей. На основе тысяч пользовательских тестов формируется и ранжируется топ.

Курс English For Tech course від Enlgish4IT.
Лише 7 тижнів по 20-30 хвилин щоденного навчання допоможуть вам подолати комунікативні бар'єри. Отримайте знижку 10% за промокодом ITCENG.
Дійзнайтеся більше

Таблица лидеров Chatbot Arena была запущена 3 мая 2023 года, а GPT-4 была включена в рейтинг 10 мая. С тех пор различные вариации GPT-4 неизменно находились на вершине рейтинга. До сих пор. Поэтому появление нового лидера в этой сфере привлекает к себе внимание. Более того, одна из меньших моделей Anthropic, Haiku, также привлекла внимание своей производительностью в таблице лидеров.

«Впервые лучшие доступные модели — Opus для сложных задач, Haiku для экономии и эффективности — доступны от поставщика, который не является OpenAI», — сказал независимый исследователь ИИ Саймон Уиллисон. «Это успокаивает — мы все получаем выгоду от разнообразия ведущих поставщиков в этой области. Но GPT-4 в настоящее время существует более года, и этот год потребовался, чтобы кто-то догнал его».

Вслед за Claude 3 Opus и двумя версиями GPT-4 в рейтинге разместилась модель Bard (Gemini Pro) от Google. Однако, если между первыми тремя позициями разница в баллах Эло незначительная (2-3 балла), то Bard отстает от третьего места уже на 45 баллов. Все остальные конкуренты набрали менее 1200 баллов.

Источник: arstechnica

Disqus Comments Loading...