Нова методика, розроблена Google DeepMind, дозволяє покращити відповіді чатботів, застосовуючи словесний метод заохочення.

У статті, опублікованій цього місяця на arXiv, науковці DeepMind представили власний метод покращення продуктивності великих мовних моделей — таких як ChatGPT OpenAI й PaLM 2 від Google. Новий підхід обходить обмеження традиційних математичних оптимізаторів, використовуючи природну (людську) мову для спрямування мовної моделі до розв’язання проблеми.

«Замість того, щоб формально визначати задачу оптимізації та виводити крок оновлення за допомогою запрограмованого розв’язувача, ми описуємо задачу оптимізації природною мовою, а потім інструктуємо мовну модель ітеративно генерувати нові рішення на основі опису проблеми та попередньої інформації», — пишуть дослідники.

Як правило, у машинному навчанні методи, що використовують алгоритми (такі як оптимізатори на основі похідних), керують покращенням продуктивності моделі ШІ:

Уявіть продуктивність моделі як криву на графіку, де мета — знайти найнижчу точку на цій кривій, тому що саме там модель робить найменше помилок. Використовуючи нахил кривої для коригування, оптимізатор допомагає моделі наближатися до ідеальної нижньої точки.

Утім замість того, щоб покладатися на формальні математичні визначення для виконання цього завдання, метод (який дістав назву OPRO) використовує «метапідказки» природною мовою, щоб підготувати основу для процесу оптимізації. Потім мовна модель генерує варіанти рішень на основі опису проблеми та попередніх рішень, і перевіряє їх, призначаючи кожному оцінку якості.

В OPRO діють свої дві великі мовні моделі: LLM-оцінювач, який оцінює цільову функцію, наприклад точність та LLM-оптимізатор, який генерує нові рішення на основі попередніх результатів і опису природною мовою.

«Дихай глибше і думай крок за кроком»

Ось це, мабуть, частина дослідження DeepMind, яка найбільш інтригує. Виявляється, деякі конкретні фрази впливають на остаточний результат. Наприклад, заклики на кшталт «думай крок за кроком» спонукали кожну модель штучного інтелекту виробляти точніші результати під час тестування з наборами даних математичних завдань.

А в останньому експерименті дослідники DeepMind виявили, що ще більш ефективною підказкою стала фраза «Дихай глибше і думай над цим крок за кроком». При використанні її з Google PaLM 2 точність результату сягнула 80,2% в тестах GSM8K — наборі математичних текстових задач для початкової школи. Для порівняння, PaLM 2 без будь-яких спеціальних підказок набрала лише 34% точності на GSM8K, а з класичною підказкою «Думай крок за кроком» набрала 71,8 % точності.

І чому це працює? Очевидно, що великі мовні моделі не можуть зробити глибокий вдих, тому що не мають легенів або тіл. Вони також не можуть думати подібно до людей. Слово «‎думати» для них запозичено з величезного набору даних мовних фраз, зібраних із книг та Інтернету, включно з форумами, де могли б використовуватись пропозиції «дихати глибше‎» чи «думати крок за кроком» перед представленням ретельно обґрунтованих рішень.

Дослідники DeepMind вважають, що найбільшою перевагою методу OPRO є його здатність просіювати багато можливих підказок, щоб знайти ту, яка дає найкращі результати для конкретної проблеми. Це може дозволити людям отримувати набагато більш корисні та точні результати від чатботів у майбутньому.