FutureHouse
Стартап FutureHouse из Сан-Франциско представил LLM ether0, направленную на научные исследования.
Разработчики во главе с Сэмом Родригесом называют ether0 первой настоящей «моделью рассуждений», разработанной специально для решения научных задач. Это большая языковая модель, предназначена для решения задач в сфере химии. Обучение модели происходило путем прохождения теста из около 500 тыс. вопросов.
Выполняя инструкции на обычном английском, ether0 способна выводить химические формулы, в частности, те, которые удовлетворяют созданию фармацевтических препаратов. LLM имеет открытый исходный код и находится в общем доступе.
В отличие от предыдущих специализированных моделей, ether0 может отслеживать ход собственных рассуждений на простом английском и может давать ответы на сложные вопросы, которые обычно требуют глубоких рассуждений.
По словам химика из Йенского университета в Германии Кевина Яблонки, который уже попробовал поработать с ether0, эта модель способна делать значительные выводы относительно химических свойств, по которым не проходила специального обучения.
FutureHouse была запущена в 2023 году как некоммерческая организация, которую поддерживает бывший гендиректор Google Эрик Шмидт, с миссией ускорения научного процесса с помощью ИИ. В прошлом году компания выпустила продвинутого рецензента научной литературы и платформу агентов ИИ.
Эти агенты берут информацию из научной литературы и используют инструменты из сферы молекулярной химии с целью анализа данных и ответов на вопросы по созданию лекарств. Однако, как и большинство LLM, агенты принципиально ограничены объемом информации по химии, которая доступна в Интернете.
Для дальнейшего совершенствования ученые обратились к таким моделям рассуждений как китайская DeepSeek-R1. Эти модели способны «рефлексировать» и демонстрировать ход собственных рассуждений, который ведет их к тому или иному ответу. Исследователи FutureHouse взяли относительно небольшую LLM от французского стартапа Mistral AI, которая примерно в 25 раз меньше DeepSeek-R1 — достаточно компактную, чтобы работать на ноутбуке.
Вместо того, чтобы обучать модель по учебникам по химии и научным статьям, исследователи решили, что она может учиться путем прохождения тестов. Для этого были собраны лабораторные результаты из 45 научных статей по химии, в частности, по таким вопросам как молекулярная растворимость и запах. На основе этого было сформировано 5 тыс. 790 вопросов.
Базовую модель ether0 научили рассуждать вслух, ее попросили прочитать неправильные решения и цепочки рассуждений, сгенерированные DeepSeek-R1. Каждая из семи версий модели пыталась решить определенное подмножество вопросов по химии, получая подкрепляющие награды за правильные ответы. Затем исследователи объединили цепочки рассуждений из этих специализированных моделей в одну универсальную модель.
Производительность ether0 оценили с помощью ряда дополнительных вопросов, некоторые из них не были связаны с темами, которые были представлены в учебном курсе. Почти по всем направлениям ether0 превзошла такие модели как OpenAI GPT-4.1 и DeepSeek-R1.
При решении определенных типов задач ether0 почти вдвое превзошла точность по сравнению с конкурентами. Но поскольку ether0 может генерировать решения только в виде химических формул и реакций, сложно сравнивать ее производительность с другими моделями и людьми в независимых тестах.
По словам Сэма Родригеса, ключевая особенность, которую предоставляют эти модели рассуждений, заключается в том, что вы можете видеть, о чем они думают на протяжении всего процесса. Его команда обнаружила, что если позволить моделям рассуждать дольше, ответы становятся более точными, но менее разборчивыми, поскольку модели начинают смешивать несколько языков и придумывать новые слова. В результате разработчики решили ограничить время на рассуждения, отдав приоритет интерпретации в противовес точности.
В FutureHouse хотят максимально автоматизировать научный процесс в сфере химии, возложив на ИИ как генерацию идей, так и написание научных материалов. Однако большое количество других ученых выступает против этого, предупреждая, что это может существенно сузить круг научных исследований.
Источник: Nature