Прорыв в матричном умножении должен привести к более быстрым и эффективным моделям искусственного интеллекта

Опубликовал Юрій Орос

11.03.2024 15:17

Исследователи направления Computer Science открыли новый способ умножать большие матрицы быстрее, устранив ранее неизвестную неэффективность, что привело к наибольшему улучшению эффективности умножения матриц за последние десять лет. Это может в конце концов ускорить работу моделей искусственного интеллекта, которые в значительной степени полагаются на умножение матриц.

Умножение двух прямоугольных числовых массивов, известное как матричное умножение, играет решающую роль в современных моделях ИИ, включая распознавание речи и изображений, его используют чат-боты от всех основных разработчиков, генераторы изображений с искусственным интеллектом и модели синтеза видео. Помимо ИИ, матричная математика важна для современных вычислений (вспомним обработку изображений и сжатие данных), что даже незначительное повышение эффективности может привести к экономии вычислений и электроэнергии, сообщает ArsTechnica.

Графические процессоры (GPU) выполняют задачи умножения матриц благодаря способности обрабатывать много вычислений одновременно. Они разбивают большие матричные задачи на более мелкие сегменты и решают их одновременно с помощью алгоритма.

Совершенствование этого алгоритма стало ключом к прорыву в эффективности умножения матриц в течение последнего века — еще до того, как появились компьютеры. В октябре 2022 года была изобретена новая методика модель ИИ Google DeepMind под названием AlphaTensor, сосредоточившись на практических алгоритмических усовершенствованиях для конкретных размеров матриц, таких как матрицы 4х4.

В противоположность этому, новое исследование группы ученых из Университета Цинхуа, Калифорнийского университета в Беркли и Массачусетского технологического института, направленное на теоретические усовершенствования с целью снижения показателя сложности ω для повышения эффективности для всех размеров матриц. Вместо того чтобы искать немедленные практические решения, такие как AlphaTensor, новая методика направлена на фундаментальные улучшения, которые могут изменить эффективность умножения матриц в более общем масштабе.

Традиционный метод умножения двух матриц n на n требует n³ отдельных умножений. Однако новая методика, которая совершенствует «лазерный метод», представленный Фолькером Штрассеном в 1986 году, уменьшила верхний предел экспоненты (обозначается как вышеупомянутый ω), приблизив его к идеальному значению 2, которое представляет теоретически минимальное количество необходимых операций.

Традиционный способ умножения двух сеток, заполненных числами, может потребовать выполнения вычислений до 27 раз для сетки 3х3. Но с этими усовершенствованиями процесс ускоряется за счет значительного сокращения необходимых шагов умножения. Это позволяет свести к минимуму количество операций до чуть более чем вдвое большего размера одной из сторон сетки в квадрате, скорректированного на коэффициент 2.371552. Это очень важно, потому что это почти достигает оптимальной эффективности удвоения размеров квадрата, что является самой быстрой скоростью, на которую мы когда-либо могли надеяться.

Прорыв 2023 года стал возможен благодаря обнаружению «скрытых потерь» в лазерном методе, когда полезные блоки данных были непреднамеренно отброшены. В контексте умножения матриц, «блоки» означают меньшие сегменты, на которые большая матрица делится для облегчения обработки, а «маркировка блоков» — это техника категоризации этих сегментов, чтобы определить, какие из них сохранить, а какие отбросить, оптимизируя процесс умножения для скорости и эффективности. Модифицировав способ маркировки блоков, исследователи смогли уменьшить количество отходов и значительно повысить эффективность.

Какое же это имеет практическое применение? Для моделей ИИ уменьшение количества вычислительных шагов в матричной математике может привести к сокращению времени обучения и более эффективному выполнению задач. Это позволит быстрее обучать более сложные модели, что потенциально приведет к совершенствованию возможностей ИИ и разработке более сложных приложений с искусственным интеллектом. Кроме того, повышение эффективности может сделать ИИ-технологии более доступными благодаря снижению вычислительной мощности и потребления энергии, необходимых для выполнения этих задач.

Точное влияние на скорость работы моделей ИИ зависит от конкретной архитектуры системы и от того, насколько сильно ее задачи полагаются на умножение матриц. Повышение алгоритмической эффективности часто нужно сочетать с оптимизацией аппаратного обеспечения, чтобы полностью реализовать потенциальный прирост скорости. Но все же, со временем, когда совершенствование алгоритмических методов накапливается, ИИ будет становиться быстрее.

Опубликовал Юрій Орос

Теги Искусственный интеллектИсследованияМатричные вычисленияНаука

11.03.2024 15:17

Прорыв в матричном умножении должен привести к более быстрым и эффективным моделям искусственного интеллекта

Читайте также