Легендарний архітектор процесорів Джим Келлер розкритикував архітектуру паралельних обчислень Nvidia CUDA

Опубликовал
Юрій Орос

Джим Келлер, легендарний архітектор процесорів, який працював над процесорами x86, Arm, MISC та RISC-V, цими вихідними розкритикував архітектуру CUDA та стек програмного забезпечення Nvidia і порівняв її з x86, назвавши болотом. Він зазначив, що навіть сама Nvidia має кілька спеціалізованих програмних пакетів, які покладаються на фреймворки з відкритим вихідним кодом з міркувань продуктивності.

CUDA — це болото, а не рів. x86 теж було болотом. […] CUDA не красива. Вона була побудована шляхом нагромадження чогось одного за раз.

— написав Келлер.

https://twitter.com/jimkxa/status/1758943525662769498

Дійсно, як і x86, CUDA поступово додає функціональність, зберігаючи при цьому зворотну сумісність у програмному та апаратному забезпеченні. Це робить платформу Nvidia зворотньо сумісною, але це впливає на продуктивність та ускладнює розробку програм. Тим часом багато фреймворків для розробки програмного забезпечення з відкритим кодом можна використовувати ефективніше, ніж CUDA, передає Tom’s Hardware.

В основному ніхто не пише CUDA. Якщо ви пишете CUDA, то це, ймовірно, не швидко. […] Існує вагома причина, чому існують Triton, Tensor RT, Neon і Mojo.

Онлайн-курс Бізнес-аналіз. Basic Level від Hillel IT School.
В ході курсу студенти навчаться техніці збору і аналізу вимог, документуванню та управлінню документацією, управлінню ризиками та змінами, а також навчаться моделювати процеси і прототипуванню.
Приєднатися

Навіть сама Nvidia має інструменти, які не покладаються виключно на CUDA. Наприклад, Triton Inference Server — це інструмент з відкритим вихідним кодом від Nvidia, який спрощує розгортання моделей ШІ в масштабі, підтримуючи такі фреймворки, як TensorFlow, PyTorch і ONNX. Triton також надає такі функції, як версіонування моделей, обслуговування декількох моделей і паралельне виконання моделей для оптимізації використання ресурсів GPU і CPU.

TensorRT від Nvidia — це високопродуктивний оптимізатор глибокого навчання та бібліотека часу виконання, яка прискорює глибоке навчання на графічних процесорах Nvidia. TensorRT бере навчені моделі з різних фреймворків, таких як TensorFlow і PyTorch, і оптимізує їх для розгортання, зменшуючи затримку і збільшуючи пропускну здатність для застосунків реального часу, таких як класифікація зображень, виявлення об’єктів і обробка природної мови.

І хоча такі архітектури, як Arm, CUDA та x86, можна вважати болотом через їх відносно повільний розвиток, обов’язкову зворотну сумісність та громіздкість, ці платформи також не такі фрагментовані, як, наприклад, GPGPU, що не так і погано.

Невідомо, що Джим Келлер думає про ROCm від AMD та OneAPI від Intel, але ясно, що хоча він присвятив багато років свого життя розробці архітектури x86, він не в захваті від її майбутніх перспектив. Його заяви також вказують на те, що, хоча він працював у деяких з найбільших виробників мікросхем у світі, включаючи Apple, Intel, AMD, Broadcom (а тепер і Tenstorrent), ми не побачимо його серед працівників Nvidia найближчим часом.

Disqus Comments Loading...