Відеокарти RTX PRO 6000 та RTX 5090 / NVIDIA

Постачальник хмарних обчислень на графічних процесорах CloudRift знайшов нав’язливу помилку відеокарт NVIDIA RTX 5090 та PRO 6000. Також про неї повідомляють інші користувачі.

Якщо коротко, за деяких відтворюваних обставин, пов’язаних з віртуалізацією, відеокарти перестають розпізнаватися в системі до перезавантаження комп’ютера. Неважко уявити, наскільки це неприємно для постачальника серверних послуг. CloudRift пропонує $1000 за розв’язання проблеми — не надто багато.

Проблема виникає, коли відеокарта під’єднується до віртуальної машини за допомогою KVM та VFIO. Під час вимкнення гостьової системи або перепризначення GPU хост намагається виконати скидання на рівні PCIe. Замість повернення до робочого стану, відеокарта не відповідає, що викликає помилку ядра як “не готовий 65535 мс після FLR; відмова”. У цей момент пристрій більше не може бути виявлений, і єдиним способом відновлення є повне перезавантаження.

CloudRift поділилася журналами, які демонструють проблему на кількох відеокартах RTX 5090 та RTX PRO 6000. За словами компанії, альтернативні методи відновлення, як повторне сканування PCI та переприв’язка драйверів не працюють. Водночас старіші GPU, як RTX 4090 або NVIDIA H100 та B200 не відтворюють цю помилку. CloudRift пропонує винагороду в розмірі $1000 за виправлення помилки скидання налаштувань.

Раніше користувачі форумів Proxmox та Level1Techs повідомляли про подібні випадки. В одному з них зависання сталося після завершення роботи гостьової системи Windows, при цьому графічний процесор не зміг ініціалізуватися навіть після перезавантаження ОС. Інший користувач описав програмне блокування процесора хосту після тайм-аутів FLR під час завершення роботи віртуальної машини Linux. Спроби перемикання налаштувань PCIe ASPM або ACS не розв’язали проблему.

“На всіх машинах з відеокартами RTX 5090 та RTX PRO 6000 карти час від часу повністю перестають реагувати — зазвичай після кількох днів використання віртуальної машини або у випадкові моменти під час запуску/вимкнення. Після цього відеокарту неможливо переініціювати. Графічна машина перебуває в стані невизначеності та не реагує на FLR. Єдиний вихід — повне перезавантаження вузла, що небажано, оскільки це зупинить віртуальні машини, які вже працюють на вузлі. H100, B200 та старіші RTX 4090 є надійними, але ці новіші RTX-карти становлять загрозу”, — пише NoVibeCoding на Reddit.

CloudRift пропонує винагороду за підтверджене усунення або виправлення проблеми. Якщо пряме виправлення не буде знайдене, винагороду отримає будь-хто, хто допоможе виявити першопричину або проведе відтворюване тестування. Компанія також наймає системного інженера та заявляє, що розглядатиме кандидатів, які зроблять внесок у розв’язання проблеми.

Наразі NVIDIA не робила жодних заяв щодо збою, який, здається, виявлений лише на лише відеокартах на базі Blackwell. Один із постраждалих користувачів каже, що NVIDIA знає про проблему та змогла її відтворити.

Джерела: CloudRift, VideoCardz, Tom’s Hardware