Поставщик облачных вычислений на графических процессорах CloudRift обнаружил навязчивую ошибку видеокарт NVIDIA RTX 5090 и PRO 6000. Также о ней сообщают другие пользователи.

Если коротко, при некоторых воспроизводимых обстоятельствах, связанных с виртуализацией, видеокарты перестают распознаваться в системе до перезагрузки компьютера. Нетрудно представить, насколько это неприятно для поставщика серверных услуг. CloudRift предлагает $1000 за решение проблемы — не слишком много.

Проблема возникает, когда видеокарта подключается к виртуальной машине с помощью KVM и VFIO. При отключении гостевой системы или переназначении GPU хост пытается выполнить сброс на уровне PCIe. Вместо того, чтобы вернуться в рабочее состояние, видеокарта не отвечает, что вызывает ошибку ядра вроде «не готов 65535 мс после FLR; отказ». В этот момент устройство больше не может быть обнаружено, и единственным способом восстановления является полная перезагрузка.

CloudRift поделилась журналами, которые демонстрируют проблему на нескольких видеокартах RTX 5090 и RTX PRO 6000. По словам компании, альтернативные методы восстановления, такие как повторное сканирование PCI и перепривязка драйверов, не работают. В то же время более старые GPU, такие как RTX 4090 или NVIDIA H100 и B200, не воспроизводят эту ошибку. CloudRift предлагает вознаграждение в размере $1000 за исправление ошибки сброса настроек.

Ранее пользователи форумов Proxmox и Level1Techs сообщали о подобных случаях. В одном из них зависание произошло после завершения работы гостевой системы Windows, при этом графический процессор не смог инициализироваться даже после перезагрузки ОС. Другой пользователь описал программную блокировку процессора хоста после тайм-аутов FLR во время завершения работы виртуальной машины Linux. Попытки переключения настроек PCIe ASPM или ACS не решили проблему.

«На всех машинах с видеокартами RTX 5090 и RTX PRO 6000 карты время от времени полностью перестают реагировать — обычно после нескольких дней использования виртуальной машины или в случайные моменты при запуске/выключении. После этого видеокарту невозможно переинициировать. Графическая машина находится в состоянии неопределенности и не реагирует на FLR. Единственный выход — полная перезагрузка узла, что нежелательно, поскольку это остановит виртуальные машины, которые уже работают на узле. H100, B200 и более старые RTX 4090 надежны, но эти более новые RTX-карты представляют угрозу», — пишет NoVibeCoding на Reddit.

CloudRift предлагает вознаграждение за подтвержденное устранение или исправление проблемы. Если прямое исправление не будет найдено, вознаграждение получит любой, кто поможет выявить первопричину или проведет воспроизводимое тестирование. Компания также нанимает системного инженера и заявляет, что будет рассматривать кандидатов, которые внесут вклад в решение проблемы.

Пока NVIDIA не делала никаких заявлений относительно сбоя, который, кажется, обнаружен только на только видеокартах на базе Blackwell. Один из пострадавших пользователей говорит, что NVIDIA знает о проблеме и смогла ее воссоздать.

Источники: CloudRift, VideoCardz, Tom’s Hardware