YouTube / Northwest Repairs
Це довга історія про відновлення фізично зламаної NVIDIA RTX 5090. Ймовірно, якусь іншу відеокарту слід було б викинути, але ця занадто дорога.
Суттєво пошкоджена RTX 5090 опинилася у відео компанії Northwest Repairs, яка спеціалізується на складних випадках ремонту. Відеокарта була тріснутою та не подавала «ознак життя». Спроба ремонту перейшла у низку пригод з виявленням нових несправностей та їхнім успішним подоланням. Тріщини на друкованій платі можуть переривати сигнальні шляхи, заховані всередині текстоліту та призводити до, здавалося б, випадкових та незрозумілих збоїв.
Перша несподіванка відкрилася вже після зняття системи охолодження. Контактна пластина пам’яті не торкалася випарної камери належним чином, тож тепловідведення практично не було. Модулі живлення решта компонентів здавалися неушкодженими, тому наступним кроком став тест живлення.
Навіть у режимі очікування відеокарта споживала близько 5 А — досить багато, але може бути нормальним для 5090. Струм був збільшений до 8 А, щоб відеокарта запустилася: засвітилися лампочки, вентилятори оберталися, але зображення не було, попри сигналізацію монітора світлодіодом про увімкнення. Це означало, що відеокарта працювала, але не видавала зображення, що змусило припустити проблеми з відеопам’яттю.
Комп’ютер з процесором, який мав вбудовану відеокарту, допоміг виявити ваду в одному конкретному чипі пам’яті. Відеокарта не змогла завершити послідовність ініціалізації DRAM — ознака ушкодження чипа, ймовірно, пошкодженої пайки. 2 ГБ модуль Samsung GDDR7 випаяли та знов припаяли на плату.
Але вентилятори карти одразу ж розганялися до максимуму — свідчення, що до кінця ремонту ще далеко. Також раптово вийшов з ладу інтерфейс PCIe, це могло статися через спроби вимкнення та приховані ушкодження, що призвели до подальших проблем. Графічний процесор був підданий реболлінгу (перепайці) — ретельна робота з багатьма контактами, яка вимагає точності та майстерності.
Зміни призвели до нової проблеми — нестача пам’яті, ймовірно, через нагрівання. Тепловізор та послідовна перевірка виявили несправний модуль — саме той, що був перепаяний. Після його повної заміни коротке замикання було усунене, але система все ще не розпізнавала чип, оскільки все ще не працював протокол PEX на PCIe.
На цьому етапі початковий декфет плати, ймовірно, погіршився через усі нагрівання. Лише кілька фаз живлення VRM фактично працювали. Лінії напруги 12V та Vcore працювали, але цифрові сигнали “Driver ON” не доходили до половини контролерів VRM. Слід вів у товщу плати. Оскільки сигнал не розподілявся між фазами, було проведено просту перемичку, щоб відновити розірваний шлях. Це відновило повну подачу живлення, але PEX не працював. Було додано ще одну перемичку, щоб перекрити відсутній сигнал увімкнення PCIe — це спрацювало, і карта продемонструвала відеосигнал.
Але сподівання на завершення ремонту все ще не справдилися. Виявлення PCIe знову не працювало, вентилятори були на максимумі, а одна фаза пам’яті не вмикалася. Після перевірки виявилося, що PEX, який надходить з 3,3-вольної шини PCIe слота не досягає призначення, що фактично призводить до відключення цієї фази. Остаточне виправлення полягало в тому, щоб прокласти третій шлях, для подачі 3,3 В безпосередньо для цього сигналу увімкнення пам’яті. Після цього все запрацювало.
З’єднання PCIe нарешті стало стабільним, живлення було збалансованим по всіх фазах, а відеокарта пройшла повний раунд стрес-тестування у бенчмарках та в іграх. Це був один з випадків, коли збереження дорогої відеокарти було не тільки можливим, але й абсолютно виправданим.
Джерело: Tom’s Hardware