Menu

Суперкомп'ютер Titan не може вийти на повну потужність із-за проблем з його материнськими платами

Суперкомпьютер Titan не может выйти на полную мощность из-за проблем с его материнскими платами



Найшвидший в світі на сьогоднішній день суперкомп'ютер Cray XK47 "Titan", що знаходиться в Національній лабораторії Ок-Рідж (Oak Ridge National Laboratory, ORNL), ніяк не може пройти програму завершальних випробувань і вийти на повну потужність із-за проблем з його материнськими платами. Як не дивно, але ця проблема полягає в надлишку золота, завданої в якості покриття на деякі контакти роз'ємів материнських плат, що є причиною того, що поки суперкомп'ютер не може використовувати при роботі потужність і можливості графічних процесорів Nvidia Kepler. До цього випадку як не можна краще підходить приказка, в якій стверджується, що кашу маслом можна зіпсувати.

Суперкомп'ютер Titan був вперше включений в жовтні місяці минулого року, після чого він зайняв першу позицію в рейтингу Top500, в рейтингу найшвидших суперкомп'ютерів у світі. Проте етап завершальних випробувань і введення суперкомп'ютера в експлуатацію, за повідомленнями представників лабораторії Ок-Рідж, так і не був завершений із-за нестійкої роботи системи. На даний момент часу термін закінчення етапу тестування зрушать до кінця квітня поточного року, тобто на чотири місяці пізніше терміну, запланованого спочатку.

Перші проблеми з роботою суперкомп'ютера Titan були виявлені в лютому місяці цього року, коли система не пройшла випробування на стабільність роботи, успішно пройшовши всього 92 відсотки від програми випробувань. Цього виявилося недостатньо для досягнення порогового значення у 95 відсотків, який є мінімально допустимим порогом стабільності роботи системи. Розслідування причин, що призвели за собою нестабільність роботи, вказало на роз'ємні з'єднувачі материнських плат і деякі з 200 стійок суперкомп'ютера були відключені і відправлені їх виробника, компанії Cray для усунення несправності. В даний час фахівці компанії Cray зайняті встановленням на материнські плати нових з'єднувачів і переробляють в середньому за 24 стійки в тиждень.

Слід зауважити, що саме ці вищезазначені з'єднувачі стали причиною неможливості обміну даними між центральними процесорами і графічними процесорами, які забезпечують більшу частину обчислювальної потужності суперкомп'ютера Titan. Золоте покриття контактів роз'ємів використовується для запобігання цих контактів від окислення. Але якщо золото змішується з припоєм, в якому міститься свинець і олово, то при збігу деяких умов виходить досить крихке з'єднання і контакт в цьому місці через деякий час втрачає свою якість. На материнських платах суперкомп'ютера Titan розташовано близько 20 тисяч таких роз'ємних з'єднувачів, що з'єднують центральні та графічні процесори, в кожному з яких є близько сотні контактів, кожен з яких потенційно може стати причиною несправності.

Згідно з даними рейтингу " Top500, суперкомп'ютер Titan побудований на основі 16-ядерних процесорів AMD Opteron, що працюють на тактовій частоті 2.2 ГГц, об'єднаних з графічними процесорами Nvidia K20X Kepler. З-за проблем з з'єднувачами зараз суперкомп'ютер з усіх своїх 560640 процесорних ядер не може використовувати 261632 ядер графічних процесорів, на частку яких припадає 90 відсотків його обчислювальної потужності.

Згідно з планами, усунення проблем з роз'ємними з'єднувачами закінчиться до кінця квітня, після чого розпочнеться етап повторного остаточного тестування, який буде проводитися протягом двох тижнів. Враховуючи те, що суперкомп'ютер Titan і в минулий раз дістався майже впритул до необхідних відміток, здається ймовірним, що система успішно пройде всі тести і вийде на повну потужність.

|