Skip links

Хардуерна грешка в серията процесори AMD EPYC 7002 води до периодично спиране на тяхната работа

В серията сървърни процесори AMD EPYC 7002 (Rome), базирана на микроархитектурата „Zen 2“, налична от 2018 г., е открит бъг, който кара процесора да увисне след 1044 дни работа без възстановяване на състоянието (налага се рестартиране на системата). Като един от начините за заобикаляне на проблема се препоръчва да се деактивира поддръжката на режима за пестене на енергия CC6 или сървърът да се рестартира по-често от всеки 1044 дни (приблизително 2 години и 10 месеца).

Според информацията, публикувана от AMD, прекъсването на работата се причинява от грешка, която се проявява, когато ядрото на процесора се опитва да излезе от режима за пестене на енергия CC6 (core-C6 понижава напрежението при неактивност), когато таймерът достигне 1044 дни след последното нулиране на състоянието на процесора (времето на проявата може да варира в зависимост от тактовата честота на чипа).

AMD не предоставя по-подробно обяснение на причината за проблема. Предположението на Reddit е, че проблемът възниква, когато броячът TSC (Time Stamp Counter), който отчита броя на работните цикли след нулиране, достигне значението 0x3800000000000 (2800 MHz * 10**6 * 1042,5, т.е. след 1042 дни и 12 часа).

AMD не възнамерява да предлага микрокод за оправяне на този бъг. Проблемът е останал незабелязан, понеже при сървърите не са типични многогодишните uptime, понеже за поддръжката на тяхното актуално състояние периодично се налага тяхното рестартиране – например за инсталиране на ново ядро или следващ билд на използваната операционна система. Но има някои Linux дистрибуции (има версии на Ubuntu, RHEL и SUSE с 10-годишна поддръжка), при които е възможна проявата на този хардуерен бъг.


source

This website uses cookies to improve your web experience.
Начало