Ремонт сервера GEG Kraftway

GEG Kraftway

   Случилась беда, один из имеющихся серверов периодически стал выпадать в "синий экран смерти", причем всегда с совершенно разными кодами ошибок. Чаще всего были ошибки 050, 02E..., но при таком разнообразии этих ошибок идентифицировать причину отказа не представлялось возможным. После многочисленных поисков, решили что возможно проблема в кривых драйверах, либо самой Windows 2003 Server. Поскольку все данные с сервера мы заблаговременно сохранили, то переустановка Windows 2003 для нас была не критична, что мы и начали делать. Но, как оказалось, даже при установке ОС, на разных этапах, выскакивал синий экран и установка на этом завершалась. Дальше наши изыскания были направлены в сторону "железа", первое что мы попытались это поменять SCSI-диски, благо их в сервере 5 штук объединенных в массив RAID5. Для этого мы создавали новые массивы из разных трех дисков, пытаясь исключить возможно неисправный, но и эти действия не привели к положительному результату. Ради интереса попробовали снять один из двух процессоров с материнской платы, который был во втором слоте, сервер при этом работал и на одном процессоре, но так же выпадал в ошибку, второй процессор снимать не стали, т.к. доступ к нему был не очень удобный. Следующим объектом проверки стал двуканальный SCSI-контроллер Intel SRCU42X, на нем установлена планка памяти на 128 мегабайт, поскольку подходящей памяти мы не нашли, решили поменять контроллер целиком.

Intel SRCU42X

 На одном из имеющихся серверов сняли контроллер, правда не такой, как в неисправном сервере, а  SRCU42L, у которого нет съемной планки памяти и только один канал.

SRCU42L

   Замена контроллера вначале нас обрадовала, т.к. ОС установилась и мы решили, что проблема найдена, но через некоторое время сервер опять выдал ошибку.

 На материнской плате этого сервера так же есть встроенный SCSI-контроллер, но он был не задействован, ради эксперимента мы снимали PCI-SCSI-контроллер и формировали массив на нем, но и это не помогало. Еще пытались для всех трех контроллеров подбирать драйвера, но что мы только не подсовывали, положительного результата так и не получили.  Дальше уже вопрос стоял о замене материнской платы, либо корзины SCSI дисков и уже начали подыскивать где их можно приобрести.

   Наконец мы все же решили изощриться и снять процессор из первого слота материнской платы, а на его место поставить из второго слота и каково же было наше изумление, когда сервер после этого заработал в штатном режиме.

   Вот на фото виновник неисправности - процессор Intel Xeon SL73P (3066DP/1M/533/1.525):

Intel Xeon SL73P (3066DP/1M/533/1.525)

  Вот так закончились наши длительные изыскания неисправности и сервер теперь работает на одном процессоре, благо он выполняет одну простую задачу, для которой вполне достаточно производительности сервера с одним процессором.

Комментарии закрыты