国产长城超云服务器维护吐槽

最近接了个活,维护一家名叫“长城超云”的品牌服务器售后。说实在的,真是大跌眼镜。

一个甲方军工的,找了一个连硬盘容量都算不清楚的乙方来做一个项目。你猜我去干嘛?解决下为啥万兆网络只跑 600M/s ? 还有个事,旧主板会死机,报ECC错误。换了块新主板,识别不了内存容量,全都识别为1GB内存(实际是32g单根)。

先说说人的事,我觉得我真的好没用。连这个都不清楚的,都能揽到这项目。真是太可笑了。再就是这个地方的外包文化真的太严重了。一层一层接一层。你还真不知道你在哪一层。其实这样也好,出锅了一起背。

报 ECC 警告这个问题。我查看服务器,询问当事人,他们已经换过内存条,并没有解决问题。认为 CPU 问题(毕竟内存控制器也在里面),先建议换CPU试一试。但他们坚持要换主板。好嘛!我就把主板换了。结果还是一样(其实这里我后来回忆应该是好了。因为那个警告不在新增了。后来询问当事人才知道,只有警告一直不停的新增才会有问题。)。然后就换 CPU 测试。但是换了发现启动异常的慢。难不成另一个 CPU 也有问题。因为备件只有一个 CPU。我就把另一个 CPU 取下来了。这回启动很快了。我以为解决了。结果看 BMC日志,仍然有警告。后面就是换内存,拆主板,再换 CPU 一顿搞。累的半死。终于确认问题后,又装上了新备件主板。发现警告不在新增,但是内存不管我怎么插,只能识别单根 1GB。双 CPU 情况下,不管我插多少根内存,他就识别两根。总容量 2GB。单 CPU 下,可以识别所有内存,但也是1GB*N 的容量。

那个识别 1GB 的问题来说。这个事折腾了我一天。这个品牌服务商的技术人员简直就是瞎指挥,还说是技术人员。我按他的要求是拆了装,装了拆。火大的很。后面实在不耐烦了,自己搞。最后确认是主板问题。也就是我带来的备件是有问题的。

其实我在拆之前就发现了这备件没有贴封条,询问他们是好的不。都没意见。让我直接拆。
我拆装了四遍,连把原件的 bios 和 BMC 芯片替换了也没解决问题。那个ECC错误倒是解决了。可内存容量不对,也不行啊!

附上 长城超云R3216 BIOS 和 BMC 固件。此固件支持 中科海光 7360 处理器。

BIOS 固件

H01HG2P_SC_V18_230310.bin: https://url64.ctfile.com/f/22136564-977238478-633546?p=9280 (访问密码: 9280)

BMC 固件

obmc-phosphor-image-supercloud-h1-20230403024110.static.mtd.tar: https://url64.ctfile.com/f/22136564-977239051-2cff2b?p=9280 (访问密码: 9280)