CFD加特林

在交付第一单机架式之后,我们的CFD加特林/机架式服务器终于正式上线了。在这里面我们踩坑无数,强烈建议先看下这篇文章:黎明前是黑暗,光就在前方

在这里注意一下塔式服务器的局限性:塔式服务器由于架构原因,并不是核心越多性能越好。因此堆核心数,堆CPU高参数完全没有意义。塔式服务器最好还是当做算例调试用。真正上亿网格点,必须要上机架式服务器。

Warning

只要能调节出线性的加速比,4节点128核机架式加特林,一定比单节点128核塔式服务器快几倍!但注意前提,要调试出线性加速比。

机架式服务器有下面几个特性:

  • 随便用:算例随便调用,不会造成拥堵。

  • 需要机房:体积比较大,需要一款单独的空地。这面8个节点一个机柜。节点数量越多,机柜数量越多。

  • 适合大型CFD算例:千万网格、上亿网格都没问题,取决于购买多少个节点。

机架式服务器的成本由计算节点、管理节点、交换机、平台搭建、后期维护组成。节点数量越少,其他费用占比越高,性价比较低。节点数量越多,其他部分的费用占比越低。机架式建议最低8个节点,一个机柜。

一个典型的10节点服务器的交付主要包含:

  • 10个计算节点:每节点32核心-64核心,每节点128G内存-256G内存,硬盘容量可选(建议256G就够),不需要加显卡。

  • 1个管理节点:每节点32核心-64核心,每节点128G内存,硬盘容量可选(建议2T),可以加独立显卡以及一些所需要的配件。

  • 存储系统:硬盘容量建议每个18T(因为18T性价比远远高于20T),可以配置n个硬盘,这个价格很便宜,配多少T都行。

  • 网络交互系统:一台mellanox交换机,若干mellanox网卡,若干DAC线缆。

  • 机柜:8节点以下一个机柜,每8个节点一个机柜。

  • kvm显示器:用来控制调试节点。

  • 备份系统:因为机架式服务器组网非常麻烦,因此我们会给客户提供一套备份系统,万一有问题,可以先把备份系统安装上应急使用。

  • 培训使用以及后期维护:机架式服务器与塔式服务器不一样。建议客户配备专门的学生进行维护。如果没有专人进行维护。我们也可以提供有限次数的维护。

  • 质保:整机三年质保。硬件有问题免费换。

  • 物流安装:运输、现场安装、部署费用。

交付实例:

这是交付的一个10节点服务器,配置如下:

  • 10台计算节点:共640核心,每节点64核/128G内存/256G硬盘

  • 1台管理节点:64核/128G内存

  • 存储系统:72T硬盘

  • 网络交互:Mellanox交换机、网卡、若干线缆

  • 两台机柜、显示器一台

  • 物流、现场安装、简易培训、备份系统等

  • 总价65万,含税

当然也有更便宜的配置。比如:

  • 5节点320核,35万拿下;

  • 5节点320核,20万就能拿下;

  • 最便宜最便宜的,4节点256核,15万块拿下

Warning

有人问,这面DM塔式服务器,一台64核,3万元,我拿5台,只有15万元。不都是320核么?错误!一再强调,同核心数机架式,要完爆塔式服务器。 当然,前提是调试出线性的加速比。再比如,4节点128核的机架式,要比单节点128核心的塔式要快得多!

在这里再次推荐看一下这篇文章,黎明前是黑暗,光就在前方,这篇文章记录了我们机架式服务器研发过程的艰辛之路。最终,我们交付了一台,按照CFD学术水平的高标准,相关研究成果可以发英文SCI的高标准的10节点机架式服务器。下图是我们做的10节点并行scale测试结果,堪称完美:

在这个测试中,我们使用ANSYS Fluent测试了3200万网格,使用单节点需要计算1000秒。在我们经过各种参数的调试,使用10节点需要计算100秒。计算时间缩短了10倍! 呈现了一个完美的线性结果!这是很多同行,甚至HPC大厂,都不能做到的。

Warning

咱这面交付的服务器,绝对调试到线性加速比!经过我们精心调试,目前几十个节点都没问题。

由于机架式服务器货值高,因此可以接受分期付款,也可以把合同分割成多个小额合同,走测试费、会议费等处理。需要注意的是,机架式服务器在签订合同之后,需要支付一定的款项,方便我方启动项目、购置硬件。在客户交付前,需要付清合同总价的85%。尾款15%,需要在交付服务器后的2个月内付清。

总而言之,机架式服务器灵活度很高,需要一单一议,上面的信息只是个大概的范例。有具体的需求,可以联系。联系的时候一定要注意,机架式服务器类似出方案,请不要简单让我报个价。类似的咨询也不会收到严肃的回复。

升级组网

如果客户本身有一些现有的机器,也可以尝试进行组网,升级成机架式服务器。但可能会存在一些问题:

  • 机器配置不同,会严重影响并行特性,并且计算性能,取决于最慢的机器。

  • 某些机器配置,注定达不到线性的scale。

需要升级组网的客户,可以把现有的硬件条件告知我们,经过评估后,确定是否可进行升级,还是无法升级。