苹果前CEO:乔布斯

“people dont’t know what they want until you show it to them”

“大家不知道买什么产品,这就需要我们产品设计人员告知客户,你们应该买什么样的产品”

乔布斯的观点是非常正确的。很多CFD客户,仅仅知道要买服务器加速计算,但是要怎么加速计算并不了解。因此,在本文中我们作为CFD机架式服务器的研发人员,会告知客户,你们应该买什么样的CFD机架式服务器

CFD加特林

讨论服务器产品之前,首先介绍一个概念,就是加速比。加速比可以简单的理解为,多个机器连起来计算,比单个机器快多少倍。

  • 线性加速比:n个机器计算比单机快n倍。

  • 超线性加速比:n个机器计算比单机快大于n倍。

首先,咱们这面的塔式服务器由于架构原因,注定达不到线性加速比,更别提超线性加速比。举例,32核比单核算可能快20倍,64核比单核算可能只快22倍,128核心可能比64核更慢!

因此堆核心数,堆CPU高参数完全没有意义。塔式服务器最好还是当做算例调试用。真正上亿网格点,你的唯一选择就是机架式服务器。我们的机架式服务器称之为CFD加特林。

在这里再一次强调,我们的CFD加特林的终极目标是超线性加速比,最低是线性加速比。虽然很多同行认为这个是完全不可能的。但我们在一些SCI里面见过线性加速比的存在,我们就本着科研人的科研态度,要把这个加速比,甚至超线性加速比调试出来!在这个过程中,我们踩坑无数,强烈建议先看下这篇文章:黎明前是黑暗,光就在前方

CFD加特林有下面几个特性:

  • 随便用:节点越多,越不会拥堵。

  • 节点多的话需要机房:这面8节点以下一个机柜(类似一个冰箱)。节点数量越多,冰箱越多。

  • 适合大型CFD算例:千万网格、上亿网格都没问题,取决于购买多少个节点。

机架式服务器的成本由计算节点、管理节点、交换机、平台搭建、后期维护组成。节点数量越少,其他费用占比越高,性价比较低。节点数量越多,其他部分的费用占比越低。

一个典型的10节点服务器的交付主要包含:

  • 10个计算节点:每节点32核心-64核心,每节点128G内存-256G内存,硬盘容量可选(建议256G就够),不需要加显卡。

  • 1个管理节点:每节点32核心-64核心,每节点128G内存,硬盘容量可选(建议2T),可以加独立显卡以及一些所需要的配件。

  • 存储系统:硬盘容量建议每个18T(因为18T性价比远远高于20T),可以配置n个硬盘,这个价格很便宜,配多少T都行。

  • 网络交互系统:一台mellanox交换机,若干mellanox网卡,若干DAC线缆。

  • 机柜:8节点以下一个机柜,每8个节点一个机柜。

  • 显示器:用来控制调试节点。

  • 备份系统:因为机架式服务器组网非常麻烦,因此我们会给客户提供一套备份系统,万一有问题,可以先把备份系统安装上应急使用。

  • 培训使用以及后期维护:机架式服务器与塔式服务器不一样。建议客户配备专门的学生进行维护。如果没有专人进行维护。我们也可以提供有限次数的维护。

  • 质保:整机三年质保。硬件有问题免费换。

  • 物流安装:运输、现场安装、部署费用。

Warning

有人问,这面DM塔式服务器,一台64核,3万元,我拿5台,只有15万元。不都是320核么?错误!一再强调,同核心数机架式,要完爆塔式服务器。 当然,前提是调试出线性的加速比。再比如,4节点128核的机架式,要比单节点128核心的塔式要快得多!

技术指标

在这里再次推荐看一下这篇文章,黎明前是黑暗,光就在前方,这篇文章记录了我们机架式服务器研发过程的艰辛之路。最终,我们交付了一台,按照CFD学术水平的高标准,相关研究成果可以发英文SCI的高标准的10节点机架式服务器。下图是我们做的10节点并行scale测试结果(ANSYS Fluent 2022),堪称完美:

In our test case, a pipe flow was simiulated. A computational domain with 32 million cells was used to investigate the scalability of ANSYS Fluent 2022. Before tuning, the maximum speedup can be achieved around 4 nodes. Even more nodes were employed, the calculation cannot be faster due to comminucation limit. After tuning, the scalability (speedup) is shown in the above figure. It can be seen that it showed a linear speedup until 10 nodes, which is much better than that when the HPC was not tuned.

Warning

It should be stress here that most of the vendors cannot get this linear speedup for CFD calculations, including those DELL\Lenovo, etc. However, for our CFD加特林, linear speedup can be achieved after tuning. In certain cases, superlinear speedup can be observed for OpenFOAM.

Now let us see some results of open-source CFD code OpenFOAM. Since OpenFOAM is a open-source CFD code, the settings is more difficult than commercial CFD software. In commercial CFD software, users do not have too many options to adjust the CFD settings. However, users can adjust even EVERYTHING in OpenFOAM. This leaves us a question “how to achieve the maximum computation speed?”

如果说ANSYS Fluent还可以问问同行怎么弄,但是对于OpenFOAM,国内玩的就太少了。我们中途卡bug实在卡的不行,但是还焦头烂额要上架服务器,就去问老外。找那些测试OpenFOAM加速比比较流弊的SCI的通讯作者,大约联系了10个左右。一些没回复,一些说可以看看但是给他们付费流程搞不清楚太麻烦了,一些邮箱就不存在。反正老外就是没帮上忙。然后我们还是继续卡bug。断断续续,我记得我们这个2021年春节开始弄。断断续续卡了一年。可算卡出来了。

In the test cases for OpenFOAM, quasi-DNS were launched to investigate the scalability. The meshes consists of 2/16/64/130 million cells, which can be seen as small (S), medium (M), large (L) and extra-large (XL) test case. Simulations were run by 2/5/8/14 nodes. Two different settings (s1 and s2) were employed. Readers will see that these settings behaves quite differently. It can be seen that for small scale test cases, OpenFOAM does not scale well at all. However, for large scale test cases, a superlinear speedup was observed. Meanwhile, the most important thing is that OpenFOAM’s performace is highly dependent on settings. In our test cases, two settings were used. OpenFOAM’s performance was boosted after carefully tuning. For example, for the test cases XL, Setting2 is 1.67 times faster than Setting1 when 14 nodes were used.Super linear speed-up was also observed for XL test cases. Even for a smaller test case with 2 million cells, Setting2 provide even better scalability than Setting1. At last, it should be stressed that as an open-source CFD software, OpenFOAM’s scalability and performance are highly dependent on tuning.

Case

2n-SP

5n-SP

8n-SP

14n-SP

S -s1

47s-1

71s-0.66

-

-

Not scaling well and slower

S -s1

30s-1

38s-0.78

-

-

Not scaling well but faster
fastest when 1 node is used: 30s

M -s1

122s-1

85s-1.43

67s-1.82

107s-0.87

Not scaling well and slower

M -s2

178s-1

71s-2.5

48s-3.7

50s-3.56

Linear speed-up (in the range 1-8)
fastest when 8 nodes are used:48s

L -s1

351s-1

148s-2.37

104s-3.37

128s-2.74

Nearly Linear SP (in the range 1-8)

L -s2

218s-1

86s-2.53

49s-4.44

35s-6.22

Super Linear SP
fastest when all nodes are used:35s

XL -s1

226s-1

81s-2.79

48s-4.7

45s-5.06

Super Linear SP (in the range 1-8)

XL -s2

235s-1

81s-2.9

50s-4.7

28s-8.39

Super Linear SP
fastest when all nodes are used:28s

  • Font colored by yellew donotes linear or super Linear SP.

标准配置

塔式服务器在同样的预算下,可以选出最强配置。但是机架式服务器不一样,机架式服务器可调节的主要是:

  • 单节点核心数;

  • 节点数量;

  • 同样核心数单节点性能;

  • 同样核心数多节点性能;

同样的性能,如3000万网格跑到20秒,可以采用多种方案来实现,举例:

  • 方案1:10个28核心的CPU型号1,组建280核并行跑;

  • 方案2:5个56核心的CPU型号2,组建280核并行跑;

  • 方案3:10个52核心的CPU型号3,组建520核并行跑;

  • 方案4:4个64核心的CPU型号4,组建256核心并行跑;

上述4个方案在计算3000万网格都可以跑到20秒,达到同样的性能,但价格不一样。在这里我在说一下一些普适性的机架式服务器优选标准:

  • 标准1:同样性能下,节点数越多越好;

  • 标准2:同样性能下,核心数越少越好;

  • 标准3:同样性能下,价格越低越好;

我们按照上面三个标准来选择的话。如果按照标准1来,那就是方案3或者方案1。如果按照标准2来的话,那就是方案4。但标准1和标准2一般情况下是互相抵触的。因此,最终我们得出结论:机架式服务器要做出标准最强配置是不可能的。这就需要按照客户的需求来做定制。比如客户是经常同时计算几十个任务?还是经常计算上千万网格?

我们尝试推出一些标准型号。咱这面大体2个型号,一种是大算例经济型,一种是多任务普适型:

  • 大算例经济型:使用场景多为大算例,每算例上千万网格,同时跑几个算例,可选用大算例经济型(最低4节点,可多加节点);

  • 多任务普适型:使用场景多为多任务,需要同时跑几十个算例,可选用多任务普适型(最低8节点,可多加节点);

  • 如果没有明确的概念,可做定制;

配置

DMC-eco1

DMC-eco2

DMC-1

特性

均衡型

单节点性能强

节点多

交付标准

标准算例244s

标准算例220s

标准算例244s

计算点

58核/96G内存

64核/96G内存

48核/96G内存

管理点

16核/32G内存

16核/32G内存

16核/32G内存

MPI

IB卡

IB卡

IB卡

存储

64T

64T

64T

外设

机柜等

机柜等

机柜等

价格

4节点23万

4节点28万

6节点23万

扩展价格

每节点4万

每节点4.5万

每节点2.3万

Warning

上述是我们的推荐配置。当然也有更便宜的,比如4节点20万以下,可以邮件咨询。再次强调,机架式服务器推出单一配置满足普适性应用场景太难了。

很多人会说,我们这个机架式的配置太简单了,想要详细的配置。比如下图这种。下图是黛儿一个5节点80万的服务器。如图:

简要评述以下:

  • 上面这些论七八糟的参数,我们也可以写,但是啥用没有,徒增工作量。就跟大家做科研一样。无意义的文字工作大家都不爱做。

  • 我们的4节点服务器,跑CFD,比上面的5节点服务器要快50%以上。因为我们测试过这个配置;

  • 在CFD性能快50%的情况下,价格是黛儿的三分之一!!!

  • 黛儿服务器上述配置不含有CFD软件配置服务,更别提线性加速比!!

另外,联系的时候一定要注意,机架式服务器类似出方案,请不要简单让我报个价。类似的咨询也不会收到严肃的回复。

机器可以组装到机柜里。如下图:

也可以比较奇葩的安装到每个办公室,如下图:

下图是我们交付的10节点服务器实拍图:

由于机架式服务器货值高,因此可以接受分期付款,也可以把合同分割成多个小额合同,走测试费、会议费等处理。在客户交付前,需要付清合同总价的85%。尾款15%。建议付款方式如下:

付款额度

进度

买方支付合同总价40-50%后

我方启动备货

备货完成后,继续支付合同总价45-35%

我方装箱运输

付清尾款15%

服务器交付客户2个月内

通常我们会备一台4节点现货。如果碰巧有现货。只要到款快,款到即发。

升级组网

如果客户本身有一些现有的机器,也可以尝试进行组网,升级成机架式服务器。但可能会存在一些问题:

  • 机器配置不同,会严重影响并行特性,并且计算性能,取决于最慢的机器。

  • 某些机器配置,注定达不到线性的scale。

需要升级组网的客户,可以把现有的硬件条件告知我们,经过评估后,确定是否可进行升级,还是无法升级。

如何购买

点击跳转联系方式进行购买