“第四种:小存算单元为 256 比特,没有强计算核心,可根据计算任务自由组合。实测耗时 5 分钟,比前三种快了不少。优点是颗粒度细腻,并行度极高,刚好适配 CERN 这种海量粒子追踪、坐标比对的细并行任务,布线可以做得更密集,不用预留强核的布线空间,工程实现难度中等;缺点同样明显,没有强计算核心,面对复杂算术运算,比如三角函数、大数乘法,只能靠多个 256 比特单元叠加拼接,会拖慢整体速度,而且单元颗粒太细,调度复杂度上升,布线密度虽然可控,但比有强核绑定的架构,布线量要多一些。”
“第五种:每 100 万个存算小单元(256 比特),对应一个强计算核心,小存算单元可完全自由组合。这也是你五种里,兼顾细并行和强计算的一套,实测耗时 4 分 20 秒,是五种里最快的。优点很突出,完美结合了细颗粒和强算力。256 比特单元负责海量并行的轻量任务,每 100 万个单元绑定一个强计算核心,专门处理复杂硬算,调度效率最高,而且 100 万个单元分组清晰,布线规整,既不会像 400 万分组那样庞大难排查,也不会像无强核架构那样布线杂乱,工程难度适中,容错率也高,通用性最强;缺点就是,相比无强核架构,多了强计算核心的控制线,布线量略有增加,但在室温超导的基础上,完全可以忽略,算不上硬伤。”
林野俯身盯着屏幕上的曲线和数据,眼神里满是震动,手指下意识摩挲着控制台边缘。他虽然清楚每种原型的设计逻辑,却没想到实测差距如此清晰,更没想到第五种原型,能跑出 4 分 20 秒的成绩,比他最乐观的估计,还要快上十几倍。
“4 分 20 秒……” 林野低声重复了一遍,语气里满是惊叹,“第五种竟然最快?我本来以为,第四种 256 比特无强核,已经能适配 CERN 的任务了,没想到加上强计算核心,能快这么多。”
吴军点点头,语气平静却带着笃定:“这就是兼顾的力量。你要明白,CERN 的任务,80% 是粒子追踪、坐标比对这种轻量并行任务,适合 256 比特细颗粒单元;但还有 20% 是复杂数值运算,这种任务,再强的细颗粒小单元,也比不上专用的强计算核心。小单元硬算这些,只能靠加法反复拼接,而强计算核心是专用硬件电路,一个时钟周期就能出结果,差距能达到几百倍。”
他顿了顿,又补充道,“而且从工程布线来看,第五种是最合理的 —— 分组清晰,布线规整,既不会像 1bit 单元那样布线量指数级爆炸,也不会像无强核架构那样调度混乱,刚好踩在算力释放、调度效率和工程布线的黄金平衡点上。咱们是室温超导,不用留散热余量,布线可以压到物理极限,这也让第五种原型的优势,彻底发挥了出来。”
林野恍然大悟,之前的担忧瞬间散去,取而代之的是对架构设计的通透:“我明白了,无强核的细颗粒架构,只能处理专用并行任务,一旦遇到复杂硬算,就会卡顿;而强核绑定过粗的架构,又浪费算力,只有第五种,256 比特细颗粒 + 每 100 万配强计算核心,才能兼顾所有任务,既快又稳,工程上也能落地。”
“没错。” 吴军淡淡吐出一个数字,“从开始计算,到全部结果输出、校验完成,第五种原型,只用了 4 分 20 秒,比 CERN 三台超算 11 天的成绩,快了整整 3000 多倍,精度也一样,偏差只有百万分之 3.7。”
“四分钟就算完…… 不过有一点,吴老师,我们用的是 2048 位定点计算,和传统超算的浮点算法不一样。两者结果万一对不上、有偏差怎么办?别人会不会说我们算错了?” 林野还是忍不住多问了一句,毕竟这是 CERN 的顶级物理数据,一丁点误差都可能被当成致命问题。
吴军却异常淡定,轻轻摆了摆手,让他放宽心,“你担心的方向没错,但结论搞反了。传统超算用的是标准浮点运算,位数有限,在长时间、大规模粒子追踪里,误差会一点点累积。算到最后,结果其实是‘近似值’。”
他顿了顿,语气沉稳有力:“我们不一样。我们用的是 2048 位超高精度定点强计算,每一步、每一次叠加都是这个精度,几乎没有累积误差。最后出现的微小差别,不是我们不准,是我们比他们更准。五种模型,我们使用的精度都是一样的,只是速度有差异。”
林野的担忧彻底散去:“您是说…… 差别不是我们错了,而是传统超算本身有精度损耗?”
“对。” 吴军点头,“别人要花数天、用近似算法凑出来的结果,我们用最快的原型,4 分 20 秒就用超高精度硬算出来。真要较真,是我们的结果更接近真实物理世界。”
本小章还未完,请点击下一页继续阅读后面精彩内容!