吴军笑了笑:“你观察的很仔细,这是我故意没说的一个点,这又是超导计算碾压硅基计算的一个点。对于上层软件来说,数据类型还是 float, double 等等,但在我们的超导CPU里,其实是一样的。”
林野指着桌面上铺开的超导 CPU 架构设计图,视线落在那片密密麻麻的运算核心区域,缓缓把自己梳理了一整晚的思路说了出来,这已经师徒间作业考校的一种常态了。
“吴老师,您看这里。咱们这颗芯片的设计很独到,里面有内外两层多套时钟体系,不是单一频率。
这一块是控制核心,也可以叫大核,负责指令调度、内存交互、还有对外的 IO 接口,它跑的是1GHz 到 10GHz 的兼容时钟频率,这个时钟会同步给外部系统、内存、总线,保证整个外围设备时序对齐,不会出错。
但里面这些运算小核不一样,它们是完全独立的。每个小核心内部,都可以跑自己的高频时钟,不需要跟外部控制单元同步,核跟核之间频率也可以不一样,有的一百 GHz,有的几百 GHz,甚至拉到 1THz 都没问题。
因为光速延迟的问题,频率到 THz 级别,信号一个周期跑不了多远,芯片一大就会时序错乱。但您这个设计很巧妙,每个运算核都做得特别小,对角线都控制在 0.5 毫米以内,刚好在光速限制之内,信号一个周期内完全能覆盖整个核心,内部是稳定同步的。
运算单元这边,我发现不仅得有 2048 位定点运算核心,64 位整数运算核心也保留下来才是最合理的。高精度计算交给 2048 位定点,浮点转过来也就多一个周期,虽然比整数慢一倍,但对大计算量任务完全够用。而地址计算、循环计数、位操作这些高频整型任务,直接走 64 位整数单元,一个周期出结果,效率最高。
整体就是全局异步、局部同步,外慢内快,大小互补,既兼容现有系统,又把超导的速度优势拉满了。”
林野说完,稍稍收回目光,看向一旁的吴军。
吴军一直安静听着,虽然精神有些不太专注,脸上却露出释然又欣慰的笑意,语气里满是赞赏:“思路全对,我没有和你详细讲解,你居然不仅仅是看懂了设计,更是真的把这颗超导 CPU 的灵魂,彻底理解透了。”
林野的手指在设计图上快速划过一片密集的小方块,目光顿了顿,像是在心里默算。
吴军站在他身旁,轻声问了一句,“林野,你心里有数吗?这一版架构里,我们到底能塞进去多少个超导小核?按传统硅基 CPU 那样封装,一片大小能装下多少?”
林野没有抬头,视线依旧落在图纸上,语气平稳:“吴老师,我们单个超导运算核,控制在 0.3 毫米见方以内,面积不到 0.1 平方毫米。一颗标准桌面 CPU 大小,差不多是 10 毫米 × 10 毫米,也就是 100 平方毫米。不算外围控制、IO、缓存那些区域,只算中间算力阵列部分,保守能放下 1000 个核,实际工程里留布线、散热、冗余,至少也能上 500 个。”
他顿了顿,补充了一句,“每个核内部都是 2048 位定点加 64 位整数 ALU,独立跑高频。也就是说,一块指甲盖大小的封装里,就是几百个 THz 级别的超导核心。”
吴军听完,轻轻点了点头,眼神里带着明显的肯定:“你这一算,就把这颗芯片的真正量级给看透了。这颗芯片,不仅是强,而且是碾压级的强。”
吴军的语气里带着一丝期待,继续问道:“那你再算一算,这样一片封装出来,性能比现在最顶尖的硅基 CPU,到底强多少倍?速度又快出几个量级?”
林野指尖轻轻敲了敲运算核心区域,没有犹豫,直接给出了答案,“我们按最保守的比。现在硅基旗舰 CPU,整数运算单核大概 3GHz 左右,浮点单元则是要十几周期才能跑完一次。
而我们每个超导小核,整数 1 周期、浮点 2 周期,内部时钟轻松跑到 100GHz 到 500GHz。单看整数运算,一个小核的频率,就是硅基单核的30 倍到 150 倍。再加上 2048 位定点算力,单周期数据宽度就是硅基的 32 倍,一乘下去,单核算力就是硅基的近千倍。
更别说我们一片封装里,塞了五百到一千个这样的核。整体算下来,同等面积下,算力是顶尖硅基 CPU 的十万倍起步,极限能到百万倍级别。”
他在最后补上了最关键的一句:“至于速度,不是快一点,是把延迟压到了皮秒级。硅基还在等数据、等时序、等散热的时候,我们已经算完了。这不是优化,是降维打击。”
吴军假装惊讶:“哦?那岂不是已经达到桌面超算的水平了?”
本小章还未完,请点击下一页继续阅读后面精彩内容!