按照计划,AMD将在这个月正式发布代号“Milan”(米兰)的第三代霄龙7003系列数据中心处理器。
这款处理器基于7nm工艺、Zen3架构,最多64核心128线程,支持八通道DDR4-3200内存、128条PCIe 4.0通道。
而在第三代产品还没有正式发布的时候,已经有推特博主已经了曝光了AMD第四代霄龙的核心规格:
AMD第四代霄龙的核心数量最多96个,线程数量最多196个,比现在增加整整50%,内部仍是chiplet小芯片结构,每颗8核心,总计12颗,另外继续一颗IO芯片。内存方面,第四代霄龙支持新一代DDR5,最高频率达5200MHz,通道数也增加一半的达到12个。功耗设计最高320W,比现在增加40W,同时支持最高上调到400W(cTDP)。
接口首次更换为新的SP5 LGA6096,比现在的SP3 LGA4094增加多达2002个触点。
可以看出,未来的处理器核心越来越多,带宽通道越来越高。但是单个芯片的规格却没有增加。
处理器从单核心到多核心,到众核,再到chiplet小芯片结构,完成了一轮轮进化。那么未来处理器会如何设计呢?我们来看一下。
单核频率的极限
计算机最早出现,是用于军事用途的科学计算,用来破解密码,计算弹道,做的是单纯的计算任务。相当于一个大型的快速计算器。
后来,虽然计算速度越来越快,人们发现计算能力,可以应用于商业办公的字处理和信息管理,于是有了字处理软件和数据库软件,为了运行这些软件,方便开发(否则计算机得从底层一步步开发一个软件做字处理或者信息管理)。就有了操作系统。
同时,计算机硬件也逐步进化,从分开的独立元件,进化成了一个超大规模集成电路,也就是我们所熟悉的CPU。古老的计算机是没有CPU的,是一大堆电子元件来完成今天CPU的功能。后来集成电路发展,有了封装技术,才有我们看到的芯片。
最初的CPU都是单核心的。后来为了提高性能,搞多路并行,一开始是把一大堆单核心的大型计算机放到一起联网运行。
后来,人们发明了多处理器的主板,在一块电路板上放置多个CPU,在主板上实现互联。
早期,处理器的进化方向是提高频率,改善微架构。在摩尔定律下,这条道路最初很顺利。处理器从早期的1MHZ,8MHZ很快就提升到66MHZ、100MHZ。
而此时计算机的用途越来越广,操作系统、应用软件、网络的出现,让计算机迅速从科学计算、字处理、信息管理扩展到人类社会的各个层面。计算机字处理软件替代纸笔、打字机,表格软件替代手工制表,财务软件替代手工记账,数据库系统替代纸质档案……
需求的指数级别增长,刺激技术快速发展,CPU从100MHZ到1Ghz只用了几年。到了2Ghz也非常快。
但是,很快频率提升就遇到瓶颈,4Ghz再往上就功率越来越大,提升越来越难。提升单核频率的路线到头了。
100MHZ到1Ghz只用了几年,而1Ghz到10Ghz至今看不到希望,如见最快的处理器就是官方睿频5Ghz多一点,20年前奔腾4超频记录是7Ghz。单核频率提升到头了。
从多核心到众核
在高性能计算领域,人们很早就用多处理器来提升性能,在操作系统和软件层面完成了对多线程处理的优化。
所以,在单核心频率触摸到天花板之后,处理器开始了多核心的进化。处理器搞多核心,比主板上搞多处理器更好,因为片内通讯比主板上多个处理器之间通信更快,延迟更低。
所以,很快CPU,就从单核发展到双核、四核、八核。在进化道路上,英特尔一度参考GPU的并行计算搞过众核,把几十个性能弱一些的小核心堆到一起来提升性能。在核心之间建立一套高速的网络连接,达到强大的总体性能。
但是,这种模式的应用范围很窄,仅限于能大规模并行的科学计算,AI计算,普通服务需要强大的单核心性能,这种小核心提供不了。
而真正需要大规模科学计算和AI计算,人们会购买更便宜,小核心更多,计算能力更强的GPU去算。
这种众核就变成了积累,搞大规模并行不如GPU性价比高,搞传统的服务器计算,单核心性能太弱小。
最后,英特尔停掉了众核的产品线,把技术用到大核心的堆叠上面,这就是英特尔28核心的至强处理器。
虽然,比并行计算比不了GPU,是做传统的服务器运算,28核心还是很强大的。
chiplet小芯片的挑战
理论上,多个核心堆到一块芯片里面,各个核心的互联最快,性能最好。但是多个核心堆到一个芯片里面,会大大增加芯片的面积。
而芯片的面积与良率和成本密切相关,越大的芯片,造起来越困难。因为一块晶圆上的瑕疵是随机分布的,单个芯片越大,中招的概率越大,合格的芯片越少。所以,大芯片的价格远远高于小芯片。
AMD对于多核心的解决办法是chiplet小芯片,一块芯片上就放8个核心(Zen2是4个核心),需要多核心,我就把多块小芯片封装到一个基板上面,有些模块不需要7nm工艺,用14nm便宜的工艺做,也封装到一起。
在基板上面封装,通信速度不如芯片内,但是比在主板上要好很多。而单CPU主板,比多CPU主板要便宜很多,这种中庸的解决方案,性能适中,价格却要便宜得多。
英特尔做高性能的28核心处理器,得专门设计一个28核心的架构,测试流片,成本极高。
而AMD用小芯片,理论性能弱一点,但是从笔记本电脑到PC到服务器,只要测试生产一种核心就够了。高端产品只要封装多个核心,也有高性能,价格就便宜多了。
英特尔一看,当然也就学乖了,它在今年底发布代号Sapphire Rapids的第四代可扩展至强,用10nm Enhanced SuperFin制造工艺,Golden Cove CPU架构,也是MCM多芯封装,最多4颗小芯片、60核心120线程(64核心,屏蔽4个,提升良率),集成最多64GB HBM2e高带宽内存,支持最多8通道DDR5-4800、80条PCIe 5.0,热设计功耗最高400W,接口换成新的LGA4677-X。
所以,未来一段时间,我们看到的高性能处理器,都会走chiplet小芯片技术,在基板上堆小芯片,甚至把内存也堆上去,提升性能,降低成本。