AMD四代霄龙曝光，爱美团购未来处理器会如何设计？

翟咏思来源：便站网健康 2021-03-04 12:50

　　按照计划，AMD将在这个月正式发布代号“Milan”(米兰)的第三代霄龙7003系列数据中心处理器。

　　这款处理器基于7nm工艺、Zen3架构，最多64核心128线程，支持八通道DDR4-3200内存、128条PCIe 4.0通道。

　　而在第三代产品还没有正式发布的时候，已经有推特博主已经了曝光了AMD第四代霄龙的核心规格：

　　AMD第四代霄龙的核心数量最多96个，线程数量最多196个，比现在增加整整50%，内部仍是chiplet小芯片结构，每颗8核心，总计12颗，另外继续一颗IO芯片。内存方面，第四代霄龙支持新一代DDR5，最高频率达5200MHz，通道数也增加一半的达到12个。功耗设计最高320W，比现在增加40W，同时支持最高上调到400W(cTDP)。

　　接口首次更换为新的SP5 LGA6096，比现在的SP3 LGA4094增加多达2002个触点。

　　可以看出，未来的处理器核心越来越多，带宽通道越来越高。但是单个芯片的规格却没有增加。

　　处理器从单核心到多核心，到众核，再到chiplet小芯片结构，完成了一轮轮进化。那么未来处理器会如何设计呢?我们来看一下。

　　单核频率的极限

　　计算机最早出现，是用于军事用途的科学计算，用来破解密码，计算弹道，做的是单纯的计算任务。相当于一个大型的快速计算器。

　　后来，虽然计算速度越来越快，人们发现计算能力，可以应用于商业办公的字处理和信息管理，于是有了字处理软件和数据库软件，为了运行这些软件，方便开发(否则计算机得从底层一步步开发一个软件做字处理或者信息管理)。就有了操作系统。

　　同时，计算机硬件也逐步进化，从分开的独立元件，进化成了一个超大规模集成电路，也就是我们所熟悉的CPU。古老的计算机是没有CPU的，是一大堆电子元件来完成今天CPU的功能。后来集成电路发展，有了封装技术，才有我们看到的芯片。

　　最初的CPU都是单核心的。后来为了提高性能，搞多路并行，一开始是把一大堆单核心的大型计算机放到一起联网运行。

　　后来，人们发明了多处理器的主板，在一块电路板上放置多个CPU，在主板上实现互联。

　　早期，处理器的进化方向是提高频率，改善微架构。在摩尔定律下，这条道路最初很顺利。处理器从早期的1MHZ，8MHZ很快就提升到66MHZ、100MHZ。

　　而此时计算机的用途越来越广，操作系统、应用软件、网络的出现，让计算机迅速从科学计算、字处理、信息管理扩展到人类社会的各个层面。计算机字处理软件替代纸笔、打字机，表格软件替代手工制表，财务软件替代手工记账，数据库系统替代纸质档案……

　　需求的指数级别增长，刺激技术快速发展，CPU从100MHZ到1Ghz只用了几年。到了2Ghz也非常快。

　　但是，很快频率提升就遇到瓶颈，4Ghz再往上就功率越来越大，提升越来越难。提升单核频率的路线到头了。

　　100MHZ到1Ghz只用了几年，而1Ghz到10Ghz至今看不到希望，如见最快的处理器就是官方睿频5Ghz多一点，20年前奔腾4超频记录是7Ghz。单核频率提升到头了。

　　从多核心到众核

　　在高性能计算领域，人们很早就用多处理器来提升性能，在操作系统和软件层面完成了对多线程处理的优化。

　　所以，在单核心频率触摸到天花板之后，处理器开始了多核心的进化。处理器搞多核心，比主板上搞多处理器更好，因为片内通讯比主板上多个处理器之间通信更快，延迟更低。

　　所以，很快CPU，就从单核发展到双核、四核、八核。在进化道路上，英特尔一度参考GPU的并行计算搞过众核，把几十个性能弱一些的小核心堆到一起来提升性能。在核心之间建立一套高速的网络连接，达到强大的总体性能。

　　但是，这种模式的应用范围很窄，仅限于能大规模并行的科学计算，AI计算，普通服务需要强大的单核心性能，这种小核心提供不了。

　　而真正需要大规模科学计算和AI计算，人们会购买更便宜，小核心更多，计算能力更强的GPU去算。

　　这种众核就变成了积累，搞大规模并行不如GPU性价比高，搞传统的服务器计算，单核心性能太弱小。

　　最后，英特尔停掉了众核的产品线，把技术用到大核心的堆叠上面，这就是英特尔28核心的至强处理器。

　　虽然，比并行计算比不了GPU，是做传统的服务器运算，28核心还是很强大的。

　　chiplet小芯片的挑战

　　理论上，多个核心堆到一块芯片里面，各个核心的互联最快，性能最好。但是多个核心堆到一个芯片里面，会大大增加芯片的面积。

　　而芯片的面积与良率和成本密切相关，越大的芯片，造起来越困难。因为一块晶圆上的瑕疵是随机分布的，单个芯片越大，中招的概率越大，合格的芯片越少。所以，大芯片的价格远远高于小芯片。

　　AMD对于多核心的解决办法是chiplet小芯片，一块芯片上就放8个核心(Zen2是4个核心)，需要多核心，我就把多块小芯片封装到一个基板上面，有些模块不需要7nm工艺，用14nm便宜的工艺做，也封装到一起。

　　在基板上面封装，通信速度不如芯片内，但是比在主板上要好很多。而单CPU主板，比多CPU主板要便宜很多，这种中庸的解决方案，性能适中，价格却要便宜得多。

　　英特尔做高性能的28核心处理器，得专门设计一个28核心的架构，测试流片，成本极高。

　　而AMD用小芯片，理论性能弱一点，但是从笔记本电脑到PC到服务器，只要测试生产一种核心就够了。高端产品只要封装多个核心，也有高性能，价格就便宜多了。

　　英特尔一看，当然也就学乖了，它在今年底发布代号Sapphire Rapids的第四代可扩展至强，用10nm Enhanced SuperFin制造工艺，Golden Cove CPU架构，也是MCM多芯封装，最多4颗小芯片、60核心120线程(64核心，屏蔽4个，提升良率)，集成最多64GB HBM2e高带宽内存，支持最多8通道DDR5-4800、80条PCIe 5.0，热设计功耗最高400W，接口换成新的LGA4677-X。

　　所以，未来一段时间，我们看到的高性能处理器，都会走chiplet小芯片技术，在基板上堆小芯片，甚至把内存也堆上去，提升性能，降低成本。

本文地址： https://www.shandongxun.com