AMD四代霄龙曝光，未来处置惩罚器会如何紫薇家园设计？

訾伟兆来源：DoNews 2021-03-02 18:42

根据计划，AMD将在这个月正式公布代号“Milan”(米兰)的第三代霄龙7003系列数据中心处置惩罚器。

这款处置惩罚器基于7nm工艺、Zen3架构，最多64焦点128线程，支持八通道DDR4-3200内存、128条PCIe 4.0通道。

而在第三代产物还没有正式公布的时候，已经有推特博主已经了曝光了AMD第四代霄龙的焦点规格：

AMD第四代霄龙的焦点数量最多96个，线程数量最多196个，比现在增加整整50%，内部仍是chiplet小芯片结构，每颗8焦点，总计12颗，另外继续一颗IO芯片。内存方面，第四代霄龙支持新一代DDR5，最高频率达5200MHz，通道数也增加一半的到达12个。功耗设计最高320W，比现在增加40W，同时支持最高上调到400W(cTDP)。

接口首次更换为新的SP5 LGA6096，比现在的SP3 LGA4094增加多达2002个触点。

可以看出，未来的处置惩罚器焦点越来越多，带宽通道越来越高。可是单个芯片的规格却没有增加。

处置惩罚器从单焦点到多焦点，到众核，再到chiplet小芯片结构，完成了一轮轮进化。那么未来处置惩罚器会如何设计呢?我们来看一下。

单核频率的极限

盘算机最早泛起，是用于军事用途的科学盘算，用来破解密码，盘算弹道，做的是单纯的盘算任务。相当于一个大型的快速盘算器。

厥后，虽然盘算速度越来越快，人们发现盘算能力，可以应用于商业办公的字处置惩罚和信息治理，于是有了字处置惩罚软件和数据库软件，为了运行这些软件，利便开发(否则盘算机得从底层一步步开发一个软件做字处置惩罚或者信息治理)。就有了操作系统。

同时，盘算机硬件也逐步进化，从离开的独立元件，进化成了一个超大规模集成电路，也就是我们所熟悉的CPU。古老的盘算机是没有CPU的，是一大堆电子元件来完成今天CPU的功效。厥后集成电路生长，有了封装技术，才有我们看到的芯片。

最初的CPU都是单焦点的。厥后为了提高性能，搞多路并行，一开始是把一大堆单焦点的大型盘算机放到一起联网运行。

厥后，人们发现了多处置惩罚器的主板，在一块电路板上放置多个CPU，在主板上实现互联。

早期，处置惩罚器的进化偏向是提高频率，改善微架构。在摩尔定律下，这条门路最初很顺利。处置惩罚器从早期的1MHZ，8MHZ很快就提升到66MHZ、100MHZ。

而此时盘算机的用途越来越广，操作系统、应用软件、网络的泛起，让盘算机迅速从科学盘算、字处置惩罚、信息治理扩展到人类社会的各个层面。盘算机字处置惩罚软件替代纸笔、打字机，表格软件替代手工制表，财政软件替代手工记账，数据库系统替代纸质档案……

需求的指数级别增长，刺激技术快速生长，CPU从100MHZ到1Ghz只用了几年。到了2Ghz也很是快。

可是，很快频率提升就遇到瓶颈，4Ghz再往上就功率越来越大，提升越来越难。提升单核频率的门路到头了。

100MHZ到1Ghz只用了几年，而1Ghz到10Ghz至今看不到希望，如见最快的处置惩罚器就是官方睿频5Ghz多一点，20年前飞跃4超频记载是7Ghz。单核频率提升到头了。

从多焦点到众核

在高性能盘算领域，人们很早就用多处置惩罚器来提升性能，在操作系统和软件层面完成了对多线程处置惩罚的优化。

所以，在单焦点频率触摸到天花板之后，处置惩罚器开始了多焦点的进化。处置惩罚器搞多焦点，比主板上搞多处置惩罚器更佳，因为片内通讯比主板上多个处置惩罚器之间通信更快，延迟更低。

所以，很快CPU，就从单核生长到双核、四核、八核。在进化门路上，英特尔一度参考GPU的并行盘算搞过众核，把几十个性能弱一些的小焦点堆到一起来提升性能。在焦点之间建设一套高速的网络毗连，到达强大的总体性能。

可是，这种模式的应用规模很窄，仅限于能大规模并行的科学盘算，AI盘算，普通服务需要强大的单焦点性能，这种小焦点提供不了。

而真正需要大规模科学盘算和AI盘算，人们会购置更自制，小焦点更多，盘算能力更强的GPU去算。

这种众核就酿成了积累，搞大规模并行不如GPU性价比高，搞传统的服务器盘算，单焦点性能太弱小。

最后，英特尔停掉了众核的产物线，把技术用到大焦点的堆叠上面，这就是英特尔28焦点的至强处置惩罚器。

虽然，比并行盘算比不了GPU，是做传统的服务器运算，28焦点照旧很强大的。

chiplet小芯片的挑战

理论上，多个焦点堆到一块芯片内里，各个焦点的互联最快，性能最佳。可是多个焦点堆到一个芯片内里，会大大增加芯片的面积。

而芯片的面积与良率和成本密切相关，越大的芯片，造起来越难题。因为一块晶圆上的瑕疵是随机漫衍的，单个芯片越大，中招的概率越大，及格的芯片越少。所以，大芯片的价钱远远高于小芯片。

AMD对于多焦点的解决措施是chiplet小芯片，一块芯片上就放8个焦点(Zen2是4个焦点)，需要多焦点，我就把多块小芯片封装到一个基板上面，有些模块不需要7nm工艺，用14nm自制的工艺做，也封装到一起。

在基板上面封装，通信速度不如芯片内，可是比在主板上要佳许多。而单CPU主板，比多CPU主板要自制许多，这种中庸的解决方案，性能适中，价钱却要自制得多。

英特尔做高性能的28焦点处置惩罚器，得专门设计一个28焦点的架构，测试流片，成本极高。

而AMD用小芯片，理论性能弱一点，可是从条记本电脑到PC到服务器，只要测试生产一种焦点就够了。高端产物只要封装多个焦点，也有高性能，价钱就自制多了。

英特尔一看，固然也就学乖了，它在今年底公布代号Sapphire Rapids的第四代可扩展至强，用10nm Enhanced SuperFin制造工艺，Golden Cove CPU架构，也是MCM多芯封装，最多4颗小芯片、60焦点120线程(64焦点，屏蔽4个，提升良率)，集成最多64GB HBM2e高带宽内存，支持最多8通道DDR5-4800、80条PCIe 5.0，热设计功耗最高400W，接口换成新的LGA4677-X。

所以，未来一段时间，我们看到的高性能处置惩罚器，都市走chiplet小芯片技术，在基板上堆小芯片，甚至把内存也堆上去，提升性能，降低成本。

特别声明：本文为本站签约作者原创，文章版权归原作者及原出地方有。转载请联系本站专栏获取授权。(有任何疑问都请联系QQ:149451332)

本文地址： https://www.shandongxun.com