大家都知道苹果有两大自研芯片系列:面向手机iPhone的A系列(最新款是A16)和面向MacBookAir、MacMini、MacBookPro、iMac甚至iPadPro芯片的M系列,在性能上分别吊打移动领域王者高通骁龙和PC领域的老牌霸主英特尔AMD。苹果是因为什么样的勇气,让自研CPU这么强?捅破天的A16仿生处理器 苹果每年9月都会举办新品发布会,最亮眼的便是最新iPhone系列发布。苹果正在依靠配置和设计差异给新品分层,今年的iPhone14系列沿用了上代iPhone的A15仿生处理器,虽然A15性能也算强劲,但果粉很难忽略它是上代芯片的事实,iPhone14Pro系列上的A16仿生处理器才是王炸。 当我们谈论新iPhone配置升级,我们主要在谈论什么?显然,最重要的是芯片和拍照。iPhone14Pro系列上的A16仿生处理器,性能参数了解一下:采用台积电4nm工艺制程,功耗相比A15降低20,过去大家诟病的发热情况应该也能极大改善(参考高通骁龙8Gen1);集成了160亿个晶体管,采用6核中央处理器、5核图形处理器;A16的6核CPU相比A15的性能提升了42,GPU性能提升了35,显存带宽提升50;NPU拥有16个核心,可实现每秒17万亿次运算 图源:Apple官网 博主钟文泽对iPhone14Pro系列的A16仿生芯片测试结果如下: 在Geekbench5中,A16仿生芯片单核1875分,多核5454分,A15仿生芯片单核成绩1731,多核成绩4758。从成绩来看,A16对比上一代A15芯片,虽然有点挤牙膏式创新的嫌疑,但遥遥领先安卓阵营,堪称捅破天。作为对比,安卓阵营骁龙8单核成绩不到1400分,多核成绩在4300分左右。 此外,A16搭载先进的图像信号处理器,驱动四合一像素传感器带来广阔的创作空间,其搭载的神经网络引擎运算能力接近每秒17万亿次,可逐颗像素分析并优化照片。值得注意的是,苹果A16芯片拥有安全隔区,守护用户的面容ID数据、通讯录等个人信息安全。性能炸裂的M1M2系列 苹果自研M1芯片于2020年末发布,它被塞进了MacBookAir、MacMini、MacBookPro、iMac甚至iPadPro里。之后,以M1芯片为构架基础的M1Pro与M1Max全面替代了之前苹果笔记本里的CPU。在很多性能测试跑下来,不到13的功耗即可获得与传统电脑同样的性能,让消费者大赞。2022年3月发布的M1系列的最高型号M1Ultra,性能与Intel刚刚发布的12900K桌面处理器不分伯仲。 M1芯片在执行任务时有哪些优势? 苹果是从2004年起把自家笔记本的CPU从IBM的Power系列换到了Intel的酷睿系列,原因是Intel的CPU的性能功耗比远超过IBM。2020年,苹果又完全舍弃Intel,用上了自己的CPU,原因如出一辙,自研CPUM1系列在性能功耗上比Intel好一大截。 本质上,苹果M1系列CPU与Intel酷睿系列和AMD的Zen3系列,构架上高度类似,但为什么M1会强那么多? CPU在执行任务时,会遵循取指令指令译码指令执行对内存的读取结果写回这5个步骤进行。取指令这个步骤中,取来的指令会放在一级缓存里,所以如果一级缓存够大,就有利于CPU提高性能。M1的一级缓存是192KB,比Intel和AMD的32KB大了5倍。指令译码是将外部指令翻译成CPU可以看懂的语言。数量上,M1设置了8个解码器,Intel酷睿是5个,AMDZen3是4个。这3款CPU内部都运行RISC指令(精简指令集,每一条的长度、执行时间固定,不能太复杂,如果要完成复杂动作,需要堆叠多条RISC指令)。而苹果M1输入CPU的指令RISC指令,Intel酷睿和AMDZen3是X86指令(CISC指令,复杂指令集,长度不固定、执行时间也不固定,可用一条指令执行较复杂的任务,而不用堆叠好多条)。显而易见,Intel和AMD的CPU比苹果M1多出一道把CISC翻译成RICS的手续,耗能、耗时间。指令执行的执行单元越多,速度越快,整体性能越高。以浮点运算这个当今对性能影响最直接的指标来看,M1、Intel和AMD规划了一样多的资源,2个256bit的执行单元。但寄存器(临时存放整数和浮点部分的单元),M1更强,是一个354384的结构,而Intel是180168,AMD是192168。苹果M1规划了巨大的二级缓存资源,每个核心都布设了3MB的二级缓存。Intel是每核心1。25MB,AMD是每核心0。5MB。二级缓存大,意味着有更多的将被使用的指令可以提前预备好,送进CPU的速度更快。M1通过集成更大的缓存降低延迟,而传统CPU靠读取内存条,速度自然就满了。苹果M1拉大了与传统CPU内存带宽上的差距。M1Ultra可以达到800GBs,M1Pro和M1是200GB,而Intel和AMD大约只能有50GBs60GBs。于是,在高清视频剪辑这种每秒都有几十GB实时数据传递的任务里,苹果笔记本的处理效率就非常高。当我们在2022年6月7日,苹果在WWDC发布会上发布了自己的M2处理器。相比M1处理器的那次发布会来说,M2的影响要小得多。但我们还是可以从M2的应用和介绍中,看出苹果公司的产品思路和半导体行业的突破方向。 M2处理器的规格和背后的含义 今年6月,苹果在WWDC(全球开发者大会)上发布了自研的M2处理器。M2采用台积电第二代5nm工艺,从N5工艺升级到N5P工艺,在相同的功耗下,第二代比第一代性能强5。 这种提升算大还是算小呢?2012年之前,设计功耗相同的情况下,下一代产品性能提升2550;即便在后来性能挤牙膏的年代,下一代比上一代性能提升10是一个及格的门槛。是什么因素让苹果有勇气将不到及格门槛的提升,当作下一代产品发布? 勇气来自M2处理器的晶体管数量。M2的晶体管数量是200亿,M1是160亿,数量上提升了25。再叠加工艺上5的提升,综合起来性能比M1提升了18。 神经引擎的数量,M1和M2都是16个核心,但M2的速度快了40,提升较大,很可能与频率的提升有关。 新增加的40亿个晶体管都增加在哪里了呢?主要是两方面图形核心从8个增加到10个,提升了25;内存从16GB提升到24GB。因此,M2实际上就是扩大版的M1。 苹果的发布会上还提到了,M2和最新的其他品牌的10核心CPU相比,在15瓦功耗下,性能是对方的1。9倍。而如果对比峰值性能,那个10核CPU功耗在30瓦时释放的性能,对M2来说,只需要不到8瓦就能实现。听起来好像是M2优势炸裂,但实质上这些优势主要源于M1的性能提升,M2相比M1来说,只有微小的改进,也就是由那5的工艺改进带来的提升。而前一代处理器M1在能耗表现上为什么那么出色,一是M系列处理器不计成本的堆料,从而获得了超级性能,二是在指令翻译过程中利用格式统一的优点节省了大量能耗。苹果处理器为什么敢不计成本地堆料? Intel和AMD的CPU一直以来都在比拼最高性能,有时甚至不惜让功耗增加一倍换来性能10左右的提升。这就导致了一种现象的出现,内置IntelAMDCPU内核的笔记本,插上电源和不插电源的时候,性能会相差3040。在插上电源时,系统按最大性能运行;而只用电池续航时,系统会强制CPU和GPU以低频、低压运行,性能巨幅下降。 使用M1构架的苹果笔记本完全不存在这样的设定,用电池和用电源时的性能都完全一样,可以不用带电源适配器,办公一整天也绝对保证续航。 CPU的性能优劣,并不是靠在某个环节上猛堆料实现的。因为计算过程是一条流水线,线上任何一点的瓶颈都决定了CPU的最大性能。M1比传统CPU好就好在,它在任何环节都堆了猛料。 一分钱一分货,苹果M1堆料的结果就是,这颗CPU的成本要比Intel和AMD的贵上几倍到十几倍。业内分析,M1Ultra的制造成本在350美元左右,而Intel和AMD顶级CPU的成本也就只有几十美元。 为什么苹果敢做这么贵的CPU?本质是因为苹果卖整机而不卖CPU。 如果Intel和AMD的CPU制造成本就要350美元的话,研发成本假设按50美元颗计算,总成本就是400美元,售价估计直奔2000美元。而今天市场上,最畅销的CPU型号的售价普遍在200400美元之间。所以,Intel和AMD都不会规划那么豪华的构架。 苹果高价位只卖整机,50008000美元一台,在最关键部件分配350美元成本是合理的。 苹果处理器的发展方向 WWCD发布会上还透露,M2的进阶款,也就是M2Pro、M2Max会在之后量产,而且工艺会提升到3nm。台积电给出的参照是,3nm对应的N3工艺,它在同功耗下的性能比N5P提升1015。仅从这一点看,就已经是比较可观的提升了。 只卖成品笔记本、平板或者手机的苹果,可以通过M1构架的不断堆叠,堆2倍、堆3倍、堆7倍,从移动端到笔记本再到台式机再到一体机,各种平台通用。通过大幅度地使用一款基础产品,通过扩大规模来平移到各个产品之中,进一步压缩研发费用,这一点也只有苹果可以做到。 我们是否可以期待苹果的M系列处理器的飞跃式的提升吗?答案似乎是否定的。预测在苹果的有生之年,处理器的提升将会一直是稳步小幅的态势。今后的M2、M3、M4相比前一代的提升,大约都会与M2较M1的提升类似,成品状态下最多提升25。当前的苹果自研CPU是根据自身需求高度定制化的,其他厂商已经全都不能满足苹果的要求了。而自研的处理器从2020年量产后,就马上应用到苹果几乎全部的主力产品。目前,其他处理器在功耗比上大幅超越苹果的可能性几乎没有,苹果即没有市场需求也缺乏自身动力来推动处理器性能大幅提升。半导体行业的突破 从苹果M2映射出的半导体行业工艺改进对处理器性能提升的作用变得越来越小了。在2012年之前的五十多年里,整个行业基本遵循摩尔定律,维持每18个月晶体管密度提升100的速度。而2020年之后,最好情况是每18个月提升30,未来,这个提升的速度今后还会越来越慢。留给传统材料的半导体在工艺上可改进的空间已经不多了。 以台积电为例,从2020年末量产5nm到2022年末量产3nm,24个月里,晶体管密度从1。73亿平方毫米提升到2。9亿平方毫米,相当于每18个月提升29。按台积电的规划,2nm会在2025年末量产,相比于3nm的2022年末正好是36个月,2nm的晶体管密度是4。9亿平方毫米。从3nm升级到2nm的速度,相当于每18个月提升34。这是全球半导体工艺水准最好的台积电的水平,三星和英特尔的速度低于30。 半导体行业飞跃式的突破,只有在换用其他材料做处理器的开关管后才能发生。我们期待新一代半导体材料为行业带来突破。