一、CPU性能的基本三角:主频、IPC、核心数

要理解M5和M4的性能差异,首先得理解CPU性能是怎么构成的。最经典的公式是:

性能 ≈ 主频 × IPC × 核心数

这三个因素共同决定了一颗CPU能做多少事。我们逐个来看。

1. 主频(Clock Speed / Clock Frequency)

主频的单位是GHz(吉赫兹),本质上描述的是CPU内部时钟每秒钟"滴答"多少次。M4的主频是4.46 GHz,意味着它的时钟每秒跳动44.6亿次;M5是4.61 GHz,每秒跳动46.1亿次。

你可以把它想象成一个工厂的传送带速度。传送带转得越快,单位时间内通过的工件就越多。但关键在于—— 传送带的速度并不等于工厂的产出 ,因为你还得看每次传送带转一圈,工人能完成多少道工序。这就引出了IPC。

2. IPC(Instructions Per Cycle,每周期指令数)

IPC衡量的是CPU每个时钟周期内能执行多少条指令。这是芯片 微架构设计 水平的直接体现。

还是用工厂类比:主频是传送带速度,IPC就是每次传送带转一圈时,工人能同时完成几道工序。如果工厂做了流水线优化(比如一个工人原来一次只能拧一颗螺丝,现在给了他更好的工具可以同时拧两颗),那即使传送带速度不变,产出也翻倍了。

M5相对M4的IPC提升约10%,这意味着在同样的主频下,M5每个周期能完成的工作量多了10%。加上主频从4.46提升到4.61 GHz(约3.4%的提升),综合下来单核性能就提升了约15%。

那位博主说"主频才是影响体验的最直接因素",在上世纪90年代到2000年代初可能是对的(那时候Intel和AMD主要靠拉高主频来提性能),但从2005年左右开始,由于功耗和散热的物理瓶颈(所谓的"频率墙"),芯片厂商的主要优化方向早就转向了IPC提升和多核扩展。

3. 多核扩展(Multi-core Scaling)

既然单核频率很难大幅提升,现代CPU就走"多核"路线——一颗芯片里塞多个核心,让它们并行工作。但多核并不是简单的"核心数×单核性能=总性能",因为多个核心之间需要共享数据、协调任务,这会产生通信开销。

M5的多核性能比M4提升了约25%,明显超过单核15%的提升幅度。这说明Apple不仅提高了单个核心的能力,还优化了核心之间的数据共享机制(主要通过改进缓存和总线设计)。


二、缓存体系:为什么L2 Cache如此重要

4. L2 缓存(L2 Cache)

要理解缓存的价值,先得理解一个核心矛盾: CPU的计算速度远远快于内存的读取速度

打个比方:CPU就像一个极其聪明的厨师,他一秒钟能切100刀;但食材(数据)是从仓库(主内存DRAM)运过来的,仓库离厨房很远,每次送一趟要花好几秒。如果厨师每切一刀都要等仓库送食材,他90%的时间都在等待。

缓存就是在厨房旁边放的小冰箱、台面上的菜板——容量小,但离厨师极近,拿取几乎不需要等待。

现代CPU通常有三级缓存:

L1 Cache 是最快的,就贴在CPU核心旁边,容量最小(通常几十KB),延迟约1-2个时钟周期。就像厨师手边的菜板,最常用的食材直接放上面。

L2 Cache 比L1大但稍慢一点(通常几百KB到几MB),延迟约10-20个周期。像厨房旁边的小冰箱。M4的L2 Cache总共20MB,M5增加到28MB——这40%的容量提升意味着更多数据可以就近存放,减少去主内存"跑仓库"的次数。

L3 Cache (也叫Last Level Cache)更大更慢,被所有核心共享,通常几十MB。

对于AI推理来说,模型权重矩阵非常大,缓存越大,能在本地"暂存"的模型参数越多,需要从主内存反复读取的次数越少,运算速度就越快。这就是为什么分析文章说M5的缓存改进是"Apple的秘密武器"。

5. 前端带宽(Front-end Bandwidth)

CPU的工作流程大致可以分为两个阶段:“前端”(Front-end)负责从内存/缓存中取出指令并解码,“后端”(Back-end)负责实际执行这些指令。

你可以把前端想象成餐厅的接单员,后端是厨师。如果接单员每分钟只能接10张单子,即使厨房有能力同时做20道菜,产能也被瓶颈在接单环节。

“更宽的前端带宽"意味着CPU每个时钟周期能取出和解码更多指令,从而更充分地喂饱后端的执行单元。M5加宽了前端,让后端的多个执行管道能更好地保持满载运行,这也是IPC提升的重要来源之一。


三、内存系统:统一内存架构与内存带宽

6. 统一内存架构(Unified Memory Architecture, UMA)

传统PC架构中,CPU和GPU各有各的内存。CPU用DDR内存,GPU用自己的显存(VRAM)。当GPU需要处理CPU准备好的数据时,数据必须先从CPU的内存复制到GPU的显存,这个复制过程有延迟和带宽限制。

Apple Silicon的创新之处在于:CPU、GPU、Neural Engine共享同一个内存池。数据就放在那里,谁需要谁直接去读,不需要复制。

你在学Transformer时知道,推理过程中模型权重要同时被GPU(做矩阵乘法)和可能的Neural Engine(做特定加速运算)访问。在统一内存架构下,权重只需要在内存中存一份,CPU、GPU、Neural Engine都可以直接访问,省去了数据搬运的开销。

这也是为什么Apple设备上16GB的体验可能接近Windows笔记本24-32GB的原因:传统架构下,系统内存和显存是分开分配的(比如16GB系统内存+8GB显存),而Apple的16GB是CPU和GPU共享使用的,利用率更高。

7. 内存带宽(Memory Bandwidth)

内存带宽衡量的是每秒钟能从内存中读写多少数据,单位是GB/s。M4的带宽是120 GB/s,M5提升到153.6 GB/s。

LLM推理分为两个阶段:Prefill(预填充,处理整个输入prompt)和Decode(逐token生成)。Decode阶段的瓶颈主要是 内存带宽 ,因为每生成一个token,都需要从内存中读取整个模型的权重。

举个具体的例子:假设一个7B参数的模型用4-bit量化存储,大约占3.5GB。每生成一个token,理论上需要读取这3.5GB的权重。在120 GB/s带宽下,单次读取需要约29ms;在153.6 GB/s下,只需约23ms。这直接决定了你本地跑LLM时每秒能生成多少个token。

8. LPDDR5X

这是内存的具体规格标准。LPDDR代表"Low Power Double Data Rate”(低功耗双倍数据速率),是手机和笔记本电脑常用的省电型内存标准。5X是第五代的增强版本。

M5使用的是LPDDR5X-9600,其中9600代表每秒9600 MT/s(Mega Transfers per second,百万次传输/秒)。带宽的计算方式是:传输速率 × 总线宽度 ÷ 8。具体到M5的153.6 GB/s,就是通过这个规格和总线宽度算出来的。你不需要记住公式,只需理解数字越大,数据搬运越快。


四、GPU与AI加速:Neural Accelerator和Tensor Core

这部分和你的AI应用工程学习直接相关。

9. 矩阵运算(Matrix Multiplication)

你学过Transformer中Self-Attention的核心运算:Q × K^T 得到注意力分数,再乘以V得到输出。这本质上全是矩阵乘法。整个Transformer——无论是Attention层还是FFN层——归根结底都是大量的矩阵乘法加上激活函数。

GPU之所以比CPU更适合跑这类运算,是因为矩阵乘法天然可以高度并行化。一个矩阵里有成千上万个元素,每个元素的计算可以独立进行。GPU有成百上千个小核心,每个核心同时处理一个元素的运算,这就是GPU在AI领域碾压CPU的根本原因。

10. Tensor Core(张量核心)/ Neural Accelerator(神经加速器)

标准的GPU核心(shader core / 着色器核心)是通用的——它可以做任何浮点运算,包括图形渲染和通用计算。但对于AI模型中最常见的运算模式——矩阵乘法(也叫张量运算),标准GPU核心其实并不是最高效的。

NVIDIA率先在其GPU中加入了"Tensor Core",这是专门为矩阵乘法设计的硬件单元。一个Tensor Core在一个时钟周期内可以完成一次小矩阵乘法(比如4×4的矩阵乘法),而普通GPU核心要完成同样的运算需要多个时钟周期。

Apple在M5中做了类似的事情,只不过他们叫"Neural Accelerator"。M5的每个GPU核心内部都嵌入了一个Neural Accelerator,专门加速矩阵乘法运算。

打个比方:普通GPU核心像一个万能工人,什么活都能干,但每种活的效率都一般;Neural Accelerator像一个专门训练过的矩阵运算专家,只干一种活但效率极高。把它嵌入每个GPU核心,就等于给每个万能工人都配了一个矩阵运算专家助手。

这就是为什么M5的AI GPU计算性能是M4的4倍以上——不是因为GPU核心数或频率翻了4倍,而是每个核心内部新增了专用的矩阵运算硬件。

11. LLM推理(Inference)

你可能已经了解,但我还是完整梳理一下。机器学习有两个阶段:训练(Training)和推理(Inference)。训练是让模型学习,推理是让训练好的模型工作。当你在本地用MacBook跑一个LLM模型和它对话,这个过程就是推理。

推理又分两步,我前面提过:

Prefill阶段 :模型一次性处理你输入的整个prompt。这是计算密集型(compute-bound),瓶颈在GPU的计算能力。Neural Accelerator在这个阶段发挥巨大作用,因为需要做大量矩阵乘法。

Decode阶段 :模型逐个生成输出token。每生成一个token,需要读取所有模型权重。这是内存带宽密集型(memory-bandwidth-bound),瓶颈在内存带宽。所以M5的153.6 GB/s带宽在这个阶段有直接好处。

12. Diffusion模型

这是另一类AI模型,主要用于图像生成(如Stable Diffusion、DALL-E的底层架构)。

原理简单说:给一张正常图片不断加噪声,直到变成纯噪声;然后训练一个神经网络学会"去噪"——从噪声中逐步还原出清晰图片。生成图片时,就从一堆随机噪声开始,让模型一步步去噪,最终"变出"一张图。

Diffusion模型的推理过程需要执行几十步的去噪操作,每一步都涉及大量矩阵运算,所以GPU的性能(尤其是Neural Accelerator的加速能力)对生成速度影响很大。

13. GPU量化得分(Quantized Score)

这是Geekbench AI基准测试中的一个指标。“量化”(Quantization)在这个语境下指的是将AI模型的权重从高精度浮点数(如FP32,32位浮点)压缩到低精度格式(如INT8,8位整数或INT4,4位整数)。

量化后的模型体积更小、计算更快,但理论上会损失一点精度。在实际的本地LLM推理中,几乎所有人都在用量化模型(比如你在Mac上用llama.cpp跑的模型通常是Q4或Q5量化的),所以"量化得分"比全精度得分更能反映实际体验。

M5的GPU量化得分约23628,M4约11616——这基本翻倍的差距,直接对应的就是你本地跑量化LLM时的速度差异。


五、芯片制造与封装

14. 3nm制程(3-nanometer Process)

制程指的是芯片上晶体管的最小尺寸。3nm意味着晶体管的关键尺寸约为3纳米(1纳米=十亿分之一米)。制程越小,在同样面积的硅片上能塞进更多晶体管,芯片就能更强大或更省电(或两者兼得)。

实际上,现代"3nm"更多是一个商业命名而非严格的物理尺寸。但核心逻辑是对的:更先进的制程 = 更高的晶体管密度 = 更好的性能功耗比。

M4和M5都使用TSMC(台积电)的3nm工艺,但M5使用的是第三代3nm(N3P或类似的改进版本),在同样的"3nm"名义下做了优化,允许更高的频率或更低的漏电流。

15. Fusion Architecture(融合架构)—— 双Die封装

这是M5 Pro和M5 Max引入的新设计,对于理解现代芯片设计趋势很有意义。

“Die”(裸片)就是一块实际的硅芯片。传统上,一颗SoC(System on Chip,系统级芯片)就是一个Die,CPU、GPU、内存控制器全部集成在一块硅片上。

但随着芯片越做越大,一个Die会遇到良率问题——硅片上有任何一个缺陷,整颗芯片就报废了。Die越大,碰到缺陷的概率越高,良品率就越低,成本就越高。

Fusion Architecture的做法是:把芯片分成两个较小的Die,分别制造(良率更高),然后用先进封装技术把它们粘在一起,通过高带宽低延迟的互连通道让它们像一颗芯片一样工作。Intel叫这种技术Foveros,AMD叫3D V-Cache/chiplet设计,Apple现在叫Fusion Architecture。

本质思路都一样: 用多个小芯片拼出一个大芯片的性能,同时保持良率和成本可控 。M5 Pro和M5 Max就是用两个3nm Die拼成的,这让它们能塞进18个CPU核心和最多40个GPU核心。


六、连接性相关术语

16. Wi-Fi 7 和 Bluetooth 6

简单提一下。Wi-Fi 7(802.11be)是最新一代Wi-Fi标准,理论最高速度超过40 Gbps,支持320 MHz频道宽度和多链路操作(MLO)。对你来说最实际的好处是:在你团地的拥挤无线环境下,Wi-Fi 7的低延迟和抗干扰能力会明显优于Wi-Fi 6E。

Bluetooth 6改进了范围、速度和功耗效率,对AirPods等设备的连接稳定性有帮助。

这些都是通过Apple新的N1无线芯片实现的——这是Apple首次用独立芯片来处理无线连接,把这个功能从主SoC中分离出来,以获得更好的射频性能。


七、把这些概念串起来:一次LLM推理在硬件上发生了什么

让我用一个具体场景帮你把所有概念连成一条线。假设你在M5 MacBook上用MLX框架本地运行一个7B参数的量化LLM,你输入了一个prompt:

第一步 :你的prompt被tokenizer分词,CPU处理这一步(利用更高的IPC和主频快速完成)。

第二步(Prefill) :整个prompt的token embedding需要通过模型的所有层。每一层的Attention和FFN运算本质上是大量矩阵乘法。GPU接管这个任务——10个GPU核心并行工作,每个核心内的Neural Accelerator专门加速矩阵乘法。模型权重从统一内存(LPDDR5X,153.6 GB/s带宽)载入GPU核心附近的缓存。由于统一内存架构,不需要CPU→GPU的数据搬运。

第三步(Decode) :模型开始逐token生成回复。每生成一个token,都需要重新读取模型权重(如果用KV Cache,可以避免重新计算之前token的K/V,但权重本身每次都要读)。这时瓶颈在内存带宽——153.6 GB/s决定了每秒能生成多少token。更大的L2 Cache(28MB)在这里也有帮助,热门的权重块可以驻留在缓存中,减少主内存访问。

第四步 :生成的token被CPU接收,解码回文字显示在屏幕上。

整个过程中,CPU的IPC和主频影响了第一步和第四步,GPU的Neural Accelerator决定了第二步的速度,内存带宽和缓存决定了第三步的速度。所以说"只看主频"和"GPU提升没用"是非常片面的判断。