AIFundamentals

LLM 的“心口不一”: 理解 LLM 行为的一把万能钥匙

本文用 hidden state 与 token 之间的带宽鸿沟，统一解释 Chain of Thought、prompt 长度、few-shot、性格漂移与幻觉等 LLM 工程现象。

从数据管线、Scaling Law、系统约束、合成数据、蒸馏、后训练、评估体系到 Agent 训练，系统梳理大模型训练全链路，并解释这些机制如何影响 AI 应用工程师的模型选型、评估与 harness 设计。

本文把交叉熵、Perplexity、Temperature、条件熵、幻觉检测和 Prompt 约束串成一条主线，解释熵如何成为理解 LLM 训练、推理和产品设计的统一语言。文章也从 RAG 和工程治理视角说明了熵的实际价值。

KV Cache 是连接「Transformer 理论」和「LLM 工程部署」的一个关键概念。理解它，你就打通了从「模型怎么算」到「模型怎么跑」的最后一环。

理解什么是LLM Chain-of-Thought (CoT)，以及如何进行 prompt engineering触发 LLM的Chain-of-Thought (CoT)

此文使我（也许也可以使你）更加深刻地理解transformer的基本原理，告别对当前主流LLM的黑箱式理解。cheers！