第三部分

AI工作原理

探索人工智能的核心机制，从机器学习基础到深度神经网络，揭开AI背后的数学与算法奥秘

机器学习基础

机器学习的三大范式：监督学习、无监督学习与强化学习

监督学习

使用带标签的数据进行训练，模型学习输入与输出之间的映射关系

分类回归目标检测

输入数据

模型训练

预测标签

无监督学习

从无标签数据中发现隐藏的模式和结构，无需人工标注

聚类降维异常检测

原始数据

模式发现

数据分组

强化学习

智能体通过与环境交互，根据奖励信号学习最优策略

游戏AI 机器人自动驾驶

观察状态

执行动作

获得奖励

特性	监督学习	无监督学习	强化学习
数据要求	需要标注数据	无需标注	环境交互数据
学习目标	输入输出映射	数据内在结构	最优决策策略
典型应用	图像识别、翻译	客户分群、推荐	游戏、机器人
反馈方式	即时正确标签	无直接反馈	延迟奖励信号

神经网络可视化

从生物神经元到人工神经网络，探索深度学习的核心架构

神经网络游乐场

总参数 0

层数 3

隐藏层数 2

每层神经元 4

激活函数

神经网络由输入层、隐藏层和输出层组成。每层包含多个神经元，神经元之间通过权重连接。调整参数观察网络结构如何变化。

从生物神经元到人工神经元

生物神经元

树突接收信号，胞体处理，轴突输出

人工神经元

加权求和 + 激活函数 = 输出

深度网络

多层神经元堆叠，学习复杂特征

激活函数可视化

激活函数为神经网络引入非线性，使其能够学习复杂的模式

ReLU

f(x) = max(0, x)

最常用激活函数，计算简单，缓解梯度消失

Sigmoid

f(x) = 1/(1+e^(-x))

输出范围(0,1)，适合二分类问题

Tanh

f(x) = (e^x - e^(-x))/(e^x + e^(-x))

输出范围(-1,1)，零中心化，收敛更快

GELU

f(x) = x * Φ(x)

Transformer模型首选，平滑非线性

Transformer架构

现代大语言模型的核心架构，革命性的自注意力机制

第一步：输入处理

将人类语言转换为模型能理解的数字表示

分词(Tokenization)

"我爱AI" → [我, 爱, AI]

作用：将文本拆分成模型认识的最小单元

词嵌入(Embedding)

Token → 768维向量

作用：为每个词赋予语义向量，相似词距离更近
如何学习：模型在训练时通过上下文预测任务，自动学会让出现在相似语境的词拥有相似向量
例子："猫"和"狗"常出现在相似语境（宠物、叫声、动物等），所以它们的向量接近

"猫" → [0.2, -0.8, 0.5, ...]

"狗" → [0.3, -0.7, 0.4, ...]

"电脑" → [0.9, 0.1, -0.3, ...]

猫和狗的向量距离近，语义相似

位置编码

PE(pos,2i) = sin(pos/10000^(2i/d))

作用：告诉模型每个词在句子中的位置（因为Attention本身不看位置）

第二步：Encoder 编码 ×N

理解输入序列中每个词与上下文的关系

Encoder Layer

Multi-Head Self-Attention

8个注意力头，每个头的维度 d_k=64

作用：让每个词"看"整个句子，决定应该关注哪些词
示例："它"会重点关注"猫"，因为语义上相关

Add & Norm

残差连接：输入与输出相加，防止梯度消失

Feed Forward Network

Linear(768→3072) → ReLU → Linear(3072→768)

作用：对每个位置的表示进行非线性变换，提取更复杂的特征

Add & Norm

层归一化：稳定训练过程

Layer 2~N

重复相同的结构，层层递进理解

第三步：Decoder 解码 ×N

根据已生成的内容和Encoder的理解，逐词预测下一个词

Decoder Layer

Masked Self-Attention

防止看到未来位置

作用：只让模型看到已经生成的词，不能偷看答案
原因：训练时用真实标签，推理时用自己生成的

Add & Norm

Cross-Attention

Query来自Decoder，Key/Value来自Encoder

作用：让decoder能"看到"输入的信息，实现翻译/对话
示例：翻译时，生成"cat"时关注原句中的"猫"

Add & Norm

Feed Forward Network

与Encoder结构相同

作用：对预测进行最后的特征提取

Add & Norm

Layer 2~N

重复相同的结构

第四步：输出生成

将预测结果转换为可读的Token

线性层

768 → 词表大小(50000+)

作用：将高维表示投影到词表空间，得到每个词的概率得分

Softmax

转换为概率分布

作用：将得分转为概率（和为1），使输出更平滑

采样/选择

选择概率最高的Token

作用：根据概率选择下一个词（贪心或随机采样）

并行计算

自注意力机制允许完全并行处理，训练效率远超RNN

长距离依赖

任意位置之间直接连接，解决了长序列依赖问题

可扩展性

通过堆叠更多层和增加维度，可以构建更大更强的模型

自回归生成

Decoder逐token生成，每个位置能看到之前所有内容

完整工作流程示例

输入：

"我爱 AI" (中文翻译成英文)

编码：

Encoder理解"我""爱""AI"之间的关系

解码：

Decoder逐词生成：I → love → AI

输出：

"I love AI"

核心组件详解

自注意力机制

让模型在处理每个词时，都能关注到输入序列中的所有位置，并分配不同的注意力权重

Attention(Q,K,V) = softmax(QK^T/√d_k)V

多头注意力

使用多组不同的Q、K、V投影，让模型同时关注不同方面的信息，增强表达能力

位置编码

为序列中的每个位置添加唯一标识，让模型理解词序信息，无需递归结构

我 [0.0, 1.0, ...]

喜欢 [0.8, 0.6, ...]

AI [0.9, 0.4, ...]

残差连接与层归一化

将输入直接连接到输出，缓解梯度消失问题，使深层网络训练成为可能

Output = LayerNorm(x + Sublayer(x))

注意力权重可视化

猫坐在垫子上因为它很舒服

低注意力

高注意力

点击词查看注意力

点击句子中的词，查看模型在处理该词时对句子其他部分的关注程度。注意"它"与"猫"之间的强关联。

训练过程解析

从原始数据到智能模型，了解AI是如何"学习"的

数据收集与预处理

收集海量文本、图像或其他数据，进行清洗、标注和格式化处理

清洗

标注

分词

训练集

模型初始化

构建网络架构，使用Xavier或Kaiming方法随机初始化权重参数

权重矩阵 W (4×3)

Xavier初始化

W ~ U(-√(6/(n_in+n_out)), √(6/(n_in+n_out)))

前向传播 (Forward Pass)

数据通过网络层层计算，经过线性变换和激活函数，得到预测输出

x₁x₂x₃

输入

W·x+b

h₁h₂h₃h₄

隐藏层ReLU

W·h+b

y₁y₂

输出Softmax

计算损失 (Loss)

比较预测结果与真实标签，使用交叉熵损失函数量化误差

预测值 ŷ

猫0.65

狗0.25

鸟0.10

L = -log(ŷ_正确)

= -log(0.65) = 0.43

真实值 y

猫 ✓

反向传播 (Backpropagation)

从输出层向输入层传播误差，利用链式法则计算每个参数的梯度

输出层∂L/∂y

←

隐藏层2∂L/∂h₂

←

隐藏层1∂L/∂h₁

←

输入层∂L/∂x

∂L/∂W = ∂L/∂y · ∂y/∂h · ∂h/∂W

参数更新 (Optimizer)

使用优化器根据梯度更新权重，Adam是最常用的优化器

Adam优化器

m = β₁m + (1-β₁)∇L

v = β₂v + (1-β₂)∇L²

w = w - α·m/√v

β₁=0.9, β₂=0.999, α=0.001

w_old = 0.23

→

∇L = -0.05

→

w_new = 0.28

迭代优化直至收敛

重复上述过程数百万次，监控训练/验证损失，直到模型收敛

训练过程中，验证损失从高于训练损失逐渐接近，两线越接近说明模型泛化能力越好

训练验证

0 / 100 epochs

训练进度

少

多

- 训练损失

- 验证损失

- 准确率

什么是训练损失和验证损失？

📚

想象你在准备高考：

训练损失 = 做练习册时的错误率（你反复练习过的题目）
验证损失 = 模拟考试的错误率（你没见过的新题目）

✅ 理想情况

两条曲线都很低且接近 → 你真正掌握了知识，遇到新题也能做对

⚠️ 过拟合

训练损失很低，验证损失很高 → 你在"背答案"，遇到新题就不会了

什么是"收敛"？

🎯

想象你在练习投篮：

刚开始，你的投篮位置离篮筐很远（损失很高）。每次练习后，你都会调整姿势，慢慢靠近篮筐。当你连续多次投篮都稳定命中时，就说明你"收敛"了——找到了最佳姿势。

模型收敛的信号：

损失曲线变得平缓，不再明显下降
训练损失和验证损失趋于稳定
模型性能指标（如准确率）达到预期

训练 vs 推理

训练阶段

需要大量标注数据
计算梯度并更新参数
需要高性能GPU集群
耗时数天到数月
产出：模型权重文件

推理阶段

只需要输入数据
前向传播，不更新参数
可在普通设备运行
毫秒级响应
产出：预测结果

关键概念

学习率 (Learning Rate)

控制参数更新的步长，太大不稳定，太小收敛慢

批次大小 (Batch Size)

每次迭代使用的样本数，影响训练稳定性和速度

Epoch

完整遍历一遍训练数据称为一个epoch

过拟合与正则化

防止模型过度记忆训练数据，提高泛化能力

上一章 AI发展历史

下一章主流AI大模型