第2章大白话快速简单过一遍 Ai 大模型

大模型输入/大模型计算/大模型输出

大模型输入：分为两部分：分词/向量化。Token：处理的最小单位。向量化：将Token映射为向量。向量空间。

2-2 大模型的信息分析器：Transformer层

大模型计算层：Transformer层

1.词语组装
2.找出关键词语（语义分析）

2-3 大模型的大脑中枢：自注意力机制

1. 核心架构：Transformer层

大模型通过多层Transformer对输入文本进行逐层语义分析，将用户模糊的自然语言转化为可理解的结构化意图。

2. 处理流程

步骤	功能
分词	将输入文本切分为单词（含标点）
第一层Transformer	组装专有名词，识别词性（如"杯"是量词）
后续层Transformer	定位关键词语，推断指代关系

3. 语义分析的核心：自注意力机制（Self-Attention）

定义：大模型将更多的注意力放到关键的词语上，而不会去关注一些非关键的词语。

这是模型找到关键词语的核心算法，通过三把"钥匙"运作：

Query（查询）：待分析词语的特征（如"星巴克"的特征：品牌、咖啡场所、高价格等）
Key（键）：句中其他词语的特征（如"咖啡馆"的特征：喝咖啡的地方、轻音乐等）
Value（值）：计算出的关联权重

原理：Query与所有Key进行特征计算，权重越高，该词越关键。例如"星巴克"与"咖啡馆""杯"的权重高，从而推断"星巴克"指代的是咖啡饮料而非品牌或地点。

4. 向量空间计算

所有词语都用高维向量表示，语义相近的词语在向量空间中距离更近（如"星巴克"与"咖啡馆"距离近）。模型通过数学计算找出与关键词语距离都近的物体，完成语义推断。

5. 本质

大模型的"理解"本质是基于向量特征的数学运算，通过自注意力机制聚焦关键信息、忽略无关内容，最终解析用户真实意图。

2-4 大模型的回应咋就这么体贴

概率驱动的智能输出

本质：输出是一个"概率游戏"

大模型并非随机回复，而是基于概率分布选择最符合用户意图的输出。

举例说明

场景	用户输入	模型判断	输出结果
无修饰	"想要杯星巴克"	星冰乐、热美式、冷萃咖啡概率相近	随机输出三者之一
有修饰	"外面好冷，想要杯星巴克"	"热"是关键特征 → 热美式概率显著提升	大概率输出热美式

为什么显得"体贴"？

1. 捕捉隐含意图

用户说"外面好冷" → 模型推断出"想要热的"
不只是回答"要什么"，而是预判"为什么这样要"

2. 超越字面需求

用户要"行程规划" → 模型判断80%概率用户想要表格形式
于是直接输出Excel格式的行程表

3. 上下文敏感

同样的提示词，加入定语后输出概率会锁定在更精准的选项
不会今天推荐热美式、明天推荐冰沙

总结: 大模型的"体贴" = 通过关键词提取用户真实意图 → 计算各选项的条件概率 → 输出概率最高的、最符合情境的结果

它不是"懂人心"，而是用概率数学模拟了懂人心的效果。

2-5 大模型是弹药库，智能体则是武器

根据文件内容，核心总结如下：

大模型的能力与局限

当前大模型的本质

基于概率预测：通过海量数据训练，给出概率最高的答案（如"1+1=2"有99%概率）
擅长语义理解：能推断用户真实意图，提供延伸解决方案，像"知心小姐姐"

关键局限：不是真正的人工智能

期望的人工智能	实际大模型表现
自动感知用户爱好	需要用户主动提供购物清单
自主拆解步骤、比价、付款	只能给出流程建议，无法执行
主动完成购物全流程	仅停留在对话和知识提供

真正的人工智能：AI Agent（智能体）

底层逻辑：感知 → 决策 → 反馈 → 动作

模块	功能	承担者
感知	自主查询数据库/文件，了解用户偏好	AI Agent
决策	逻辑推理、给出建议	大模型
反馈	询问用户确认决策	AI Agent
执行	操作浏览器、APP、自动付款	AI Agent

核心结论: 大模型只是AI Agent的"大脑"（决策部分），真正的人工智能需要AI Agent来完成——它具备感知、决策、执行闭环，能自主行动而非仅对话。

总结: 大模型是"会说话的百科全书"，AI Agent才是"能干活的人工智能"。

第2章 大白话快速简单过一遍 Ai 大模型 ​

2-2 大模型的信息分析器：Transformer层 ​

2-3 大模型的大脑中枢：自注意力机制 ​

1. 核心架构：Transformer层 ​

2. 处理流程 ​

3. 语义分析的核心：自注意力机制（Self-Attention） ​

4. 向量空间计算 ​

5. 本质 ​

2-4 大模型的回应咋就这么体贴 ​

2-5 大模型是弹药库，智能体则是武器 ​