第2章 大白话快速简单过一遍 Ai 大模型
大模型输入/大模型计算/大模型输出
大模型输入:分为两部分:分词/向量化。Token:处理的最小单位。向量化:将Token映射为向量。向量空间。
2-2 大模型的信息分析器:Transformer层
大模型计算层:Transformer层
- 1.词语组装
- 2.找出关键词语(语义分析)
2-3 大模型的大脑中枢:自注意力机制
1. 核心架构:Transformer层
大模型通过多层Transformer对输入文本进行逐层语义分析,将用户模糊的自然语言转化为可理解的结构化意图。
2. 处理流程
| 步骤 | 功能 |
|---|---|
| 分词 | 将输入文本切分为单词(含标点) |
| 第一层Transformer | 组装专有名词,识别词性(如"杯"是量词) |
| 后续层Transformer | 定位关键词语,推断指代关系 |
3. 语义分析的核心:自注意力机制(Self-Attention)
定义:大模型将更多的注意力放到关键的词语上,而不会去关注一些非关键的词语。
这是模型找到关键词语的核心算法,通过三把"钥匙"运作:
- Query(查询):待分析词语的特征(如"星巴克"的特征:品牌、咖啡场所、高价格等)
- Key(键):句中其他词语的特征(如"咖啡馆"的特征:喝咖啡的地方、轻音乐等)
- Value(值):计算出的关联权重
原理:Query与所有Key进行特征计算,权重越高,该词越关键。例如"星巴克"与"咖啡馆""杯"的权重高,从而推断"星巴克"指代的是咖啡饮料而非品牌或地点。
4. 向量空间计算
所有词语都用高维向量表示,语义相近的词语在向量空间中距离更近(如"星巴克"与"咖啡馆"距离近)。模型通过数学计算找出与关键词语距离都近的物体,完成语义推断。
5. 本质
大模型的"理解"本质是基于向量特征的数学运算,通过自注意力机制聚焦关键信息、忽略无关内容,最终解析用户真实意图。
2-4 大模型的回应咋就这么体贴
概率驱动的智能输出
本质:输出是一个"概率游戏"
大模型并非随机回复,而是基于概率分布选择最符合用户意图的输出。
举例说明
| 场景 | 用户输入 | 模型判断 | 输出结果 |
|---|---|---|---|
| 无修饰 | "想要杯星巴克" | 星冰乐、热美式、冷萃咖啡概率相近 | 随机输出三者之一 |
| 有修饰 | "外面好冷,想要杯星巴克" | "热"是关键特征 → 热美式概率显著提升 | 大概率输出热美式 |
为什么显得"体贴"?
1. 捕捉隐含意图
- 用户说"外面好冷" → 模型推断出"想要热的"
- 不只是回答"要什么",而是预判"为什么这样要"
2. 超越字面需求
- 用户要"行程规划" → 模型判断80%概率用户想要表格形式
- 于是直接输出Excel格式的行程表
3. 上下文敏感
- 同样的提示词,加入定语后输出概率会锁定在更精准的选项
- 不会今天推荐热美式、明天推荐冰沙
总结: 大模型的"体贴" = 通过关键词提取用户真实意图 → 计算各选项的条件概率 → 输出概率最高的、最符合情境的结果
它不是"懂人心",而是用概率数学模拟了懂人心的效果。
2-5 大模型是弹药库,智能体则是武器
根据文件内容,核心总结如下:
大模型的能力与局限
当前大模型的本质
- 基于概率预测:通过海量数据训练,给出概率最高的答案(如"1+1=2"有99%概率)
- 擅长语义理解:能推断用户真实意图,提供延伸解决方案,像"知心小姐姐"
关键局限:不是真正的人工智能
| 期望的人工智能 | 实际大模型表现 |
|---|---|
| 自动感知用户爱好 | 需要用户主动提供购物清单 |
| 自主拆解步骤、比价、付款 | 只能给出流程建议,无法执行 |
| 主动完成购物全流程 | 仅停留在对话和知识提供 |
真正的人工智能:AI Agent(智能体)
底层逻辑:感知 → 决策 → 反馈 → 动作
| 模块 | 功能 | 承担者 |
|---|---|---|
| 感知 | 自主查询数据库/文件,了解用户偏好 | AI Agent |
| 决策 | 逻辑推理、给出建议 | 大模型 |
| 反馈 | 询问用户确认决策 | AI Agent |
| 执行 | 操作浏览器、APP、自动付款 | AI Agent |
核心结论: 大模型只是AI Agent的"大脑"(决策部分),真正的人工智能需要AI Agent来完成——它具备感知、决策、执行闭环,能自主行动而非仅对话。
总结: 大模型是"会说话的百科全书",AI Agent才是"能干活的人工智能"。