GPT 扫盲

date
Apr 25, 2024
tags
slug
what-is-chatgpt
status
Published
summary
你应该了解的关于 GPT 的基本知识。
type
Post

GPT 的工作原理

很多人觉得 GPT 非常神奇,大呼人工智能,但 GPT 真的有“智能”吗,其工作原理到底是什么?
其实 GPT 只做一件事:合理的文字接龙
“合理的”意味着 GPT 在看到数十亿人类在网上发布的内容后能够模仿出合理的语句。(有点熟读唐诗三百首,不会吟诗也会吟的意思。前后两个“吟”意思不一样,前者是“品尝”,后者是“念颂“。)
举个例子,我们输入 “你好。” 给 GPT,GPT 根据事先扫描过的(学习过)内容找到所有类似的包含 ”你好“ 的语句并生成了一张 文字 + 概率 表:
这里的文字就是我的输入 “你好。” 后面可能接的文字,概率就是接这个字的概率。
文字
概率
4.5%
3.5%
3.2%
然后 GPT 从表中选择一个字作为“接龙”,假设 GPT 选择了 “你”,这时 GPT 加上我们的输入就得到了 “你好。你” 作为一个新的输入,然后继续尝试生成表格进行新的接龙,最后从表格中选择到一个代表结束的符号表示输出结束。至此,GPT 生成了完整的句子并显示给用户:
ChatGPT 官网对话演示,图中模型为 GPT3.5 Turbo
ChatGPT 官网对话演示,图中模型为 GPT3.5 Turbo

如何选择接龙对象

那么,表格里有好多文字, GPT 怎么知道选择哪个文字作为接龙呢?直觉上认为应该选择对应概率最高的文字,但经过大量研究表明,如果一味的选择最高概率对应的文字,生成的语句会非常单调,甚至会出现大量重复,完全失去了创造力。
所以在实践中我们引入随机性,GPT 会随机选择低概率的文字作为接龙对象,这个随机的概率用户是可以设置的,官方叫做 “temperature“。(注意,只是名称罢了,和物理上的温度可没有关系)
temperature 越高表示更倾向于选择低概率的接龙对象,更具有创造力。
ChatGPT 官方支持用户调整 Temperature
ChatGPT 官方支持用户调整 Temperature

记忆能力从何而来

GPT 另一个神奇的能力在于它知道用户先前说过什么,并能根据用户先前的语句生成新的回复。
GPT 知道我说了“你好”
GPT 知道我说了“你好”
这是怎么做到的呢?其实这是把之前的输入输出也一起作为输入了而已,用户输入 “我上一句话说了什么” 并不是 GPT 接收到的真实输入,GPT 真实收到的是 “你好。你好!有什么我可以帮你的吗?我上一句话说了什么?”,所以 GPT 当然有“记忆”。
当然,GPT 并不能接受无限的文本,一旦超出容量限制,GPT 就会丢弃文本内容,就会“遗忘”,这个容量官方称为 ”context”,直译为“上下文”,现在最新的 GPT4 Turbo 模型能够容纳 128k context ,大约 25,000 个英文单词。

什么是模型

常听到大语言模型,那么什么是模型呢?
假设给我们以下坐标轴上的点集,让我们预测 x = 7 对应的点,更进一步,你能预测 x = 20 对应的点吗?
坐标轴上的点
坐标轴上的点
解决这个问题的一种方法就是建立适当的数学模型,毫不费力的,我们可以求出一条直线 f(x) = ax + b 恰好过这三点,这个 f(x) 就是我们建立的模型(需要注意模型不唯一,有很多函数图形都能过这三点),模型具有一些参数比如 ab … 对 x (也就是输入)进行调整得到 f(x) (也就是输出)。然后根据 f(x) 我们就可以预测新的输入对应的值。
可能建立的一种模型
可能建立的一种模型
类似的,GPT3 也有对应的模型,模型也有对应的参数,并且参数数量多达惊人的 1750 亿个(人类大脑中存在约 1000 亿个神经元)。
 
你可能还想知道:
神经网络又是什么?
GPT 的模型是怎样的?
模型是怎么得到的?
模型到底是怎么工作的?
需要多少数据训练出一个模型?
训练模型的最佳实践?
GPT 的局限性在哪?
什么是嵌入?
产生语言有想象中那么复杂吗?
那么你应当阅读下面的文章。

相关资料:
 

© Aron Yang 2024