上周咱们分享了大模型时代的四种玩家。那么今天尽量用浅显的语言跟大家科普一下GPT的理论原理。
ChatGPT大家应该都玩过。比如你问GPT一个问题,”中国的秦朝有几位皇帝?”,那么GPT会从这个问题中提取一些关键字,“中国”、“秦朝”、“皇帝”,并根据自己掌握的知识找到与这些词汇相关的一些词汇。比如回答这问题,就有秦始皇嬴政,他的儿子胡亥,还有第三位子婴,其实是位“傀儡皇帝”。
那么接着GPT会按照正确的语法顺序和逻辑关系,将这些词汇组成一个完整的答案,这个答案就是:
中国的秦朝共有三位皇帝。第一位是秦始皇嬴政,他是秦朝的建立者,统一了六国,结束了长期的战国时期。秦始皇去世后,他的儿子胡亥继位,即秦二世胡亥。秦二世在位期间,由于暴政和朝政混乱,导致了陈胜吴广起义,秦朝的统治开始动摇。秦二世死后,子婴被立为傀儡皇帝,但不久之后秦朝就灭亡了。因此,虽然严格意义上秦朝有三位皇帝,但通常提到的是秦始皇和秦二世胡亥。
所以你看这个回答还是挺考究和详细具体的。因为通常来讲大部分人不会记得还有第三位傀儡皇帝。
但是GPT这个知识库可以看出来,可见其知识库还是很丰富的。这个例子展示了GPT如果从输入的问题中提取关键信息,并根据他自己的知识和经验生成相关的回答,这是一个比较笼统的解释。想必你现在也有疑问,为什么大模型就知道有第三位皇帝的存在。简单来说,大模型训练的数据里面,有的说了只有两位皇帝,有的说了有三位皇帝,而更正确的三位皇帝的相关说明更多,那么大模型会去寻找字与字之间的相关性,他会去预测每个字后面的下一个字出现的概率。如何预测下一个字的概率,我们后面会讲到。
在此之前我们先科普一下什么叫GPT。GPT这三个单词,实际上这个generative pre-trained transformer三个单词的首字母缩写,中文意思即生成式预训练变换器。transformer,我们都知道机器人变换金刚就是这个单词,它其实就是变换器的意思。而generative生成式,表明它是一种机器学习的模型,目的就是学习数据的分布,并且能够生成与训练数据相似的新数据,关键是生成,目前我们已经发现它不仅是可以生成文本,还可以生成图片、视频、语音,甚至可以把它们结合起来。
Pre-trained预训练,预训练其实就是现在常见的一种训练方法。通常是在大规模的数据集上面进行从头训练,模型学习到一般的通用知识和特征,得到的模型就是预训练模型。这些预训练的模型可以作为基础模型,然后针对具体的需求再进行微调。LLM模型(大语言模型)就是通过在大量的无标签的大规模文本数据集上面学习了语言模式和结构,为后续的模型微调提供了基础。
最后这个T就代表transformer,transformer是一种计算机模拟的神经网络结构。比如在视觉领域,还有CNN卷积神经网络也是一类神经网络。而这个transformer网络,它最初是用在文本里面,通过一个叫做注意力机制的算法去有效的地捕捉上下文信息,可以处理这种长距离的依赖关系,也就是可以生成一段一段的文字。渐渐地,研究专家们发现,这个transformer,它其实它不仅仅可以解决文本字与字之间的关系,还可以解决图片的像素点与像素点、视频帧与帧之间的关系。这里面的关键点,就是我们提到的注意力机制,至于这个机制,由于篇幅的关系,咱们明天再好好唠唠。想抢先看PPT,可以关注后在后台发消息“大模型”领取。
暂无评论内容