世界最资讯丨硬核科普：大语言模型，都是如何生成内容的

来源：人人都是产品经理社区时间：2023-06-14 16:58:56

The following article is from PM 熊叔 Author PM 熊叔

关注并将「人人都是产品经理」设为星标

每天早 07 : 45 按时送达

(资料图片仅供参考)

本文首先解释什么是运营分析，目的是通过先了解运营的作用，再从三个方向说怎么做运营数据分析？希望对你有所帮助。

全文共 5519 字，阅读需要 11 分钟

——————— / BEGIN / ——————

2019 年，我们在做智能写作的时候，面临的最大的挑战就是 AI 给的数据效果和预期偏差太远。特别是做扩写的时候，发现生成的文字很容易跑偏。

当时，我们做了很多算法和模型研究。几乎爬取了全网的自媒体文章，然后训练一批模型，问题依然很多。因为中文博大精深各种修辞手法和阴阳怪气，再加上随着时代的发展，特殊词的用法也如雨后春笋一般涌现，如何让 AI 能跟上人类语言的理解能力是个让人头痛的问题。

当时我们也训练了不少语言模型，发现它根本无法弄懂词的含义，无法理解 " 心灵鸡汤 " 和 " 鸡汤 " 是完全两码事，写出了 " 老鼠爱喝心灵鸡汤 " 的令人啼笑皆非的错误；另外，很容易跑偏，从 " 心灵鸡汤 " 跑偏到 " 老鼠喝汤 " 再跑偏到 " 动物世界 "，一口气扩写出几百个字，能跑偏到十万八千里，让人完全摸不着头脑。

在试了很多方案之后，我们得到了一个结论：机器无法真正理解人类的语言。然后，我们悄悄把 " 扩写 " 放到了 " 实验室 " 的板块，放弃了文本生成的持续研发。

AI 生成文字这条路到底通不通？到 2023 年，在没有体验 ChatGPT 之前，我还是持保留态度，但是体验之后，我忍不住惊呼：" 这三四年的时间到底发生了什么？"

我和大家一样，重新补起了功课……

什么是语言模型？

语言模型（Language Model）是一种机器学习算法，它可以根据给定文本来预测下一个词语或字符的出现的概率。

语言模型通过大量的文本数据来学习语言的统计特征，进而生成具有相似统计特征的新文本。其核心目标是建立一个统计模型，用来估计文本序列中每个词语或字符出现的概率，从而实现语言生成、语言理解等自然语言处理任务。

比如，我们可以给一句话让 ChatGPT 做扩写：

我今天吃了一个 ___

它可能会扩写出 " 苹果 "，" 馒头 "、" 面包 "、" 汉堡 "。根据大量的文本统计，这些词出现频率大致如下图：

苹果为 0.07，馒头为 0.035，面包为 0.025，汉堡为 0.022。

因为 " 苹果 " 出现得比较多，ChatGPT 大概率会写出 " 今天我吃了一个苹果 "。但它不太可能预测出 " 我今天吃了一个火车 "，因为 " 火车 " 不是食物，虽然语法通顺。但喂给 GPT 训练的语料里面基本没有人会这样造句。

正是因为 GPT 在训练过程中吸收了大量的人类语言数据，所以我们会觉得它的回答符合我们的逻辑。

人类区别于普通动物的最主要智慧特征可能就是强大的语言能力。语言不仅仅只是一种沟通工具，还包含着人类的思考逻辑和对世界的认知。

不管 AI 是否有真正的智慧，我相信只要语言模型的预测能力做到极致，就能够让人类信以为真。

概率从哪里来？

那么，语言模型是如何预测概率的呢？这要从 200 多年前的贝叶斯学派说起。

贝叶斯定理，由英国数学家贝叶斯 ( Thomas Bayes 1702-1761 ) 发明的。其主要思想就是，通过已知的知识来预测接下来要发生事情的概率。即我们通过以往的经验、分析或实验，可以推断出一些事件发生的概率。为了更好的理解，我们举个预测地震的例子。

假设有人收集了大量历史数据，我们可以发现地震和自然界的某些异常现象有某种关系，如鸡飞狗跳、老鼠上街、青蛙搬家、湖水干涸等现象，我们可以根据历史的数据事先计算好这些现象出现的概率，叫做先验概率。地震的概率可以写作 P ( 地震 ) ，异常现象的概率可以写为 P ( 异常现象 ) ，例如，老鼠上街的概率可以写作 P ( 老鼠上街 ) 。

正所谓 " 一切偶然背后都会有个必然 "。根据历史数据，我们可以算出地震和异常现象的概率关系，我们称之为条件概率。

例如，在某个异常现象发生后出现地震的概率，可以写作 P ( 地震 | 异常现象 ) ，先决条件写在 | 后面。如果是已知地震再计算异常现象的概率，也可以反过来 P ( 异常现象 | 地震 ) 。

有了这些数据，我们就可以根据观测，预测还未发生的地震了。通过观测一些现象来预测的还未发生的概率，这叫做后验概率，我们记为 P ( 新地震 | 异常现象 ) 。

例如，P ( 新地震 | 鸡飞狗跳 ) 表示的是我们观测到鸡飞狗跳，预测可能发生地震的概率。这时我们可以用到贝叶斯公式。

后验概率 = ( 先验概率 * 条件概率 ) / 证据概率

我们把预测地震的例子迁移回语言模型。假设要预测在给定 " 吃 " 这个词之后，下一个词是 " 苹果 " 的概率，即 P ( 苹果 | 吃 ) 。

首先，语言模型学习了大量的文本数据，获得了大量的先验知识，已经知道了 P ( 吃 | 苹果 ) 、P ( 苹果 ) 和 P ( 吃 ) 这三个概率值。其中，P ( 吃 | 苹果 ) 表示在给定 " 苹果 " 这个词之后，出现 " 吃 " 的概率；P ( 苹果 ) 表示 " 苹果 " 这个词出现的概率；P ( 吃 ) 表示 " 吃 " 这个词出现的概率。

然后，我们可以根据贝叶斯定理，计算后验概率 P ( 苹果 | 吃 ) ：

我们还可以通过输入法的联想词模拟整个句子的生成过程。我们以 " 今天吃 " 这个词作为输入，语言模型会继续根据统计数据，计算出在 " 今天吃 " 这个词之后，各个词出现的概率。

例如，它可能计算出 " 饭 " 这个词出现的概率为 0.4，" 了 " 这个词出现的概率为 0.35，" 的 " 这个词出现的概率为 0.33 ……我们结合语境选择 " 了 "，然后输入法刷新联想词，然后我们选择 " 一个 "。依次重复这个过程，最终得到了 " 今天吃了一个苹果 " 的句子。

大家可能也注意到了它的问题：输入法的语言模型，只能预测上一个词和下一个词的关系，如果没有人类的主动选择就很容易跑偏，这是一个长文本预测的问题。

在 2019 年，我们遇到了问题是一样的。而且我们在实际应用中我们会使用更加复杂的模型，我们会用到一些 RNN 等深度学习的技术，让语言模型可以预测更长一点的句子。但是针对长文本依然无法解决跑偏的问题。

当时的解决方案就是一句一句的扩，让用户随时可以纠正偏差。

但问题是这种扩写的意义又在哪里呢？让我对 AI 文本生成的信仰顿时崩塌。

什么是大语言模型（LLM）？

2023 年，让整个人类最为振奋的 AI 技术就是 ChatGPT。" 大语言模型（Large Language Model）" 这个词也随之映入人们的眼帘。ChatGPT 让人觉得惊艳之处，能够结合上下文，像人一样有逻辑性地回答问题，就算生成超长的文本也不会跑偏。到底什么是大语言模型？

大语言模型与普通语言模型相比，大语言模型的一个显著区别在于其规模。大语言模型通常具有大量的参数，并且在训练过程中使用了巨量的文本数据。大型语言模型的参数规模通常与效果成正比，能够更好地理解和生成自然语言文本，更好地完成各种自然语言处理任务，如写作、翻译、问答等。

GPT 优秀之处是做了前无古人的突破性的尝试，使用了巨量的参数和预训练数据。GPT-3 拥有 1750 亿个参数，使用了 45TB 的文本数据进行训练。训练数据和参数量都远远超过传统的语言模型。

1. 大规模的参数有什么用？

我们要从词嵌入（Word Embedding）说起，为帮助语言模型更好地理解每个词的特征和含义，我们需要使用大量的参数来存储和处理信息。我们会将这些词嵌入一个高维的向量空间里面，像 GPT-3 的向量空间的维数就有 12288，这意味着 GPT-3 可以使用 12288 个维度来充分理解某个词。对于很多单词的理解可能比人类都要透彻。

语言模型还可以通过词向量空间中的位置的远近来理解词与词之间的关系。

假设我们的词向量空间有三个维度：颜色、形状和类别。我们有三个单词：" 苹果 "、" 橘子 "、" 手机 "，应该如何嵌入到向量空间呢？

" 苹果 " 和 " 橘子 " 都属于水果类别，因此它们在类别维度上的值相同都是用数字 "1" 表示；但 " 苹果 " 的颜色是红色用数字 "1" 表示，而 " 橘子 " 的颜色是橙色用数字 "2" 表示；至于形状维度，由于 " 苹果 " 和 " 橘子 " 的形状都是圆形，都用数字 "1" 表示，于是有下面这个数值。

" 手机 " 属于电子产品类别，数值用 "3" 表示；手机的形状是方的，数值用 "2" 表示；颜色是多色的，数值用 "8" 来表示。他们之间的关系可以一目了然地展示在向量空间的关系中，如下图：我们可以看到语义相似的单词在向量空间中彼此靠近。当 GPT 在生成文字的时候，它可以根据向量空间知道 " 苹果 " 和 " 橘子 " 是一类水果，在 " 吃 " 的语境中可以相互替换。但是这也有新的问题，" 苹果 " 也有可能是指生产手机的 " 苹果公司 "， GPT 怎么能知道 " 苹果 " 是否特指 " 苹果公司 " 呢，根据不同的语境推理出不同含义的 " 苹果 " 呢？

2019 年，如何结合语境，让语言模型能够准确地理解词的含义，这在当时也是个巨大的难题。我们当时想的策略也相对简单粗暴，就是通过命名实体技术强制将它们标记为不同的实体名词，例如，" 苹果手机 " 类别为电子产品，" 苹果公司 " 为企业。但是遇到的问题是，我们没有办法列举完所有的命名实体，需要不断扩充新词库；另外在很多语境中 " 苹果 " 就能代表 " 苹果公司 " 和 " 苹果手机 "，没办法根本解决这个问题。

GPT-3 高明之处就是使用上下文相关的词嵌入方法和自注意力机制来解决这个问题。它的词嵌入方法考虑了单词在给定文本中使用的上下文，而自注意力机制则允许模型在生成文本时考虑前面的所有的单词。最终，让机器能更好地理解语境，解决词的多义性和歧义性问题。

2. 什么是注意力机制？

GPT 的 Transformer 模型通过使用自注意力机制（Self-attention mechanism），能够让模型在处理每个单词时都能考虑到文本中所有单词的信息，从而更好地捕捉文本中的长距离依赖关系，解决了长文本的跑偏的问题。这在传统的模型中是无法做到的。

注意力机制的灵活性来自于它的 " 软权重 " 特性，即这种权重是可以在运行时改变的，可以根据上下文来推断出单词的含义，达到更好的预测效果。

举个例子，假设我们有一个句子：" 我喜欢吃苹果，但我不喜欢苹果手机。" 在这个句子中，" 苹果 " 这个词出现了两次，第一个 " 苹果 " 是指一种水果，而第二个 " 苹果 " 是指一种手机品牌。

如果是没有注意力机制的模型来处理这个句子，那么模型可能会将两次出现的 " 苹果 " 都当做水果来处理。但对于 GPT 来说就不一样了，它能够根据上下文来推断出每次出现的 " 苹果 " 的含义。

这主要归功于 GPT 包含的巨量参数中不仅仅包含了词汇的意义，还包含了词在句子中结构和语法、语言风格、语境信息等等。

注意力机制可以通过计算每个词的相似度来实现注意力权重的计算。当它处理第一个 " 苹果 " 时，会注意到前面有一个权重较高的 " 吃 " 字，因此会推断出这里的 " 苹果 " 指的是一种水果；而当模型处理第二个 " 苹果 " 时，它会注意到后面有一个权重较高的 " 手机 "，因此会推断出这里的 " 苹果 " 指的是一种手机品牌。

我们可以简单模拟一下这个注意力权重的计算过程。

假设我们有个三维的词向量空间，我们先把 " 我 "、" 喜欢 "、" 吃 "、" 苹果 " 这 4 个词嵌入到这个空间里面：

如果绘制成图，他们在向量空间中的关系一目了然。如下图，两个词越是接近，关系就越紧密。语言模型可以用数学方法来分别计算 " 苹果 " 与 " 我 "" 喜欢 "" 吃 " 三个词的权重分数，我们可以通过向量的点积计算方式模拟计算一下，值越大代表的是向量的相关性越大：通过计算我们发现 " 吃 " 的相似度最大为 2.66，那就说明 " 吃 " 这个词相对于 " 苹果 " 应该有更高的注意权重。

或许看到这里，你已经觉得自己消耗了不少的脑细胞。但似乎我们也能够理解 GPT 的工作量是有多么的大。因为要不断地动态的生成和预测下个词，需要消耗大量的算力。没办法一步到位，所以它只能是一个字一个字地给你呈现出来。

算力也是我们在 2019 年遇到的难题，因为训练模型的沉没成本很高。稍微复杂一点的模型训练可能需要几天的时间，但是你也没有办法保证预期结果。而且，在模型训练好之后，用户还需要长时间的等待计算结果，导致体验非常糟糕。对于一个争分夺秒的创业团队来说，显然有些不切实际。

所以我们当时思路是尽可能把模型做多做小，按照不同的文章分类进行训练，想通过这种方式平衡时间和效果，但效果依然不尽人意。从今天的结果来看，没有通用的大语言模型作为基座，把模型做小做细基本就是一条不归路。最终，我们放弃了文本生成算法的持续研发。

GPT 的成功之处，不仅仅是技术的成功，也是在商业上面的成功。有了微软的算力加持，可以更好的保证模型训练和服务体验，才能在普通的用户人群获得巨大的反响。

尾声

今天，在 ChatGPT 闪耀的光环之下，我们看到 OpenAI 的 CEO 山姆 · 奥特曼（Sam Altman）风光无限，我在短视频平台经常能刷到他的精彩演讲语录，我也总是希望能够从他的成功经历上学到点什么。

如果有一天，我拿着 2023 年的大语言模型的论文，穿越回了 2019 年，重新开始智能写作的项目，我会做得更好吗？其实，我依然觉得很难，因为创业需要 " 天时地利人和 "。

先不提 OpenAI 所在的土壤对于创新极其的开放，它吸纳了全球最顶尖的人才，并获得了资本的鼎力支持。光是能够看清未来的方向，并且能够坚定不移地走下去，也是我们大多数创业团队无法企及的高度。

对于一个创业者来说，看见未来很重要，但认清自己也很重要。看见未来，你才能坚定不移地走下去；认清自己，你才能力所能及地把事情做得更好。在没有能力之前，需要先学会成长；在机遇没有到来之前，需要先学会等待；在没有成功之前，也要学会选择坚持。

现在 ChatGPT 的热度之下，又有一些朋友重新投入到 AI 创业的大潮中。雷军说过：" 站在风口，猪也能被吹上天。" 但是风很大，浪也会很急，挑战也会很多。希望各位创业者能够一帆风顺。

—————— / E N D / ——————

产品经理培训｜产品运营培训｜企业内训服务

请在公众号后台回复「培训」了解更多

▼ 喜欢请分享 & 收藏，满意点个赞，最后点「在看」▼

上一篇：汇纳科技董事孙卫民拟减持不超0.08%股份全球资讯

下一篇：最后一页

X 关闭

导航

世界最资讯丨硬核科普：大语言模型，都是如何生成内容的

推荐

世界最资讯丨硬核科普：大语言模型，都是如何生成内容的

汇纳科技董事孙卫民拟减持不超0.08%股份 全球资讯

热推荐：船长翟墨：我是看星星最多的人

兰州市城关区：“五议共治”破解民生难题 构建治理新格局

【环球热闻】黄尖镇金滩公司拉网式巡查秸秆禁烧

希望打击网暴不再是一个人的战斗_天天观焦点

天天快看点丨45岁男子熬夜喝冰镇饮料被送进ICU 吃救心丸仍不见好转

全球微资讯！范君健_关于范君健的简介

农保在三甲医院住院报销多少？以福州市居民医保为例 当前快看

每日快播：儿童歌曲网（关于儿童歌曲网的基本详情介绍）

吹风机放在床上烘干湿衣 温度过高引燃床单酿成火灾

陕西西安：“书记信箱”进小区

世界最新：物流股异动 长久物流直线拉升涨停

正强股份（301119）：该股换手率大于8%（06-14）

企业发文称员工“婚外情”将辞退 这事该不该企业来管？ 看热讯

润泽科技6月14日快速回调

焦点资讯：勃林格殷格翰公益爱心林在阿拉善正式揭牌

长江证券：融资净买入510.63万元，融资余额10.34亿元（06-13）

每日看点！法媒：姆巴佩计划今年夏窗就加盟皇马 取代本泽马的位置

追踪卡片 AirCard 成功众筹：支持苹果 Find My，可塞入钱包 环球微头条

张良点金：黄金跌破1940将加速下跌！原油69.2空！

超额剩余价值是一种暂时的现象（超额剩余价值是）

千年甲骨 诉说恒久历史

山色晚来秋的上一句_秋色有佳兴下一句简介介绍 观焦点

赛乐赛奥利司他官网_赛乐赛减肥胶囊官网

天天微头条丨顿笔写法（顿笔）

央行“降息”发力稳增长，房贷利率有望下调？

桃子怎么画才好看又简单 桃子怎么画|世界热资讯

洋瓷碗可以放微波炉加热吗 洋瓷碗可以上锅蒸吗|环球观察

js14s时间继电器实物接线图_时间继电器实物接线图

蜀道装备：简阳港通等数名股东拟减持合计不超7.7557%股份

华鑫证券：给予江龙船艇买入评级 报资讯

每日时讯!6月13日醋酐产业链价格汇总

金证股份拟以1.71亿元收购子公司金证财富12.55%股权|热点聚焦

100余名专家代表齐聚临沂 探索保险助力乡村振兴的新路径|当前快讯

技工院校有何优势？人社部回应21记者：专业与企业生产结合更紧密

云南曲靖钢铁集团凤凰钢铁有限公司关于规格组距价差调整的函知_每日报道

杭州一公司监事名叫白雪公主

每日优鲜收到纳斯达克退市通知：不再满足上市规则-讯息

茅台拟斥资参与设立产业发展基金，林园：“我不会投反对票” 世界新消息

中国女篮欧洲拉练步入尾声

大为股份6月13日盘中涨停 焦点速看

免费FPS《不羁联盟》新预告公开 6月22日举行免费公测_精彩看点

【活动预告】限时活动-灵心列传开启|速看

一束“微光”在施工一线写春秋

《双向奔赴》——关爱新就业形态劳动者⑤：暖途

焦点热文：“千万工程”调研行丨绍兴：城乡绿色发展道路越拓越宽

戴一个表布里茨有特效吗（戴一个表布里茨）

股票流动比率低是什么意思?流动比率多少合适?_环球今头条

海产品交易平台（关于海产品交易平台的基本详情介绍）

中国电信人工服务电话_中国联通人工服务电话-天天快消息

证明2家公司是同一家怎么写 证明两家公司是一家的证明范文|焦点讯息

民生银行：6月12日融资买入8062.17万元，融资融券余额57.14亿元

世界快讯:正海磁材（300224）：6月12日北向资金增持36.7万股

美国会报告称计划在黄岩岛建军事基地，同时在南海设立防空识别区

最新：四川南充可提供TCL冰箱维修服务地址在哪

快评：美说支持两岸对话 谁敢跨出这一步？-今日快看

沙特与这一国内厂商签百亿级大单，车企出海扬帆起航|观察

江津携手开州 推动两地教育领域深度合作

每日快报!肿瘤移位“钻”到脊柱里 骨科手术为其减轻痛苦

蔚来全系降价3万元！李斌称“现在最合适”！股价盘中拉升近7%，这一步走对了？

贵州织金三甲街道：法治护航“典”亮群众生活_视焦点讯

全球聚焦：ps怎样沿着圆形输入文字 ps如何沿着圆圈内写字

Boss直聘举报对方的方法 世界热文

宏达股份：法院受理申请人对控股股东重整申请

未来游戏展：《准备对决！》新预告 女版佐罗挑战恶徒

助学贷款免息及本金延期偿还政策延续 促进学生顺利就业

《原神》天云草实位置在哪里？《原神》天云草实哪里有卖？ 热文

荧光增白剂28_荧光增白剂-环球速看

天天热资讯！招魂术_关于招魂术的介绍

焦点资讯：国产PD-1上市申请被拒，嘉和生物：CDE对于相关适应证产品审评更为谨慎

天天快消息！视频| “沉浸式”体验消防生活，160余名萌娃化身“小小消防员”

海南发布电力需求响应实施方案 通过经济激励措施引导电力用户削峰填谷

焦点热议:笔记本总蓝屏什么原因

今年以来海南三亚机场旅客吞吐量破千万人次 达通航以来同期最高水平

每日观点：「寒意」未散，芯片成本又增加，智能手机难寻突围曙光

【全球播资讯】夫妻有贷款名字双方名字反悔有法律效力吗

汇纳科技董事孙卫民拟减持不超0.08%股份全球资讯

兰州市城关区：“五议共治”破解民生难题构建治理新格局

农保在三甲医院住院报销多少？以福州市居民医保为例当前快看

吹风机放在床上烘干湿衣温度过高引燃床单酿成火灾

世界最新：物流股异动长久物流直线拉升涨停

企业发文称员工“婚外情”将辞退这事该不该企业来管？看热讯

每日看点！法媒：姆巴佩计划今年夏窗就加盟皇马取代本泽马的位置

追踪卡片 AirCard 成功众筹：支持苹果 Find My，可塞入钱包环球微头条

千年甲骨诉说恒久历史

山色晚来秋的上一句_秋色有佳兴下一句简介介绍观焦点

桃子怎么画才好看又简单桃子怎么画|世界热资讯

洋瓷碗可以放微波炉加热吗洋瓷碗可以上锅蒸吗|环球观察

华鑫证券：给予江龙船艇买入评级报资讯

100余名专家代表齐聚临沂探索保险助力乡村振兴的新路径|当前快讯

大为股份6月13日盘中涨停焦点速看

证明2家公司是同一家怎么写证明两家公司是一家的证明范文|焦点讯息

快评：美说支持两岸对话　谁敢跨出这一步？-今日快看

江津携手开州推动两地教育领域深度合作

每日快报!肿瘤移位“钻”到脊柱里骨科手术为其减轻痛苦

Boss直聘举报对方的方法世界热文

未来游戏展：《准备对决！》新预告女版佐罗挑战恶徒

助学贷款免息及本金延期偿还政策延续促进学生顺利就业

《原神》天云草实位置在哪里？《原神》天云草实哪里有卖？热文

海南发布电力需求响应实施方案通过经济激励措施引导电力用户削峰填谷

今年以来海南三亚机场旅客吞吐量破千万人次达通航以来同期最高水平

中东路事件影响中东路事件

《寻她》亮相第二十五届上影节开幕红毯舒淇：影片全都是看点

ps怎么让图片旋转角度（ps怎么旋转图片角度）全球热点评

英国前首相约翰逊宣布辞去议员职务声明“暂时”离开似乎暗示将重返政坛重点聚焦

中国文学书籍大全_文学书籍大全世界观天下

化疗对身体危害有多大（化疗一次多少钱）天天时讯

德云社违反卫生管理，未取得卫生许可证被罚3万_精彩看点

一个容积为2.5升的塑料壶用它装酒精最多能装多少千克（一个容积为2 5l的塑料瓶用它装水）焦点热门

象牙果价格象牙果是什么|今日热闻

中证金融市场化转融资业务试点6月13日转常规全球观热点