ChatGPT:机器学习技术的交叉和融合、数据的价值
点亮星星,不错过每一个精彩帖子
作者简介: 沙宗轩,博士,北京工业大学信息学系; 霍茹,北京工业大学信息学系讲师
编者注
ChatGPT在不久的将来应该是当之无愧的“炸鸡”,无论是因为它在AI领域掀起的微软、谷歌、百度等的血腥风暴,或明或暗的“怒火”,还是这是由于微软在Office中植入GPT 4引起的。 关于ChatGPT的消息在工人们的恐慌或狂欢中层出不穷。 那么,在众多的AI技术和产品中,ChatGPT为何能够突围而出并受到广泛关注呢? “并不是我有多优秀,这全靠同龄人的支持。” 其优异的表现将人工智能的发展带入了新的阶段。 那么,它是如何实现的呢?
本文作者梳理了ChatGPT版本的发展和特点,发现明显更擅长RL(强化学习)的ChatGPT技术团队将情境学习融入到GPT 3中,并在后续过程中利用人类反馈来优化模型指导GPT/聊天GPT。 当参数数量减少时,通过语言模型预训练、奖励模型训练、使用强化学习方法微调 LM 等新的训练范式,ChatGPT 模型的性能和质量得到了极大的提高,因此对机器学习方法有新的启示:机器学习技术的交叉与融合、数据的价值、ChatGPT的影响与挑战等。
现在ChatGPT走在了最前沿,希望读者无论是进行技术研究还是投资规划,都能从这篇文章中有所收获。
前言
经过近十年的快速发展和拓展,数据驱动的人工智能模型已广泛应用于计算机视觉(CV)、自然语言处理(NLP)、智能控制等多个领域。 为了获得更强的模型性能,工程师不断增加模型的参数,挤压训练设备的性能极限。 模型结构也在不断迭代和更新。 随着算法模型性能提升逐渐稳定,业界对人工智能(AI)快速发展壮大的热情逐渐降温。 L4级自动驾驶、NLP问答机器人等领域发展遭遇瓶颈。 在此背景下,ChatGPT的出现成为人工智能领域的新亮点,为人工智能的发展注入动力。
ChatGPT是OpenAI提出的多模态大语言模型(Large Language Model,LLM)。 一经推出,立即以其优异的性能吸引了全球无数用户的关注。
OpenAI公司发展历程中的主要事件如下:
2015年12月11日,OpenAI成立;
2016年4月27日,OpenAI Gym Beta发布;
2017年7月20日,近端策略优化(PPO)算法发布;
2019年7月22日,微软投资OpenAI并与其合作;
2021年1月5日,从文本创建图像神经网络DALL-E的研究;
2022年12月1日,ChatGPT发布;
2023年2月2日,OpenAI宣布推出ChatGPT Plus订阅服务。
可以看出,OpenAI是一家以强化学习(Reinforcement Learning,RL)为基础的公司,并逐渐在AIGC(AI Generation Content)领域深耕。 OpenAI构建的Gym库是常用来测试RL算法性能的环境库,而PPO算法因其优异的性能和通用性而成为RL算法的标杆。 非常有趣的是,一家在 RL 领域有深厚积累的公司推出了 ChatGPT,而不是专门研究 NLP 的团队。 从之前发表的论文来看,该方法的主要研究人员中,不少作者在强化学习领域更为出色。
ChatGPT 的由来
在ChatGPT出现之前,OpenAI已经推出了三代GPT模型和InstructGPT模型。 其发布时间、主要研究点及参数规模如表1所示1]。
表1 GPT系列型号指标
从ChatGPT的发展历史可以看出,从GPT3开始,它加入了情境学习的元素,使得模型的输出能够与上下文的语义和上下文联系起来,得到的表现更加符合逻辑。 InstructGPT中加入人类反馈成为GPT系列模型性能实现突破的关键因素,即利用RL根据人类反馈来优化原始模型。 这就是根据人类反馈进行强化学习。
对于数据驱动的语言模型(Language Model,LM),传统的方法是通过预测下一个单词并使用损失函数来建模下一个单词。 通过降低损失函数,提高模型预测的准确性。 这种方法的目标是最小化损失函数,这与用户希望获得的体验的优化方向并不完全一致。 因此,利用人类反馈作为性能衡量指标来调整模型,使模型的输出与人类价值观保持一致,取得了很好的效果。 这两种想法的比较如图 1 所示。
图1 机器学习模型追求的不同目标
因此,在GPT3的基础上,InstructGPT由于加入了人类反馈而取得了惊人的性能。 从GPT1到GPT3,模型规模迅速扩大,参数数量从1.17亿猛增至1750亿1]。 但规模的扩张并没有带来性能的跨代提升。 为什么InstructGPT只使用了GPT3不到百分之一的参数却取得了更好的效果? RLHF 发挥着巨大作用。
*由于ChatGPT的算法细节尚未正式公开,并且考虑到InstructGPT使用的方法与ChatGPT接近,因此以下讨论和应用文档主要基于InstructGPT。
优异的性能从何而来?
ChatGPT/InstructGPT的模型训练主要分为三个部分2]3]
语言模型预训练
原始语言模型不需要严格意义上的标签,可以从数据库中提取样本进行训练。 在ChatGPT/InstructGPT中,OpenAI聘请了40名专家为从数据集中提取的提示编写理想的输出,即对数据进行写入和标记,并创建了包含11,295个样本的监督学习训练集4],如图所示图2.使用该数据集对原始模型进行监督训练,得到SFT(监督微调)模型。
图2 InstructGPT的数据集数量
奖励模型训练
使用预先训练的SFT模型,您可以根据不同的提示输出答案。 但生成的答案可能并不总是令用户满意。 解决这个问题的一个合理的想法是要求标记器对模型的输出进行评分,并为更好的答案分配更高的分数,以指导模型产生更合适的答案。 但它面临以下问题: 1、贴标机难以跟上模型训练过程; 2、人工成本高; 3、评分易受贴标者主观因素影响。 因此,考虑建立一个奖励模型。
首先,使用模型为同一提示生成多个结果。 贴标机只需将生成的结果从最好到最差进行排序。 一方面,这种方法可以减少贴标机的工作量。 另一方面,对直接评分也有主观影响。 对结果进行排序更有可能得到相对收敛的结果。 然后引入Elo排名系统,将结果的排名转化为数值。 该值以标量形式表示不同答案的质量。 这样就构建了训练样本。 使用这些训练样本,可以训练奖励模型。
使用 RL 方法微调 LM
将此微调任务描述为 RL 问题。 InstructGPT使用PPO算法对语言模型进行微调。 首先,提示输出微调的 LM 模型和输出 SFT 模型。 微调后的LM模型基于RL策略生成的输出,根据步骤2中的奖励模型生成奖励值,以评估输出结果的质量。 根据PPO算法的原理,除了将微调后的LM模型朝着获得更多奖励的方向进行训练外,还必须计算微调后的模型与SFT模型的KL散度,如下所示式4]。
式中,期望第一项为奖励函数反馈的奖励值。 第二项是微调模型和SFT模型的KL散度。 该惩罚项有助于确保模型输出合理连贯的文本片段。 如果没有这种惩罚,优化可能会产生乱码文本。 第三项是基于预训练模型的期望,提高了模型的泛化能力,防止模型只关注当前任务。 随着RL策略的更新,由于奖励模型的指导,微调后的LM模型的输出逐渐接近人类评分更高的结果。
*对于这个训练过程,用户还可以继续根据模型的早期版本对这些输出进行排名,目前还没有论文讨论这一点。 这将复杂的动态引入强化学习政策和奖励模型的演变中,是一个复杂且开放的研究问题。
ChatGPT的思考与启示
ChatGPT的成功不仅震惊了用户和研究人员,也将当前的机器学习研究方法清晰地展示在人们面前。
机器学习技术的交叉与融合
图3 机器学习技术融合
传统上,机器学习可以分为监督学习、无监督学习和强化学习。 无监督学习专注于发现数据中的模式和价值。 监督学习建立了数据和标签之间的映射关系,即。 强化学习可以根据当前状态做出智能决策。 算法的进步不仅在于各自领域的深入探索和探索,而且分支之间的技术融合可以带来强大的性能提升。 2013年,DeepMind提出使用神经网络来替代RL中的值表,这可以看作是一种利用深度学习(DL)对RL进行优化的方法。 该方法解决了数值表因表达能力不足而无法应用于高纬度离散状态空间和连续动作空间的RL的问题,大大拓展了RL的研究范围和使用场景,开创了深度强化学习(DRL)的先河。 )这个字段5]。 该结果经过后续优化,于2015年发表在Nature杂志上6]。 ChatGPT 是使用 RL 算法优化 DL 模型的一个很好的例子。 目前,使用强化学习进行微调已成为一种新的模型训练范式。 可以预见的是,这一范式未来将会广泛应用于其他研究领域。 ChatGPT 是否会像 DQN 一样成为推动 DL 发展的新训练范式的象征,我们拭目以待。
*据2023年2月26日消息,Google计划将使用RL微调模型的训练范式引入到CV中。
数据的价值
传统上,深度模型的研究,无论是设计更巧妙的模型结构、标记更多的训练样本,还是扩展模型参数以期创造伟大的奇迹,一直都是朝着“大”或“多”的方向发展。 。 ChatGPT让我们看到了“品质”的重要性。
图4 分阶段模型训练方法
OpenAI 公开表示,其在使模型与人类意图保持一致方面进行投资,其投资产出比高于训练更大的模型。 如前所述,GPT3 有 1750 亿个参数,而 InstructGPT 只有 13 亿个参数。 在数据量大幅减少的同时,却取得了压倒性的性能优势。 这是否意味着目前的超大规模模型在“体量”上足以应对当前的研究任务,但真正缺乏的是高质量的关键数据?
RLHF的训练范式已经被越来越多的研究验证,其对模型性能的提升是前所未有的。 那么未来针对不同问题构建微调数据集将是关键。 如图 5 所示。传统的大规模数据集可以构建模型的初始性能。 在此基础上需要专家样本来指导。 这部分数据量比初始数据集小很多,但对模型的影响却远不止简单。 增加原始数据集的效果。 对于该任务,如何构造高质量的微调数据也是一个需要解决的问题。
图5 不同质量的数据支持模型训练
ChatGPT 的影响和挑战
当NovaAI出来的时候,人们看到了AIGC的强大。 如今,ChatGPT已经出现在我们面前,其超强的性能让很多行业的从业者承受了巨大的压力。 未来,GPT4的公布和投入使用将极大地影响当前的行业形势。
从狭义上讲,ChatGPT直接改变了文本处理、简单代码编写、数据查询等生产生活方式。 微软将ChatGPT集成到了bing搜索引擎中,直接对google、baidu等搜索引擎取得了绝对优势; 将ChatGPT集成到办公中,提高工作效率。 一些工作组还尝试创建插件来集成到集成开发环境(IDE)中,以帮助程序员更快地完成项目代码。
总体而言,受ChatGPT的启发,未来将在更多领域产生性能接近人类专家的AI模型和算法。 ChatGPT是将RLHF应用于LLM的成功案例,但我相信利用这种方法生成高性能模型的探索将迎来快速增长,并在未来在各个领域涌现。 工具性能的差距会在一定程度上影响社会信息化的发展进度。 掌握未来的核心算法和数据也是国内研究人员需要面对的问题。
ChatGPT 上线仅 5 天就实现了用户超过 100 万的里程碑。 这个速度远远超过了Twitter、FB等知名应用程序。 大量的用户给ChatGPT带来了海量的数据。 在大数据时代,先进入市场往往能吸引更多的数据。 但从目前的研究来看,微调数据是提高模型性能的关键,而这些数据往往需要具有专业知识的专家进行标注。 由于大量用户数据的质量参差不齐,GPT后续的模型性能是否会越来越好并逐渐在该领域独树一帜,也是一个值得观察和研究的问题。
ChatGPT 仍然是一个文本生成模型。 即使使用RLHF使其与人类价值观保持一致,它在任何情况下仍然无法与人类的输出结果相同。 例如,当向ChatGPT询问某个领域或某个会议的论文时,输出结果显得很正式。 但如果你查一下,你会发现很多文章都是ChatGPT编造的。 因此,ChatGPT 目前只学习“形状相似度”。 但集成了ChatGPT和bing搜索引擎的新bing在一定程度上克服了这个问题。 因为相比ChatGPT的生成,新bing是搜索+生成的模式,搜索得到的结果是客观存在的。 因此,当使用new bing获取某个领域或会议的文章时,结果是真实的。 这在某些领域可能更有用。
ChatGPT带来的工作效率提升是显而易见的,当该模型投入商业化后,相信能够实现的效益是非常可观的。 目前国内尚无具有可比性能的产品。 这种模型训练不仅需要较高的成本和时间,而且对于fine-tune的构建以及后续的优化也非常重要。 我们期待能够媲美GPT系列的国内语言模型的出现。
参考:
1]
2]
3]
4] 欧阳丽,吴静,姜晓,等。 训练语言模型遵循人类反馈的指令J]. arXiv 预印本 arXiv:2203.02155, 2022。
5] Mnih V、Kavukcuoglu K、Silver D 等。 用深度强化学习玩AtariJ]. arXiv 预印本 arXiv:1312.5602, 2013。
6] Mnih V、Kavukcuoglu K、Silver D 等。 通过深度强化学习实现人级控制J]. 自然, 2015, 518(7540): 529-533.
【提交】:
文章评论