ChatGPT理解一

武飞扬头像

我那21克的灵魂

2024-04-30 帮助1人

刚刚阅读了一篇技术博客，怕忘记，在这里先mark一下对ChatGPT原理的粗浅理解。

首先，ChatGPT论文未公布，开发团队表示，其思想与InstructGPT有些类似，并在多轮对话方面进行了优化。所以文章中作者主要分析了InstructGPT的思想。（如下图所示）学新通

第一步，使用“提问-回答”形式的标注数据对GPT-3进行微调。

第二步，训练一个Reward Model。该模型能够对第一步的模型针对同一句话给的不同输出，按照用户的喜好度，满意度进行排序。利用的数据是用户标注的排序数据。

第三步，利用Reward Model，对第一步的模型再次进行微调，使其输出符合人类预期。使用强化学习进行训练，但是此处有一个疑问，PPO基于的markov过程的假设，和多轮对话需要具有上下文的记忆，这个如何解决？需要后续的研究。

参考文章：全网唯一，不忽悠的ChatGPT

这篇好文章是转载于：学新通技术网

版权申明：本站部分内容来自互联网，仅供学习及演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，请提供相关证据及您的身份证明，我们将在收到邮件后48小时内删除。
本站站名：学新通技术网
本文地址： /boutique/detail/tanhghfkee

系列文章

同类精品

继续加载