• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

ChatGPT理解一

武飞扬头像
我那21克的灵魂
帮助1

刚刚阅读了一篇技术博客,怕忘记,在这里先mark一下对ChatGPT原理的粗浅理解。

首先,ChatGPT论文未公布,开发团队表示,其思想与InstructGPT有些类似,并在多轮对话方面进行了优化。所以文章中作者主要分析了InstructGPT的思想。(如下图所示)学新通

第一步,使用“提问-回答”形式的标注数据对GPT-3进行微调。

第二步,训练一个Reward Model。该模型能够对第一步的模型针对同一句话给的不同输出,按照用户的喜好度,满意度进行排序。利用的数据是用户标注的排序数据。

第三步,利用Reward Model,对第一步的模型再次进行微调,使其输出符合人类预期。使用强化学习进行训练,但是此处有一个疑问,PPO基于的markov过程的假设,和多轮对话需要具有上下文的记忆,这个如何解决?需要后续的研究。

参考文章:全网唯一,不忽悠的ChatGPT

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhghfkee
系列文章
更多 icon
同类精品
更多 icon
继续加载