前言
这就是ChatGPT是什么,以及为什么它可能是自现代搜索引擎以来最重要的工具
正文
OpenAI引入了一种名为ChatGPT的长篇问答AI,可以对话式地回答复杂的问题。
这是一项革命性的技术,因为它经过训练,可以了解人类在提出问题时的意思。
许多用户对它提供人类质量响应的能力感到敬畏,激发了它最终可能有能力破坏人类与计算机交互方式并改变信息检索方式的感觉。
什么是 ChatGPT?
ChatGPT是由OpenAI基于GPT-3.5开发的大型语言模型聊天机器人。它具有以对话形式进行交互的非凡能力,并提供可能看起来令人惊讶的人性化的响应。
大型语言模型执行预测一系列单词中下一个单词的任务。
带有人类反馈的强化学习 (RLHF) 是额外的训练层,它使用人类反馈来帮助 ChatGPT 学习遵循指示并生成人类满意的响应的能力。
谁建立了ChatGPT?
ChatGPT由总部位于旧金山的人工智能公司OpenAI创建。OpenAI Inc.是营利性OpenAI LP的非营利母公司。
OpenAI以其著名的DALL·E,一种深度学习模型,从称为提示的文本指令生成图像。
首席执行官是Sam Altman,他曾担任Y Combinator的总裁。
微软是10亿美元的合作伙伴和投资者。他们共同开发了Azure AI平台。
大型语言模型
ChatGPT是一个大型语言模型(LLM)。大型语言模型 (LLM) 使用大量数据进行训练,以准确预测句子中下一个单词。
人们发现,增加数据量可以提高语言模型做更多事情的能力。
根据斯坦福大学的说法:
LLM预测一个句子中一系列单词中的下一个单词和下一个句子 - 有点像自动完成,但规模令人费解。
这种能力使他们能够编写段落和整页内容。
但LLM的局限性在于它们并不总是确切地了解人类想要什么。
这就是 ChatGPT 改进最新技术的地方,通过前面提到的带有人类反馈的强化学习 (RLHF) 训练。
ChatGPT 是如何训练的?
GPT-3.5 对来自互联网的大量代码和信息数据进行了训练,包括 Reddit 讨论等来源,以帮助 ChatGPT 学习对话并获得人类风格的响应。
ChatGPT还使用人类反馈(一种称为人类反馈强化学习的技术)进行训练,以便AI在提出问题时了解人类的期望。以这种方式训练LLM是革命性的,因为它不仅仅是训练LLM预测下一个单词。
2022 年 3 月的一篇题为“训练语言模型以遵循人类反馈指令”的研究论文解释了为什么这是一种突破性的方法:
“这项工作的动机是我们的目标是通过训练大型语言模型做一组给定的人希望他们做的事情来增加它们的积极影响。
默认情况下,语言模型优化下一个单词预测目标,这只是我们希望这些模型执行的操作的代理。
我们的研究结果表明,我们的技术有望使语言模型更加有用、真实和无害。
使语言模型更大本身并不能使它们更好地遵循用户的意图。
例如,大型语言模型可以生成不真实、有毒或对用户没有帮助的输出。
换句话说,这些模型与其用户不一致。
构建 ChatGPT 的工程师聘请承包商(称为标签机)对两个系统的输出进行评级,GPT-3 和新的 InstructGPT(ChatGPT 的“兄弟模型”)。
根据评级,研究人员得出以下结论:
“贴标机更喜欢InstructGPT输出,而不是GPT-3的输出。
InstructGPT 模型显示真实性比 GPT-3 有所提高。
InstructGPT显示毒性比GPT-3有小幅改善,但没有偏倚。
该研究论文的结论是,InstructGPT的结果是积极的。不过,它也指出仍有改进的余地。
“总体而言,我们的结果表明,使用人类偏好微调大型语言模型显着改善了它们在各种任务上的行为,尽管仍有许多工作要做以提高它们的安全性和可靠性。
ChatGPT 与简单的聊天机器人的不同之处在于,它经过专门训练,可以理解人类在问题中的意图并提供有用、真实和无害的答案。
由于这种培训,ChatGPT 可能会挑战某些问题并丢弃问题中没有意义的部分。
另一篇与ChatGPT相关的研究论文展示了他们如何训练人工智能来预测人类的偏好。
研究人员注意到,用于评估自然语言处理AI输出的指标导致机器在指标上得分很高,但与人类的预期不一致。
以下是研究人员如何解释这个问题:
“许多机器学习应用程序优化了简单的指标,这些指标只是设计师意图的粗略代理。这可能会导致问题,例如YouTube推荐推广点击诱饵。
因此,他们设计的解决方案是创建一个人工智能,可以输出优化为人类喜好的答案。
为此,他们使用不同答案之间的人类比较数据集来训练人工智能,以便机器更好地预测人类判断为令人满意的答案。
该论文分享说,培训是通过总结Reddit帖子来完成的,并且还通过总结新闻进行了测试。
2022 年 2 月的研究论文名为《学会从人类反馈中总结》。
研究人员写道:
“在这项工作中,我们表明,通过训练一个模型来优化人类偏好,可以显着提高摘要质量。
我们收集了一个大型的、高质量的摘要之间人类比较数据集,训练一个模型来预测人类首选的摘要,并将该模型用作奖励函数,使用强化学习来微调摘要策略。
ChatGPT 的局限性是什么?
毒性反应的限制
ChatGPT 经过专门编程,不提供有毒或有害的响应。因此,它将避免回答此类问题。
答案的质量取决于方向的质量
ChatGPT 的一个重要限制是输出的质量取决于输入的质量。换句话说,专家指示(提示)会产生更好的答案。
答案并不总是正确的
另一个限制是,因为它被训练为提供人类感觉正确的答案,所以答案可以欺骗人类输出是正确的。
许多用户发现 ChatGPT 可以提供不正确的答案,包括一些非常不正确的答案。
编码问答网站Stack Overflow的版主可能已经发现了人类感觉正确的答案的意外后果。
Stack Overflow充斥着从ChatGPT生成的用户响应,这些响应似乎是正确的,但很多都是错误的答案。
数以千计的答案使志愿者版主团队不堪重负,促使管理员颁布禁令,禁止任何发布 ChatGPT 生成的答案的用户。
大量的 ChatGPT 答案导致了一篇题为:临时政策:ChatGPT 被禁止的帖子:
“这是一项临时政策,旨在减缓使用 ChatGPT 创建的答案和其他内容的涌入。
...主要问题是,虽然 ChatGPT 生成的答案错误率很高,但它们通常“看起来像”它们“可能”是好的......”
Stack Overflow版主使用错误的ChatGPT答案看起来正确的体验是OpenAI,ChatGPT的制造商,在宣布新技术时意识到并警告的事情。
OpenAI 解释了 ChatGPT 的局限性
OpenAI的公告提出了以下警告:
“ChatGPT有时会写出听起来似是而非但不正确或荒谬的答案。
解决此问题具有挑战性,因为:
(1)在RL培训期间,目前没有事实来源;
(2)训练模型更加谨慎,导致它拒绝可以正确回答的问题;和
(3)监督训练误导了模型,因为理想的答案取决于模型知道什么,而不是人类演示者知道什么。
ChatGPT可以免费使用吗?
ChatGPT 目前在“研究预览”期间免费使用。
聊天机器人目前开放供用户试用并提供有关响应的反馈,以便人工智能可以更好地回答问题并从错误中学习。
官方公告指出,OpenAI渴望收到有关错误的反馈:
“虽然我们努力使模型拒绝不适当的请求,但它有时会响应有害指令或表现出偏见的行为。
我们正在使用审核 API 来警告或阻止某些类型的不安全内容,但我们希望它目前会出现一些漏报和误报。
我们渴望收集用户反馈,以帮助我们正在进行的改进该系统的工作。
目前有一个竞赛,奖金为500美元的ChatGPT积分,以鼓励公众对响应进行评分。
“鼓励用户通过UI提供有关有问题的模型输出的反馈,以及来自外部内容过滤器的误报/负数的反馈,该过滤器也是界面的一部分。
我们对有关在现实世界的非对抗性条件下可能发生的有害输出的反馈特别感兴趣,以及帮助我们发现和了解新风险和可能的缓解措施的反馈。
您可以选择参加 ChatGPT 反馈竞赛3,有机会赢得高达 500 美元的 API 积分。
参赛作品可以通过 ChatGPT 界面中链接的反馈表提交。
目前正在进行的比赛将于太平洋标准时间 2022 年 12 月 31 日晚上 11:59 结束。
相关:OpenAI可能会推出ChatGPT的付费专业版
语言模型会取代谷歌搜索吗?
谷歌本身已经创建了一个名为LaMDA的AI聊天机器人。谷歌聊天机器人的性能非常接近人类对话,以至于谷歌工程师声称LaMDA是有知觉的。
鉴于这些大型语言模型如何回答如此多的问题,像OpenAI,谷歌或微软这样的公司有一天会用AI聊天机器人取代传统搜索是否牵强附会?
Twitter上的一些人已经宣布ChatGPT将成为下一个谷歌。
问答聊天机器人有朝一日可能会取代谷歌,这对那些以搜索营销专业人士为生的人来说是可怕的。
它引发了在线搜索营销社区的讨论,比如流行的Facebook SEOSignals Lab,有人问搜索是否会从搜索引擎转向聊天机器人。
在测试了ChatGPT之后,我不得不同意,担心搜索被聊天机器人取代并不是没有根据的。
这项技术还有很长的路要走,但可以设想混合搜索和聊天机器人的未来。
但是目前ChatGPT的实现似乎是一个工具,在某些时候,需要购买积分才能使用。
如何使用 ChatGPT?
ChatGPT 可以以特定作者的风格编写代码、诗歌、歌曲甚至短篇小说。
遵循方向的专业知识将 ChatGPT 从信息源提升为可以要求完成任务的工具。
这使得它对于撰写几乎任何主题的文章很有用。
ChatGPT 可以作为为文章甚至整部小说生成大纲的工具。
它将为几乎任何可以用书面文本回答的任务提供响应。
结论
如前所述,ChatGPT被设想为公众最终必须付费才能使用的工具。
自 ChatGPT 向公众开放以来的前五天内,已有超过一百万用户注册使用。
本文出至:学新通技术网
标签: