chatgpt是啥很强吗谁研发的
最近火热的ChatGPT,是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列任务。公开资料显示,马斯克正是ChatGPT背后开发团队OpenAI的联合创始人之一。
从周五到周末ChatGPT已经疯传开来,其对话能力让人惊艳。从玩梗、写诗、写剧本,到给程序找bug,帮人设计网页,甚至帮你生成AIGC的提示词,一副无所不能的样子。可以去Twitter上看Ben Tossell梳理的一些例子,或者自己去试试!一位MBA老师让ChatGPT回答自己的管理学题目,结论是以后不能再布置可以带回家的作业了。
有人让ChatGPT参加了智商测试,得分83;SAT测试得分1020,对应人类考生52%分位。要知道ChatGPT并没有对数学方面做过优化,已经是相当不错的结果了。
相比之前的GPT-3,ChatGPT的提升点在于能记住之前的对话,连续对话的感觉让人舒服。
ChatGPT可以承认错误,如果你认为他的回答不对,你可以让他改正,并给出更好的答案。
ChatGPT可以质疑不正确的前提,GPT-3刚发布后很多人测试的体验并不好,因为AI经常创造虚假的内容(只是话语通顺,但脱离实际),而现在再问“哥伦布2015年来到美国的情景”这样的问题,AI已经知道哥伦布不属于这个时代了。
ChatGPT还采用了注重道德水平的训练方式,按照预先设计的道德准则,对不怀好意的提问和请求“说不”;当然,尽管OpenAI非常小心,这种准则还是可能被聪明的提问方式绕开。
为什么ChatGPT的提升这么明显
除了带有记忆能力、上下文连续对话能带给人显著的交互体验提升,ChatGPT的训练方式也值得关注。上述提到的RLHF方法首见于22年3月发表的论文(Training language models to follow instructions with human feedback),但根据业界的推测,RLHF并未用到InstructGPT的训练中。InstructGPT所用到的text-davinci-002遇到了一些问题,会呈现出模式坍塌(mode collapse)现象,不管问他什么问题,经常收敛到同样的答案,比如正面情绪相关的回答都是跟婚礼派对相关。
这次RLHF的方法得以在ChatGPT上应用,并取得了很好的效果。但RLHF实际上并不容易训练,强化学习很容易遇到模式坍塌,反馈过于稀疏这类问题,训练起来很困难。这可能也是为什么论文在3月发表,ChatGPT在12月才上线,中间需要大量的时间来调优。
此外,指令调整(instruction tuning)的贡献也很大。InstructGPT虽然在参数上比GPT-3少了100倍(13亿 vs 1750亿),它的输出效果比GPT-3以及用监督学习进行微调的模型都要好得多。
根据知乎用户“避暑山庄梁朝伟”的观点:“Instruction Tuning和Prompt方法的核心一样,就是去发掘语言模型本身具备的知识。而他们的不同点就在于,Prompt是去激发语言模型的补全能力,比如给出上半句生成下半句、或者做完形填空,都还是像在做language model任务,而Instruction Tuning则是激发语言模型的理解能力,通过给出更明显的指令,让模型去理解并做出正确的反馈。”
人工智能系统ChatGPT大火,不少领域的从业人员都开始担心失业,这把火也烧到了医疗领域。据报道,ChatGPT在美国执业医师资格考试中取得合格或接近合格的成绩。