这次RLHF的方法得以在ChatGPT上应用,并取得了很好的效果。但RLHF实际上并不容易训练,强化学习很容易遇到模式坍塌,反馈过于稀疏这类问题,训练起来很困难。这可能也是为什么论文在3月发表,ChatGPT在12月才上线,中间需要大量的时间来调优。
此外,指令调整(instruction tuning)的贡献也很大。InstructGPT虽然在参数上比GPT-3少了100倍(13亿 vs 1750亿),它的输出效果比GPT-3以及用监督学习进行微调的模型都要好得多。
根据知乎用户“避暑山庄梁朝伟”的观点:“Instruction Tuning和Prompt方法的核心一样,就是去发掘语言模型本身具备的知识。而他们的不同点就在于,Prompt是去激发语言模型的补全能力,比如给出上半句生成下半句、或者做完形填空,都还是像在做language model任务,而Instruction Tuning则是激发语言模型的理解能力,通过给出更明显的指令,让模型去理解并做出正确的反馈。”
人工智能系统ChatGPT大火,不少领域的从业人员都开始担心失业,这把火也烧到了医疗领域。据报道,ChatGPT在美国执业医师资格考试中取得合格或接近合格的成绩。