Reinforcement Learning from Human Feedback

Reinforcement Learning from Human Feedback #

视频地址:https://www.youtube.com/watch?v=2MBJOuVq380&t=1s

内容简介:虽然听GPT有点听得PTSD,但为了看RLHF还是要结合它来看。一些前置的RL概念可以看这篇:https://paperexplained.cn/articles/article/detail/33/#id-h2-e37ba622acc1

这个视频主要讲了三件事儿:

  1. RLHF的起源,从decision making开始:
    • 08年基于TAMER framework,也就是人类直接给agent reward来应用到俄罗斯方块的AI (icdl08-knox.pdf (utexas.edu))
    • 17年的时候将人对于特定agent移动任务的trajectory偏好训练了一个reward predictor得到了很好的效果 (https://arxiv.org/pdf/1706.03741.pdf)
    • 20年的时候OpenAI尝试将human feedback应用于文本summarize (这篇就是之前@Zhenyu Duan 说KL距离公式写错了的那篇paper) (https://arxiv.org/pdf/2009.01325.pdf)
  2. LLM与RLHF结合的方式(主要是基于InstructGPT的概括:https://arxiv.org/pdf/2203.02155.pdf)
    • pre-trained supervised model + reward model + fine tuning with RL
  3. 对比了Anthropic/OpenAI/DeepMind在apply RL on LM方法上的异同

视频下面给出了其他RLHF在LM上面的探索: