chatgpt的算法原理介绍
chatgpt的算法原理是基于GPT⑶,先通过人工标注方式训练出强化学习的冷启动模型与reward反馈模型,最后通过强化学习的方式学习出对话友好型的ChatGPT模型。
InstructGPT是基于GPT⑶模型训练出来的,具体步骤以下:
1、从GPT⑶的输入语句数据集中采样部份输入,基于这些输入,采取人工标注完成希望得到输出结果与行动,然后利用这些标注数据进行GPT⑶有监督的训练。该模型即作为指令式GPT的冷启动模型。
2、在采样的输入语句中,进行前向推理取得多个模型输出结果,通过人工标注进行这些输出结果的排序打标。终究这些标注数据用来训练reward反馈模型。
3、采样新的输入语句,policy策略网络生成输出结果,然后通过reward反馈模型计算反馈,该反馈回过头来作用于policy策略网络。以此反复,这里就是标准的reinforcement learning强化学习的训练框架了。
所以总结起来ChatGPT(对话GPT)其实就是InstructGPT(指令式GPT)的同源模型,然后指令式GPT就是基于GPT⑶,先通过人工标注方式训练出强化学习的冷启动模型与reward反馈模型,最后通过强化学习的方式学习出对话友好型的ChatGPT模型。以下是论文中相应对话友好型的定量结果(其中PPO-ptx曲线就是InstructGPT模型),可以看到在回答友好型上InstructGPT是远超原始GPT的:
TikTok千粉号购买平台:https://tiktokusername.com/
TOP