作者:卢菁老师_北大AI博士后
观看:38,133次
弹幕:30
上传时间:2025-02-04
作者:紫陌洛西
观看:13,647次
弹幕:6
上传时间:2025-02-09
相关: RF 大模型 flappy bird LLM GRPO PPO deepseek 大模型强化学习 deepseek-r1
作者:大模型解码室
观看:6,133次
弹幕:5
上传时间:2024-06-17
相关: 强化学习 nlp Actor Model RLHF原理 Reference Model Critic Model Reward Model