搜索‘大模型强化学习’结果

【走进RL强化学习】奖励模型Reward Model训练

【走进RL强化学习】奖励模型Reward Model训练

作者:小鱼儿at青岛

观看:5,263次

弹幕:0

上传时间:2025-02-03

相关: R1 RL 强化学习 PPO DeepSeek Reward Model

一个故事秒懂强化学习与GRPO!

一个故事秒懂强化学习与GRPO!

作者:懂点AI事儿

观看:7,761次

弹幕:15

上传时间:2025-03-05

相关: RL 通俗易懂 强化学习 LLM GRPO PPO deepseek DeepSeek

大模型面经--强化学习篇

大模型面经--强化学习篇

作者:qiongsuan

观看:3,044次

弹幕:1

上传时间:2024-10-07

相关: NLP 大模型 面经

零基础学习强化学习算法:ppo

零基础学习强化学习算法:ppo

作者:RethinkFun

观看:81,182次

弹幕:367

上传时间:2024-06-10

相关: 人工智能 深度学习 强化学习 GAE PPO 梯度策略 HFRL

推荐视频

迷人的自然风光,舒缓的音乐 放松音乐疗法

迷人的自然风光,舒缓的音乐 放松音乐疗法

作者:静音乐屋

观看:184次

弹幕:0

上传时间:2025-02-02

相关: 治愈 放松 冥想 静心 助眠

自然风光和安静音乐,优美放松

自然风光和安静音乐,优美放松

作者:静音乐屋

观看:2,649次

弹幕:0

上传时间:2024-12-27

相关: 音乐 风景 轻音乐 放松 减压