作者:紫陌洛西
观看:13,286次
弹幕:6
上传时间:2025-02-09
相关: RF 大模型 flappy bird LLM GRPO PPO deepseek 大模型强化学习 deepseek-r1
作者:迪哥谈AI
观看:12,781次
弹幕:73
上传时间:2023-12-31
相关: 科学 科技 人工智能 机器学习 神经网络 深度学习 大模型 强化学习 迪哥谈AI 2023热门年度盘点 2023年度科技榜单
作者:一枚卓子
观看:1,219次
弹幕:0
上传时间:2025-03-21
相关: 人工智能 AI 大模型 强化学习 DeepseekR1 DeepSeek爆火 充电星计划
作者:卢菁老师_北大AI博士后
观看:38,037次
弹幕:30
上传时间:2025-02-04
作者:大模型解码室
观看:6,083次
弹幕:5
上传时间:2024-06-17
相关: 强化学习 nlp Actor Model RLHF原理 Reference Model Critic Model Reward Model
作者:紫陌洛西
观看:4,290次
弹幕:4
上传时间:2025-01-11
相关: RF 强化学习 PPO actor-critic value-based 大模型强化学习 policy-based LLM PPO