文档详情 ID: cmjopk8py14gt3188c4rdmp9w 后台管理 31,[加课]强化学习[新增] 网盘资源 | 影盘社 file:日入500+自动软件网盘玩法-b265b25d1c53.docx file:网盘拉新项目入口.JPG file:8:代码实战Q-Learning_Agent和Env整体交互.mp4 file:6:SARSA算法和Q-learning算法.mp4 file:2:引入马尔科夫链和价值评估的Q值与V值.mp4 file:12:代码实战Sarsa_Agent选择行为和训练模型.mp4 file:10:代码实战Q-Learning智能体训练模型.mp4 file:5:蒙特卡洛和时序差分估算状态V值.mp4 file:7:理解Q-table_创建maze交互环境.mp4 file:1:强化学习通过智能体与环境交互进行学习.mp4 file:3:详解Q值和V值以及它们之间关系.mp4 file:52:代码实战_A3C_讲解线程中worker和GlobalNet交互_代码运行效果展示.mp4 file:39:ActorCritic原理_把PG和QLearning结合起来.mp4 file:43:代码实战_详解Critic网络构建及训练.mp4 file:45:Pendulum环境_根据网络预测的μ和σ得到连续型的action值.mp4 file:47:代码实战_A3C_定义Worker计算loss的逻辑_针对连续型的action提高actor探索性.mp4 file:49:代码实战_A3C_定义AC网络结构_定义worker拉取参数和更新全局网络参数的逻辑.mp4 file:46:代码实战_A3C_讲解Coordinator调度多线程运算.mp4 file:44:A3C架构和训练流程.mp4 file:50:代码实战_A3C_结合流程图分三点总结前面讲的代码.mp4 file:48:代码实战_A3C_增加actor探索性用到熵_定义worker正太分布抽样和求梯度的逻辑.mp4 file:40:AdvantageActorCritic_共享参数和修改reward技巧.mp4 file:22:DQN会over-estimate的本质原因.mp4 file:15:DQN算法具体流程.mp4 file:25:DuelingDQN.mp4 file:20:代码实战DQN_训练阶段得到Q网络的预测值和真实值.mp4 file:16:ε-greedy_ReplayBuffer_FixedQ-targets.mp4 file:21:代码实战DQN_训练阶段最小化损失_记录loss方便展示_随着learn的越多选择action随机性减小.mp4 file:19:代码实战DQN_定义损失函数_构建Target网络更新逻辑.mp4 file:18:代码实战DQN_构建Q网络.mp4 file:26:困难样本挖掘_Multi-step_NoiseyNet系统的探索.mp4 file:27:计算Action的方差避免风险.mp4 file:28:Rainbow_DQN如何计算连续型的Actions.mp4 file:24:DoubleDQN代码实战.mp4 file:33:策略梯度PG_讲解CartPole环境.mp4 file:31:策略梯度PG_简化导函数的公式推导.mp4 file:37:策略梯度PG_对TotalReward进行均值归一化.mp4 file:32:策略梯度PG_总结整体流程_对比交叉熵损失函数求导.mp4 file:35:代码实战_策略梯度PG网络构建.mp4 file:38:策略梯度PG_同一个回合中不同的action回溯不同的TotalReward_代码实战.mp4 file:29:策略梯度PG_对比基于值和基于策略网络的区别.mp4 file:67:代码实战_DPPO_GlobalPPO和Workers交替执行.mp4 file:58:PPO_强调AC如何输出连续型动作_区分On-Policy与Off-Policy.mp4 file:59:PPO_通过重要性采样使得PPO可以做Off-Policy学习.mp4 file:53:DDPG解决DQN不能输出连续型动作的问题_DDPG如何训练Actor和Critic.mp4 file:54:代码实战_DDPG_构建Actor和Critic四个网络_定义Critic求loss和求梯度的逻辑.mp4 file:63:代码实战_定义PPO1和PPO2不同版本Actor的Loss计算逻辑.mp4 file:60:PPO_重要性采样的问题_期望矫正但是方差还是不同带来的问题.mp4 file:61:PPO_PPO1,TRPO,PPO2三种不同的方式解决两个分布不同的问题.mp4 file:56:代码实战_DDPG_与环境之间的互动_AC训练调整参数_效果展示.mp4 file:62:代码实战_PPO与环境整体交互_Actor与Critic网络构建.mp4 file:64:代码实战_剖析PPO代码中如何体现Off-Policy的学习方式_效果展示.mp4 file:65:DPPO分布式PPO.mp4 file:55:代码实战_DDPG_Critic网络构建_Actor网络链式求导.mp4 file:57:TD3_使用DoubleNetwork优化DDPG.mp4 folder:31,[加课]强化学习[新增] folder:章节1:Q-Learning与SARSA算法 folder:章节4:ActorCritic(A3C) folder:章节2:DeepQ-LearningNetwork folder:章节3:PolicyGradient策略梯度 folder:章节5:DDPG,PPO,DPPO算法 分享时间 2025-12-25 入库时间 2025-12-27 资源类型 夸克网盘 分享用户 阳光*气的草莓 扫码获取资源 复制链接 进入网盘 分享资源