31,[加课]强化学习[新增] 网盘资源 | 影盘社

file:日入500+自动软件网盘玩法-b265b25d1c53.docx
file:网盘拉新项目入口.JPG
file:8:代码实战Q-Learning_Agent和Env整体交互.mp4
file:6:SARSA算法和Q-learning算法.mp4
file:2:引入马尔科夫链和价值评估的Q值与V值.mp4
file:12:代码实战Sarsa_Agent选择行为和训练模型.mp4
file:10:代码实战Q-Learning智能体训练模型.mp4
file:5:蒙特卡洛和时序差分估算状态V值.mp4
file:7:理解Q-table_创建maze交互环境.mp4
file:1:强化学习通过智能体与环境交互进行学习.mp4
file:3:详解Q值和V值以及它们之间关系.mp4
file:52:代码实战_A3C_讲解线程中worker和GlobalNet交互_代码运行效果展示.mp4
file:39:ActorCritic原理_把PG和QLearning结合起来.mp4
file:43:代码实战_详解Critic网络构建及训练.mp4
file:45:Pendulum环境_根据网络预测的μ和σ得到连续型的action值.mp4
file:47:代码实战_A3C_定义Worker计算loss的逻辑_针对连续型的action提高actor探索性.mp4
file:49:代码实战_A3C_定义AC网络结构_定义worker拉取参数和更新全局网络参数的逻辑.mp4
file:46:代码实战_A3C_讲解Coordinator调度多线程运算.mp4
file:44:A3C架构和训练流程.mp4
file:50:代码实战_A3C_结合流程图分三点总结前面讲的代码.mp4
file:48:代码实战_A3C_增加actor探索性用到熵_定义worker正太分布抽样和求梯度的逻辑.mp4
file:40:AdvantageActorCritic_共享参数和修改reward技巧.mp4
file:22:DQN会over-estimate的本质原因.mp4
file:15:DQN算法具体流程.mp4
file:25:DuelingDQN.mp4
file:20:代码实战DQN_训练阶段得到Q网络的预测值和真实值.mp4
file:16:ε-greedy_ReplayBuffer_FixedQ-targets.mp4
file:21:代码实战DQN_训练阶段最小化损失_记录loss方便展示_随着learn的越多选择action随机性减小.mp4
file:19:代码实战DQN_定义损失函数_构建Target网络更新逻辑.mp4
file:18:代码实战DQN_构建Q网络.mp4
file:26:困难样本挖掘_Multi-step_NoiseyNet系统的探索.mp4
file:27:计算Action的方差避免风险.mp4
file:28:Rainbow_DQN如何计算连续型的Actions.mp4
file:24:DoubleDQN代码实战.mp4
file:33:策略梯度PG_讲解CartPole环境.mp4
file:31:策略梯度PG_简化导函数的公式推导.mp4
file:37:策略梯度PG_对TotalReward进行均值归一化.mp4
file:32:策略梯度PG_总结整体流程_对比交叉熵损失函数求导.mp4
file:35:代码实战_策略梯度PG网络构建.mp4
file:38:策略梯度PG_同一个回合中不同的action回溯不同的TotalReward_代码实战.mp4
file:29:策略梯度PG_对比基于值和基于策略网络的区别.mp4
file:67:代码实战_DPPO_GlobalPPO和Workers交替执行.mp4
file:58:PPO_强调AC如何输出连续型动作_区分On-Policy与Off-Policy.mp4
file:59:PPO_通过重要性采样使得PPO可以做Off-Policy学习.mp4
file:53:DDPG解决DQN不能输出连续型动作的问题_DDPG如何训练Actor和Critic.mp4
file:54:代码实战_DDPG_构建Actor和Critic四个网络_定义Critic求loss和求梯度的逻辑.mp4
file:63:代码实战_定义PPO1和PPO2不同版本Actor的Loss计算逻辑.mp4
file:60:PPO_重要性采样的问题_期望矫正但是方差还是不同带来的问题.mp4
file:61:PPO_PPO1,TRPO,PPO2三种不同的方式解决两个分布不同的问题.mp4
file:56:代码实战_DDPG_与环境之间的互动_AC训练调整参数_效果展示.mp4
file:62:代码实战_PPO与环境整体交互_Actor与Critic网络构建.mp4
file:64:代码实战_剖析PPO代码中如何体现Off-Policy的学习方式_效果展示.mp4
file:65:DPPO分布式PPO.mp4
file:55:代码实战_DDPG_Critic网络构建_Actor网络链式求导.mp4
file:57:TD3_使用DoubleNetwork优化DDPG.mp4
folder:31,[加课]强化学习[新增]
folder:章节1:Q-Learning与SARSA算法
folder:章节4:ActorCritic(A3C)
folder:章节2:DeepQ-LearningNetwork
folder:章节3:PolicyGradient策略梯度
folder:章节5:DDPG,PPO,DPPO算法

分享时间

2025-12-25

入库时间

2025-12-27

资源类型

夸克网盘

分享用户

阳光*气的草莓

扫码获取资源

进入网盘

分享资源