无码av一区二区三区无码,在线观看老湿视频福利,日韩经典三级片,成 人色 网 站 欧美大片在线观看

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

【王樹森】深度強化學習(DRL)

2023-01-05 16:21 作者:嘻嘻000001  | 我要投稿

sarsa與Q-learning都為TD算法

獎勵Rt及Q派對t+1時刻做出的估計,對于任何策略派都成立

處理Q*得到最大的那個

At+1最優(yōu)動作,最大化Q*

左邊Q*在t時刻做出的預測,等于期望

對期望做蒙克卡羅近似,得到TDtarget

用觀測到的st代替st+1,做近似

Yt部分為正確觀測,比左邊可靠,于是,把yt作為target鼓勵左邊接近右邊

最優(yōu)動作函數(shù)

表格式

Q*即為該表格

狀態(tài)的動作都有限

找出St+1對應的行,找到改行最大的元素

即Q*關于a的最大值

每次更新一個參數(shù)讓td 愛若減小

計算dita t 計算Q* 使其更接近

神經(jīng)網(wǎng)絡形式的算法

每次用一個觀測的一個transition更新參數(shù)w aifa 學習率


每次用一個更新

【王樹森】深度強化學習(DRL)的評論 (共 條)

分享到微博請遵守國家法律
孟州市| 迁安市| 淮南市| 新巴尔虎左旗| 泰安市| 广东省| 桃江县| 连州市| 资中县| 类乌齐县| 贞丰县| 汕尾市| 黑水县| 沈丘县| 河西区| 东辽县| 沂南县| 桦甸市| 珲春市| 镇雄县| 汶上县| 赫章县| 开化县| 慈溪市| 涟水县| 南陵县| 海门市| 徐汇区| 四平市| 九江市| 林口县| 张家港市| 富锦市| 古交市| 德令哈市| 沙雅县| 遂宁市| 师宗县| 泊头市| 罗源县| 镇远县|