Solving semi-Markov decision problems using average reward reinforcement learning

被引：0

作者：

Dept. Indust. and Mgmt. Syst. Eng., University of South Florida, Tampa, FL 33620, United States ^{[1
]}

不详 ^{[2
]}

不详 ^{[3
]}

机构：

来源：

Manage Sci | / 4卷 / 560-574期

关键词：

D O I：

暂无

中图分类号：

学科分类号：

摘要：

引用

共 50 条

[31] Sharper Model-free Reinforcement Learning for Average-reward Markov Decision Processes
Zhang, Zihan
Xie, Qiaomin
THIRTY SIXTH ANNUAL CONFERENCE ON LEARNING THEORY, VOL 195, 2023, 195
[32] AN IMPROVED ALGORITHM FOR SOLVING COMMUNICATING AVERAGE REWARD MARKOV DECISION PROCESSES
Haviv, Moshe
Puterman, Martin L.
ANNALS OF OPERATIONS RESEARCH, 1991, 28 (01) : 229 - 242
[33] OPTIMALITY EQUATION IN AVERAGE COST DENUMERABLE STATE SEMI-MARKOV DECISION PROBLEMS, RECURRENCY CONDITIONS AND ALGORITHMS
FEDERGRUEN, A
TIJMS, HC
ADVANCES IN APPLIED PROBABILITY, 1978, 10 (02) : 308 - 308
[34] A Sojourn-Based Approach to Semi-Markov Reinforcement Learning
Ascione, Giacomo
Cuomo, Salvatore
JOURNAL OF SCIENTIFIC COMPUTING, 2022, 92 (02)
[35] A Sojourn-Based Approach to Semi-Markov Reinforcement Learning
Giacomo Ascione
Salvatore Cuomo
Journal of Scientific Computing, 2022, 92
[36] OPTIMALITY EQUATION IN AVERAGE COST DENUMERABLE STATE SEMI-MARKOV DECISION PROBLEMS, RECURRENCY CONDITIONS AND ALGORITHMS
FEDERGRUEN, A
TIJMS, HC
JOURNAL OF APPLIED PROBABILITY, 1978, 15 (02) : 356 - 373
[37] Solving decentralized continuous Markov decision problems with structured reward
Benazera, Emmanuel
KI 2007: Advances in Artificial Intelligence, Proceedings, 2007, 4667 : 337 - 351
[38] BATCH POLICY LEARNING IN AVERAGE REWARD MARKOV DECISION PROCESSES
Liao, Peng
Qi, Zhengling
Wan, Runzhe
Klasnja, Predrag
Murphy, Susan A.
ANNALS OF STATISTICS, 2022, 50 (06): : 3364 - 3387
[39] Learning and Planning in Average-Reward Markov Decision Processes
Wan, Yi
Naik, Abhishek
Sutton, Richard S.
INTERNATIONAL CONFERENCE ON MACHINE LEARNING, VOL 139, 2021, 139 : 7665 - 7676
[40] On mean reward variance in semi-Markov processes
Karel Sladký
Mathematical Methods of Operations Research, 2005, 62 : 387 - 397

← 1 2 3 4 5 →