Learning Infinite-Horizon Average-Reward Markov Decision Processes with Constraints

被引：0

作者：

Chen, Liyu ^{[1
]}

Jain, Rahul ^{[1
]}

Luo, Haipeng ^{[1
]}

机构：

[1] Univ Southern Calif, Los Angeles, CA 90007 USA

来源：

INTERNATIONAL CONFERENCE ON MACHINE LEARNING, VOL 162 | 2022年

关键词：

D O I：

暂无

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

We study regret minimization for infinite horizon average-reward Markov Decision Processes (MDPs) under cost constraints. We start by designing a policy optimization algorithm with carefully designed action-value estimator and bonus term, and show that for ergodic MDPs, our algorithm ensures (O) over tilde (root T) regret and constant constraint violation, where T is the total number of time steps. This strictly improves over the algorithm of (Singh et al., 2020), whose regret and constraint violation are both (O) over tilde (T-2/3). Next, we consider the most general class of weakly communicating MDPs. Through a finite-horizon approximation, we develop another algorithm with (O) over tilde (T-2/3) regret and constraint violation, which can be further improved to (O) over tilde(root T) via a simple modification, albeit making the algorithm computationally inefficient. As far as we know, these are the first set of provable algorithms for weakly communicating MDPs with cost constraints.

引用

页数：25

共 50 条

[31] Approximate receding horizon approach for Markov decision processes: average reward case
Chang, HS
Marcus, SI
[J]. JOURNAL OF MATHEMATICAL ANALYSIS AND APPLICATIONS, 2003, 286 (02) : 636 - 651
[32] BATCH POLICY LEARNING IN AVERAGE REWARD MARKOV DECISION PROCESSES
Liao, Peng
Qi, Zhengling
Wan, Runzhe
Klasnja, Predrag
Murphy, Susan A.
[J]. ANNALS OF STATISTICS, 2022, 50 (06): : 3364 - 3387
[33] Characterization and computation of infinite-horizon specifications over Markov processes
Tkachev, Ilya
Abate, Alessandro
[J]. THEORETICAL COMPUTER SCIENCE, 2014, 515 : 1 - 18
[34] MAXIMAL AVERAGE-REWARD POLICIES FOR SEMI-MARKOV DECISION PROCESSES WITH ARBITRARY STATE AND ACTION SPACE
LIPPMAN, SA
[J]. ANNALS OF MATHEMATICAL STATISTICS, 1971, 42 (05): : 1717 - &
[35] A VECTOR MINIMUM SUPERHARMONIC APPROACH TO SOLVING INFINITE-HORIZON DISCOUNTED MARKOV DECISION-PROCESSES
WHITE, DJ
[J]. JOURNAL OF THE OPERATIONAL RESEARCH SOCIETY, 1992, 43 (11) : 1095 - 1102
[36] DUAL ASCENT AND PRIMAL-DUAL ALGORITHMS FOR INFINITE-HORIZON NONSTATIONARY MARKOV DECISION PROCESSES
Ghate, Archis
[J]. SIAM JOURNAL ON OPTIMIZATION, 2023, 33 (03) : 1391 - 1415
[37] Infinite-Horizon Gaussian Processes
Solin, Arno
Hensman, James
Turner, Richard E.
[J]. ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 31 (NIPS 2018), 2018, 31
[38] Adaptive aggregation for reinforcement learning in average reward Markov decision processes
Ronald Ortner
[J]. Annals of Operations Research, 2013, 208 : 321 - 336
[39] Average Reward Reinforcement Learning for Semi-Markov Decision Processes
Yang, Jiayuan
Li, Yanjie
Chen, Haoyao
Li, Jiangang
[J]. NEURAL INFORMATION PROCESSING, ICONIP 2017, PT I, 2017, 10634 : 768 - 777
[40] Adaptive aggregation for reinforcement learning in average reward Markov decision processes
Ortner, Ronald
[J]. ANNALS OF OPERATIONS RESEARCH, 2013, 208 (01) : 321 - 336

← 1 2 3 4 5 →