On average reward semi-markov decision processes with a general multichain structure

被引：22

作者：

Jianyong, L ^{[1
]}

Xiaobo, Z

机构：

[1] Acad Sinica, Inst Appl Math, Beijing 100080, Peoples R China

[2] Tsinghua Univ, Dept Ind Engn, Beijing 100084, Peoples R China

来源：

MATHEMATICS OF OPERATIONS RESEARCH | 2004年 / 29卷 / 02期

关键词：

semi-Markov decision processes; average reward criterion; multichain structure; data-transformation method; optimal policy;

D O I：

10.1287/moor.1030.0077

中图分类号：

C93 [管理学]; O22 [运筹学];

学科分类号：

070105 ; 12 ; 1201 ; 1202 ; 120202 ;

摘要：

In this paper we investigate average reward semi-Markov decision processes with a general multichain structure using a data-transformation method. By solving the transformed discrete-time average Markov decision processes, we can obtain significant and interesting information on the original average semi-Markov decision processes. If the original semi-Markov decision processes satisfy some appropriate conditions, then stationary optimal policies in the transformed discrete-time models are also optimal in the original semi-Markov decision processes.

引用

页码：339 / 352

页数：14

共 50 条

[1] Average Reward Reinforcement Learning for Semi-Markov Decision Processes
Yang, Jiayuan
Li, Yanjie
Chen, Haoyao
Li, Jiangang
[J]. NEURAL INFORMATION PROCESSING, ICONIP 2017, PT I, 2017, 10634 : 768 - 777
[2] RVI Reinforcement Learning for Semi-Markov Decision Processes with Average Reward
Li, Yanjie
Cao, Fang
[J]. 2010 8TH WORLD CONGRESS ON INTELLIGENT CONTROL AND AUTOMATION (WCICA), 2010, : 1674 - 1679
[3] A Unified Approach for Semi-Markov Decision Processes with Discounted and Average Reward Criteria
Li, Yanjie
Wang, Huijing
Chen, Haoyao
[J]. 2014 11TH WORLD CONGRESS ON INTELLIGENT CONTROL AND AUTOMATION (WCICA), 2014, : 1741 - 1744
[4] AVERAGE COST SEMI-MARKOV DECISION PROCESSES
ROSS, SM
[J]. JOURNAL OF APPLIED PROBABILITY, 1970, 7 (03) : 649 - &
[5] SEMI-MARKOV DECISION-PROCESSES WITH POLYNOMIAL REWARD
ROSBERG, Z
[J]. JOURNAL OF APPLIED PROBABILITY, 1982, 19 (02) : 301 - 309
[6] Computing semi-stationary optimal policies for multichain semi-Markov decision processes
Mondal, Prasenjit
[J]. ANNALS OF OPERATIONS RESEARCH, 2020, 287 (02) : 843 - 865
[7] Computing semi-stationary optimal policies for multichain semi-Markov decision processes
Prasenjit Mondal
[J]. Annals of Operations Research, 2020, 287 : 843 - 865
[8] Constrained semi-markov decision processes with average rewards
Feinberg, E.A.
[J]. ZOR. Zeitschrift Fuer Operations Research, 1994, 40 (03):
[9] Risk-Sensitivity and Average Optimality in Markov and Semi-Markov Reward Processes
Sladky, Karel
[J]. 38TH INTERNATIONAL CONFERENCE ON MATHEMATICAL METHODS IN ECONOMICS (MME 2020), 2020, : 537 - 543
[10] Vector-valued Markov decision processes with average reward criterion: The multichain case
Wakuta, K
[J]. PROBABILITY IN THE ENGINEERING AND INFORMATIONAL SCIENCES, 2000, 14 (04) : 533 - 548

← 1 2 3 4 5 →