A Counterexample on Sample-Path Optimality in Stable Markov Decision Chains with the Average Reward Criterion

被引：0

作者：

Rolando Cavazos-Cadena

Raúl Montes-de-Oca

Karel Sladký

机构：

[1] Universidad Autónoma Agraria Antonio Narro,Departamento de Estadística y Cálculo

[2] Universidad Autónoma Metropolitana,Departamento de Matemáticas

[3] Institute of Information Theory and Automation,undefined

来源：

Journal of Optimization Theory and Applications | 2014年 / 163卷

关键词：

Strong sample-path optimality; Lyapunov function condition; Stationary policy; Expected average reward criterion;

D O I：

暂无

中图分类号：

学科分类号：

摘要：

This note deals with Markov decision chains evolving on a denumerable state space. Under standard continuity-compactness requirements, an explicit example is provided to show that, with respect to a strong sample-path average reward criterion, the Lyapunov function condition does not ensure the existence of an optimal stationary policy.

引用

页码：674 / 684

页数：10

共 50 条

[21] Bounded parameter Markov decision processes with average reward criterion
Tewari, Ambuj
Bartlett, Peter L.
[J]. LEARNING THEORY, PROCEEDINGS, 2007, 4539 : 263 - +
[22] REVERSIBLE MARKOV DECISION PROCESSES WITH AN AVERAGE-REWARD CRITERION
Cogill, Randy
Peng, Cheng
[J]. SIAM JOURNAL ON CONTROL AND OPTIMIZATION, 2013, 51 (01) : 402 - 418
[23] MULTIOBJECTIVE MARKOV DECISION-PROCESS WITH AVERAGE REWARD CRITERION
DURINOVIC, S
LEE, HM
KATEHAKIS, MN
FILAR, JA
[J]. LARGE SCALE SYSTEMS IN INFORMATION AND DECISION TECHNOLOGIES, 1986, 10 (03): : 215 - 226
[24] Optimal switching problem for countable Markov chains: average reward criterion
Alexander Yushkevich
[J]. Mathematical Methods of Operations Research, 2001, 53 : 1 - 24
[25] Optimal switching problem for countable Markov chains: average reward criterion
Yushkevich, A
[J]. MATHEMATICAL METHODS OF OPERATIONS RESEARCH, 2001, 53 (01) : 1 - 24
[26] COUNTEREXAMPLE IN CONTINUOUS MARKOV DECISION CHAINS
LEMBERSKY, MR
OTT, ML
[J]. MANAGEMENT SCIENCE SERIES A-THEORY, 1974, 21 (03): : 358 - 359
[27] CONTINUOUS TIME MARKOV DECISION PROGRAMMING WITH AVERAGE REWARD CRITERION AND UNBOUNDED REWARD RATE
郑少慧
[J]. Acta Mathematicae Applicatae Sinica, 1991, (01) : 6 - 16
[28] STRONG AVERAGE OPTIMALITY CRITERION FOR CONTINUOUS-TIME MARKOV DECISION PROCESSES
Wei, Qingda
Chen, Xian
[J]. KYBERNETIKA, 2014, 50 (06) : 950 - 977
[29] Another Set of Optimality Conditions for Zero-Sum Stochastic Games with Sample-Path Average Payoffs
Yang, Jie
[J]. INTERNATIONAL JOURNAL OF APPLIED MATHEMATICS & STATISTICS, 2014, 52 (07): : 23 - 37
[30] RECURRENCE CONDITIONS FOR AVERAGE AND BLACKWELL OPTIMALITY IN DENUMERABLE STATE MARKOV DECISION CHAINS
DEKKER, R
HORDIJK, A
[J]. MATHEMATICS OF OPERATIONS RESEARCH, 1992, 17 (02) : 271 - 289

← 1 2 3 4 5 →