共 23 条
基于多智能体Actor-double-critic深度强化学习的源-网-荷-储实时优化调度方法
被引:0
|作者:
徐业琰
[1
]
姚良忠
[1
]
廖思阳
[1
]
程帆
[1
]
徐箭
[1
]
蒲天骄
[2
]
王新迎
[2
]
机构:
[1] 武汉大学电气与自动化学院
[2] 中国电力科学研究院有限公司
来源:
关键词:
源-网-荷-储;
实时调度;
带约束马尔科夫合作博弈;
多智能体深度强化学习;
D O I:
暂无
中图分类号:
TM73 [电力系统的调度、管理、通信];
TP18 [人工智能理论];
学科分类号:
081104 ;
0812 ;
0835 ;
1405 ;
摘要:
为保证新型电力系统的安全高效运行,针对模型驱动调度方法存在的调度优化模型求解困难、实时决策求解速度慢等问题,该文提出一种基于多智能体Actor-double-critic深度强化学习的源-网-荷-储实时优化调度方法。通过构建考虑调节资源运行约束和系统安全约束的实时优化调度模型和引入Vickey-Clark-Groves拍卖机制,设计带约束马尔科夫合作博弈模型,将集中调度模型转换为多智能体间的分布式优化问题进行求解。然后,提出多智能体Actor-double-critic算法,分别采用Self-critic和Cons-critic网络评估智能体的动作-价值和动作-成本,降低训练难度、避免即时奖励和安全约束成本稀疏性的影响,提高多智能体训练收敛速度,保证实时调度决策满足系统安全运行约束。最后,通过仿真算例验证所提方法可大幅缩短实时调度决策时间,实现保证系统运行安全可靠性和经济性的源-网-荷-储实时调度。
引用
收藏
页码:513 / 527
页数:15
相关论文