Apache Flink流式计算模型在数据处理中的应用与性能优化研究

被引:0
|
作者
徐海霞 [1 ]
机构
[1] 新疆石河子职业技术学院
关键词
流式计算; Apache Flink; 大规模数据处理; 性能优化; 并行计算;
D O I
10.14004/j.cnki.ckt.2024.0458
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
文章旨在研究Apache Flink流式计算模型在数据处理中的应用与性能优化。先从可扩展性、容错性和数据并行处理能力三个方面对Apache Flink流式计算框架技术特点进行论述,再对Apache Flink流式计算框架核心思想与工作流程进行研究,并提出一套执行数据处理任务的Java源码,再从并行计算、数据存储和传输、算法参数、系统配置、资源管理与调度、检查点和容错机制、编码和序列化等方面就如何进行Apache Flink性能优化进行分析,最后通过实验手段就优化性能进行分析。实验结果表明,优化后的平均响应时间显著减少,吞吐量相应增加,调整并行度和内存分配等参数可显著提升系统性能,但还需要考虑任务调度和资源分配等方面的综合因素,因此,Apache Flink流式计算框架调优策略具有一定的应用价值。
引用
收藏
页码:71 / 73
页数:3
相关论文
共 5 条
  • [1] 分布式图处理若干算法与统一图处理编程框架研究[D] 王肇康 南京大学 2021,
  • [2] 分布式与自动化大数据智能分析算法与编程计算平台[D] 朱光辉 南京大学 2020,
  • [3] 分布式决策树算法在分类问题中的研究与实现[D] 母亚双 大连理工大学 2018,
  • [4] 数据规约中分布式实例选取关键技术研究[D] 司鲁 国防科技大学 2017,
  • [5] Hadoop平台下的分布式聚类算法研究与实现[D] 刘健 东北大学 2013,