PFIMD: a parallel MapReduce-based algorithm for frequent itemset mining

被引：0

作者：

Mao Yimin

Geng Junhao

Deborah Simon Mwakapesa

Yaser Ahangari Nanehkaran

Zhang Chi

Deng Xiaoheng

Chen Zhigang

机构：

[1] Jiangxi University of Science and Technology,School of Information Engineering

[2] Central South University,School of Computer Science and Engineering

来源：

Multimedia Systems | 2021年 / 27卷

关键词：

DiffNodeset structure; MapReduce; 2-Way comparison strategy; Load balancing strategy based on dynamic grouping; Frequent item mining;

D O I：

暂无

中图分类号：

学科分类号：

摘要：

Frequent itemset mining (FIM) is a significant data mining technique which is widely adopted in numerous applications for exploring frequent items. With the rapid growth and expansion of datasets, FIM has become an interesting topic for many researchers, which has triggered many innovations of numerous FIM algorithms in the big data environment. This study aims to design an optimization parallel frequent itemset mining algorithm based on MapReduce, named as PFIMD\documentclass[12pt]{minimal} \usepackage{amsmath} \usepackage{wasysym} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{amsbsy} \usepackage{mathrsfs} \usepackage{upgreek} \setlength{\oddsidemargin}{-69pt} \begin{document}$${\text{PFIMD}}$$\end{document} algorithm, to deal with the problem of time and space complexity during processing and computing item sets, as well as the failure to adequately balance the load among parallel tasks in the existing parallel FIM algorithms. First, a structure called DiffNodeset\documentclass[12pt]{minimal} \usepackage{amsmath} \usepackage{wasysym} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{amsbsy} \usepackage{mathrsfs} \usepackage{upgreek} \setlength{\oddsidemargin}{-69pt} \begin{document}$${\text{DiffNodeset}}$$\end{document} is adopted for avoiding the increase of N-list\documentclass[12pt]{minimal} \usepackage{amsmath} \usepackage{wasysym} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{amsbsy} \usepackage{mathrsfs} \usepackage{upgreek} \setlength{\oddsidemargin}{-69pt} \begin{document}$$N{-}list$$\end{document} cardinality in the MRPrePost\documentclass[12pt]{minimal} \usepackage{amsmath} \usepackage{wasysym} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{amsbsy} \usepackage{mathrsfs} \usepackage{upgreek} \setlength{\oddsidemargin}{-69pt} \begin{document}$${\text{MRPrePost}}$$\end{document} algorithm effectively. Then, a 2-way comparison strategy is designed to speed up the DiffNodeset\documentclass[12pt]{minimal} \usepackage{amsmath} \usepackage{wasysym} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{amsbsy} \usepackage{mathrsfs} \usepackage{upgreek} \setlength{\oddsidemargin}{-69pt} \begin{document}$${\text{DiffNodeset}}$$\end{document} generation of 2-itemsets and reduce the time complexity of the algorithm. Finally, the steps of the improved algorithm are parallelized using the cloud computing platform Hadoop and the programming model MapReduce. Moreover, to achieve a uniform grouping of each item in F-list\documentclass[12pt]{minimal} \usepackage{amsmath} \usepackage{wasysym} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{amsbsy} \usepackage{mathrsfs} \usepackage{upgreek} \setlength{\oddsidemargin}{-69pt} \begin{document}$$F{-}list$$\end{document}, a load balancing strategy based on dynamic grouping is proposed, which solves the problem of uneven load of each node in the cluster. The experimental results show that the modified algorithm not only overcomes the shortcoming of MRPrePost\documentclass[12pt]{minimal} \usepackage{amsmath} \usepackage{wasysym} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{amsbsy} \usepackage{mathrsfs} \usepackage{upgreek} \setlength{\oddsidemargin}{-69pt} \begin{document}$${\text{MRPrePost}}$$\end{document} in the big data environment, but also greatly reduces the time and space complexity. Finally, the specific applications of PFIMD\documentclass[12pt]{minimal} \usepackage{amsmath} \usepackage{wasysym} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{amsbsy} \usepackage{mathrsfs} \usepackage{upgreek} \setlength{\oddsidemargin}{-69pt} \begin{document}$${\text{PFIMD}}$$\end{document} algorithm in several multimedia data sets are listed to illustrate its universality.

引用

页码：709 / 722

页数：13

共 50 条

[1] PFIMD: a parallel MapReduce-based algorithm for frequent itemset mining
Mao, Yimin
Geng, Junhao
Mwakapesa, Deborah Simon
Nanehkaran, Yaser Ahangari
Chi, Zhang
Deng, Xiaoheng
Chen, Zhigang
[J]. MULTIMEDIA SYSTEMS, 2021, 27 (04) : 709 - 722
[2] MapReduce-based Frequent Itemset Mining for Analysis of Electronic Evidence
Jiang, Xueqing
Sun, Guozi
[J]. 2013 EIGHTH INTERNATIONAL WORKSHOP ON SYSTEMATIC APPROACHES TO DIGITAL FORENSIC ENGINEERING (SADFE), 2013,
[3] MapReduce-based Closed Frequent Itemset Mining with Efficient Redundancy Filtering
Wang, Su-Qi
Yang, Yu-Bin
Chen, Guang-Peng
Gao, Yang
Zhang, Yao
[J]. 12TH IEEE INTERNATIONAL CONFERENCE ON DATA MINING WORKSHOPS (ICDMW 2012), 2012, : 449 - 453
[4] A Parallel Algorithm for Approximate Frequent Itemset Mining using MapReduce
Fumarola, Fabio
Malerba, Donato
[J]. 2014 INTERNATIONAL CONFERENCE ON HIGH PERFORMANCE COMPUTING & SIMULATION (HPCS), 2014, : 335 - 342
[5] MapReduce Based Frequent Itemset Mining Algorithm on Stream Data
Chaudhary, Hemant
Yadav, Deepak Kumar
Bhatnagar, Rajat
Chandrasekhar, Uddagiri
[J]. 2015 GLOBAL CONFERENCE ON COMMUNICATION TECHNOLOGIES (GCCT), 2015, : 586 - 591
[6] A parallel algorithm for frequent itemset mining
Li, L
Zhai, DH
Fan, J
[J]. PARALLEL AND DISTRIBUTED COMPUTING, APPLICATIONS AND TECHNOLOGIES, PDCAT'2003, PROCEEDINGS, 2003, : 868 - 871
[7] A Generalized Parallel Algorithm for Frequent Itemset Mining
Craus, Mitica
Archip, Alexandru
[J]. PROCEEDINGS OF THE 12TH WSEAS INTERNATIONAL CONFERENCE ON COMPUTERS , PTS 1-3: NEW ASPECTS OF COMPUTERS, 2008, : 520 - +
[8] A Highly Parallel Algorithm for Frequent Itemset Mining
Mesa, Alejandro
Feregrino-Uribe, Claudia
Cumplido, Rene
Hernandez-Palancar, Jose
[J]. ADVANCES IN PATTERN RECOGNITION, 2010, 6256 : 291 - +
[9] ParallelCharMax: An Effective Maximal Frequent Itemset Mining Algorithm Based on MapReduce Framework
Gahar, Rania Mkhinini
Arfaoui, Olfa
Sassi Hidri, Minyar
Ben Hadj-Alouane, Nejib
[J]. 2017 IEEE/ACS 14TH INTERNATIONAL CONFERENCE ON COMPUTER SYSTEMS AND APPLICATIONS (AICCSA), 2017, : 571 - 578
[10] Frequent Itemset Mining using Improved Apriori Algorithm with MapReduce
Tribhuvan, Seema A.
Gavai, Nitin R.
Vasgi, Bharti P.
[J]. 2017 INTERNATIONAL CONFERENCE ON COMPUTING, COMMUNICATION, CONTROL AND AUTOMATION (ICCUBEA), 2017,

← 1 2 3 4 5 →