Optimized Parameter Search for Large Datasets of the Regularization Parameter and Feature Selection for Ridge Regression

被引：0

作者：

Pieter Buteneers

Ken Caluwaerts

Joni Dambre

David Verstraeten

Benjamin Schrauwen

机构：

[1] Ghent University,Electronics and Information Systems

来源：

Neural Processing Letters | 2013年 / 38卷

关键词：

Cross-validation; Feature selection; Ridge regression; Regularization parameter optimization; Computationally efficient; Model selection;

D O I：

暂无

中图分类号：

学科分类号：

摘要：

In this paper we propose mathematical optimizations to select the optimal regularization parameter for ridge regression using cross-validation. The resulting algorithm is suited for large datasets and the computational cost does not depend on the size of the training set. We extend this algorithm to forward or backward feature selection in which the optimal regularization parameter is selected for each possible feature set. These feature selection algorithms yield solutions with a sparse weight matrix using a quadratic cost on the norm of the weights. A naive approach to optimizing the ridge regression parameter has a computational complexity of the order \documentclass[12pt]{minimal} \usepackage{amsmath} \usepackage{wasysym} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{amsbsy} \usepackage{mathrsfs} \usepackage{upgreek} \setlength{\oddsidemargin}{-69pt} \begin{document}$$O(R K N^{2} M)$$\end{document} with \documentclass[12pt]{minimal} \usepackage{amsmath} \usepackage{wasysym} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{amsbsy} \usepackage{mathrsfs} \usepackage{upgreek} \setlength{\oddsidemargin}{-69pt} \begin{document}$$R$$\end{document} the number of applied regularization parameters, \documentclass[12pt]{minimal} \usepackage{amsmath} \usepackage{wasysym} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{amsbsy} \usepackage{mathrsfs} \usepackage{upgreek} \setlength{\oddsidemargin}{-69pt} \begin{document}$$K$$\end{document} the number of folds in the validation set, \documentclass[12pt]{minimal} \usepackage{amsmath} \usepackage{wasysym} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{amsbsy} \usepackage{mathrsfs} \usepackage{upgreek} \setlength{\oddsidemargin}{-69pt} \begin{document}$$N$$\end{document} the number of input features and \documentclass[12pt]{minimal} \usepackage{amsmath} \usepackage{wasysym} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{amsbsy} \usepackage{mathrsfs} \usepackage{upgreek} \setlength{\oddsidemargin}{-69pt} \begin{document}$$M$$\end{document} the number of data samples in the training set. Our implementation has a computational complexity of the order \documentclass[12pt]{minimal} \usepackage{amsmath} \usepackage{wasysym} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{amsbsy} \usepackage{mathrsfs} \usepackage{upgreek} \setlength{\oddsidemargin}{-69pt} \begin{document}$$O(KN^3)$$\end{document}. This computational cost is smaller than that of regression without regularization \documentclass[12pt]{minimal} \usepackage{amsmath} \usepackage{wasysym} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{amsbsy} \usepackage{mathrsfs} \usepackage{upgreek} \setlength{\oddsidemargin}{-69pt} \begin{document}$$O(N^2M)$$\end{document} for large datasets and is independent of the number of applied regularization parameters and the size of the training set. Combined with a feature selection algorithm the algorithm is of complexity \documentclass[12pt]{minimal} \usepackage{amsmath} \usepackage{wasysym} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{amsbsy} \usepackage{mathrsfs} \usepackage{upgreek} \setlength{\oddsidemargin}{-69pt} \begin{document}$$O(RKNN_s^3)$$\end{document} and \documentclass[12pt]{minimal} \usepackage{amsmath} \usepackage{wasysym} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{amsbsy} \usepackage{mathrsfs} \usepackage{upgreek} \setlength{\oddsidemargin}{-69pt} \begin{document}$$O(RKN^3N_r)$$\end{document} for forward and backward feature selection respectively, with \documentclass[12pt]{minimal} \usepackage{amsmath} \usepackage{wasysym} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{amsbsy} \usepackage{mathrsfs} \usepackage{upgreek} \setlength{\oddsidemargin}{-69pt} \begin{document}$$N_s$$\end{document} the number of selected features and \documentclass[12pt]{minimal} \usepackage{amsmath} \usepackage{wasysym} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{amsbsy} \usepackage{mathrsfs} \usepackage{upgreek} \setlength{\oddsidemargin}{-69pt} \begin{document}$$N_r$$\end{document} the number of removed features. This is an order \documentclass[12pt]{minimal} \usepackage{amsmath} \usepackage{wasysym} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{amsbsy} \usepackage{mathrsfs} \usepackage{upgreek} \setlength{\oddsidemargin}{-69pt} \begin{document}$$M$$\end{document} faster than \documentclass[12pt]{minimal} \usepackage{amsmath} \usepackage{wasysym} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{amsbsy} \usepackage{mathrsfs} \usepackage{upgreek} \setlength{\oddsidemargin}{-69pt} \begin{document}$$O(RKNN_s^3M)$$\end{document} and \documentclass[12pt]{minimal} \usepackage{amsmath} \usepackage{wasysym} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{amsbsy} \usepackage{mathrsfs} \usepackage{upgreek} \setlength{\oddsidemargin}{-69pt} \begin{document}$$O(RKN^3N_rM)$$\end{document} for the naive implementation, with \documentclass[12pt]{minimal} \usepackage{amsmath} \usepackage{wasysym} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{amsbsy} \usepackage{mathrsfs} \usepackage{upgreek} \setlength{\oddsidemargin}{-69pt} \begin{document}$$N \ll M$$\end{document} for large datasets. To show the performance and reduction in computational cost, we apply this technique to train recurrent neural networks using the reservoir computing approach, windowed ridge regression, least-squares support vector machines (LS-SVMs) in primal space using the fixed-size LS-SVM approximation and extreme learning machines.

引用

页码：403 / 416

页数：13

共 50 条

[1] Optimized Parameter Search for Large Datasets of the Regularization Parameter and Feature Selection for Ridge Regression
Buteneers, Pieter
Caluwaerts, Ken
Dambre, Joni
Verstraeten, David
Schrauwen, Benjamin
[J]. NEURAL PROCESSING LETTERS, 2013, 38 (03) : 403 - 416
[2] CHOOSING THE REGULARIZATION PARAMETER IN RIDGE-REGRESSION
DEMIDENKO, EZ
[J]. INDUSTRIAL LABORATORY, 1988, 54 (05): : 565 - 571
[3] Adaptive parameter selection for kernel ridge regression
Lin, Shao-Bo
[J]. APPLIED AND COMPUTATIONAL HARMONIC ANALYSIS, 2024, 73
[4] Indirect measurements: combining parameter selection with ridge regression
Polak, AG
[J]. MEASUREMENT SCIENCE AND TECHNOLOGY, 2001, 12 (03) : 278 - 287
[5] REGULARIZATION PARAMETER SELECTION IN INDIRECT REGRESSION BY RESIDUAL BASED BOOTSTRAP
Bissantz, Nicolai
Chown, Justin
Dette, Holger
[J]. STATISTICA SINICA, 2020, 30 (03) : 1255 - 1283
[6] Evolutionary feature and parameter selection in support vector regression
Mejia-Guevara, Ivan
Kuri-Morales, Angel
[J]. MICAI 2007: ADVANCES IN ARTIFICIAL INTELLIGENCE, 2007, 4827 : 399 - +
[7] Parameter selection for HOTV regularization
Sanders, Toby
[J]. APPLIED NUMERICAL MATHEMATICS, 2018, 125 : 1 - 9
[8] On the Selection of the Regularization Parameter in Stacking
Tadayoshi Fushiki
[J]. Neural Processing Letters, 2021, 53 : 37 - 48
[9] On the Selection of the Regularization Parameter in Stacking
Fushiki, Tadayoshi
[J]. NEURAL PROCESSING LETTERS, 2021, 53 (01) : 37 - 48
[10] Bootstrap selection of ridge regularization parameter: a comparative study via a simulation study
Ozkale, M. Revan
Altuner, Husniye
[J]. COMMUNICATIONS IN STATISTICS-SIMULATION AND COMPUTATION, 2023, 52 (08) : 3820 - 3838

← 1 2 3 4 5 →