Targeted training for numerical reasoning with large language models

被引：0

作者：

Li, Xiao ^{[1
]}

Liu, Sichen ^{[1
]}

Zhu, Yin ^{[1
]}

Cheng, Gong ^{[1
]}

机构：

[1] Nanjing Univ, State Key Lab Novel Software Technol, Nanjing 210023, Peoples R China

来源：

KNOWLEDGE AND INFORMATION SYSTEMS | 2024年

基金：

中国国家自然科学基金;

关键词：

Data refining; Numerical reasoning; Large language model; Knowledge distillation;

D O I：

10.1007/s10115-024-02216-1

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

After recent gains achieved by large language models (LLMs) on numerical reasoning tasks, it has become of interest to have LLMs teach small models to improve on numerical reasoning. Instructing LLMs to generate Chains of Thought to fine-tune small models is an established approach. However, small models are passive in this line of work and may not be able to exploit the provided training data. In this paper, we propose a novel targeted training strategy to match LLM's assistance with small models' capacities. The small model will proactively request LLM's assistance when it sifts out confusing training data. Then, LLM refines such data by successively revising reasoning steps and reducing question complexity before feeding the small model. Experiments show that this targeted training approach remarkably improves the performance of small models on a range of numerical reasoning datasets by 12-25%, making small models even competitive with some LLMs.

引用

页数：25

共 50 条

[41] Tree -of-Reasoning Question Decomposition for Complex Question Answering with Large Language Models
Zhang, Kun
Zeng, Jiali
Meng, Fandong
Wang, Yuanzhuo
Sun, Shiqi
Bai, Long
Shen, Huawei
Zhou, Jie
[J]. THIRTY-EIGHTH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE, VOL 38 NO 17, 2024, : 19560 - 19568
[42] PlanBench: An Extensible Benchmark for Evaluating Large Language Models on Planning and Reasoning about Change
Valmeekam, Karthik
Marquez, Matthew
Olmo, Alberto
Sreedharan, Sarath
Kambhampati, Subbarao
[J]. ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 36 (NEURIPS 2023), 2023,
[43] Sasha: Creative Goal-Oriented Reasoning in Smart Homes with Large Language Models
King, Evan
Yu, Haoxiang
Lee, Sangsu
Julien, Christine
[J]. PROCEEDINGS OF THE ACM ON INTERACTIVE MOBILE WEARABLE AND UBIQUITOUS TECHNOLOGIES-IMWUT, 2024, 8 (01):
[44] MindMap: Constructing Evidence Chains for Multi-Step Reasoning in Large Language Models
Wu, Yangyu
Han, Xu
Song, Wei
Cheng, Miaomiao
Li, Fei
[J]. THIRTY-EIGHTH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE, VOL 38 NO 17, 2024, : 19270 - 19278
[45] CRASS: A Novel Data Set and Benchmark to Test Counterfactual Reasoning of Large Language Models
Frohberg, Jorg
Binder, Frank
[J]. LREC 2022: THIRTEEN INTERNATIONAL CONFERENCE ON LANGUAGE RESOURCES AND EVALUATION, 2022, : 2126 - 2140
[46] Testing the General Deductive Reasoning Capacity of Large Language Models Using OOD Examples
Saparov, Abulhair
Pang, Richard Yuanzhe
Padmakumar, Vishakh
Joshi, Nitish
Kazemi, Seyed Mehran
Kim, Najoung
He, He
[J]. ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 36 (NEURIPS 2023), 2023,
[47] Quartet: A Holistic Hybrid Parallel Framework for Training Large Language Models
Zhang, Weigang
Zhou, Biyu
Wu, Xing
Gao, Chaochen
Liu, Zhibing
Tang, Xuehai
Li, Ruixuan
Han, Jizhong
Hu, Songlin
[J]. EURO-PAR 2024: PARALLEL PROCESSING, PART II, EURO-PAR 2024, 2024, 14802 : 424 - 438
[48] Memorization Without Overfitting: Analyzing the Training Dynamics of Large Language Models
Tirumala, Kushal
Markosyan, Aram H.
Zettlemoyer, Luke
Aghajanyan, Armen
[J]. ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 35 (NEURIPS 2022), 2022,
[49] Predictive Prompts with Joint Training of Large Language Models for Explainable Recommendation
Lin, Ching-Sheng
Tsai, Chung-Nan
Su, Shao-Tang
Jwo, Jung-Sing
Lee, Cheng-Hsiung
Wang, Xin
[J]. MATHEMATICS, 2023, 11 (20)
[50] Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling
Biderman, Stella
Schoelkopf, Hailey
Anthony, Quentin
Bradley, Herbie
O'Brien, Kyle
Hallahan, Eric
Khan, Mohammad Aflah
Purohit, Shivanshu
Prashanth, U. S. V. S. N. Sai
Raff, Edward
Skowron, Aviya
Sutawika, Lintang
van der Wal, Oskar
[J]. INTERNATIONAL CONFERENCE ON MACHINE LEARNING, VOL 202, 2023, 202

← 1 2 3 4 5 →