MarkedBERT: Integrating Traditional IR Cues in Pre-trained Language Models for Passage Retrieval

被引：18

作者：

Boualili, Lila ^{[1
]}

Moreno, Jose G. ^{[1
]}

Boughanem, Mohand ^{[1
]}

机构：

[1] Univ Paul Sabatier, IRIT, Toulouse, France

来源：

PROCEEDINGS OF THE 43RD INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL (SIGIR '20) | 2020年

关键词：

Deep Learning; Passage Retrieval; Exact Matching;

D O I：

10.1145/3397271.3401194

中图分类号：

TP [自动化技术、计算机技术];

学科分类号：

0812 ;

摘要：

The Information Retrieval (IR) community has witnessed a flourishing development of deep neural networks, however, only a few managed to beat strong baselines. Among them, models like DRMM and DUET were able to achieve better results thanks to the proper handling of exact match signals. Nowadays, the application of pretrained language models to IR tasks has achieved impressive results exceeding all previous work. In this paper, we assume that established IR cues like exact term-matching, proven to be valuable for deep neural models, can be used to augment the direct supervision from labeled data for training these pre-trained models. To study the effectiveness of this assumption, we propose MarkedBERT a modified version of one of the most popular pre-trained models via language modeling tasks, BERT. MarkedBERT integrates exact match signals using a marking technique that locates and highlights Exact Matched query-document terms using marker tokens. Experiments on MS MARCO Passage Ranking task show that our rather simple approach is actually effective. We find that augmenting the input with marker tokens allows the model to focus on valuable text sequences for IR.

引用

页码：1977 / 1980

页数：4

共 50 条

[1] I3 Retriever: Incorporating Implicit Interaction in Pre-trained Language Models for Passage Retrieval
Dong, Qian
Liu, Yiding
Ai, Qingyao
Li, Haitao
Wang, Shuaiqiang
Liu, Yiqun
Yin, Dawei
Ma, Shaoping
PROCEEDINGS OF THE 32ND ACM INTERNATIONAL CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT, CIKM 2023, 2023, : 441 - 451
[2] Pre-Trained Language Models and Their Applications
Wang, Haifeng
Li, Jiwei
Wu, Hua
Hovy, Eduard
Sun, Yu
ENGINEERING, 2023, 25 : 51 - 65
[3] ReAugKD: Retrieval-Augmented Knowledge Distillation For Pre-trained Language Models
Zhang, Jianyi
Muhamed, Aashiq
Anantharaman, Aditya
Wang, Guoyin
Chen, Changyou
Zhong, Kai
Cui, Qingjun
Xu, Yi
Zeng, Belinda
Chilimbi, Trishul
Chen, Yiran
61ST CONFERENCE OF THE THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, ACL 2023, VOL 2, 2023, : 1128 - 1136
[4] Integrating Knowledge Graph Embeddings and Pre-trained Language Models in Hypercomplex Spaces
Nayyeri, Mojtaba
Wang, Zihao
Akter, Mst. Mahfuja
Alam, Mirza Mohtashim
Rony, Md Rashad Al Hasan
Lehmann, Jens
Staab, Steffen
SEMANTIC WEB, ISWC 2023, PART I, 2023, 14265 : 388 - 407
[5] Incorporating Explicit Knowledge in Pre-trained Language Models for Passage Re-ranking
Dong, Qian
Liu, Yiding
Cheng, Suqi
Wang, Shuaiqiang
Cheng, Zhicong
Niu, Shuzi
Yin, Dawei
PROCEEDINGS OF THE 45TH INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL (SIGIR '22), 2022, : 1490 - 1501
[6] Annotating Columns with Pre-trained Language Models
Suhara, Yoshihiko
Li, Jinfeng
Li, Yuliang
Zhang, Dan
Demiralp, Cagatay
Chen, Chen
Tan, Wang-Chiew
PROCEEDINGS OF THE 2022 INTERNATIONAL CONFERENCE ON MANAGEMENT OF DATA (SIGMOD '22), 2022, : 1493 - 1503
[7] LaoPLM: Pre-trained Language Models for Lao
Lin, Nankai
Fu, Yingwen
Yang, Ziyu
Chen, Chuwei
Jiang, Shengyi
LREC 2022: THIRTEEN INTERNATIONAL CONFERENCE ON LANGUAGE RESOURCES AND EVALUATION, 2022, : 6506 - 6512
[8] PhoBERT: Pre-trained language models for Vietnamese
Dat Quoc Nguyen
Anh Tuan Nguyen
FINDINGS OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, EMNLP 2020, 2020, : 1037 - 1042
[9] Deciphering Stereotypes in Pre-Trained Language Models
Ma, Weicheng
Scheible, Henry
Wang, Brian
Veeramachaneni, Goutham
Chowdhary, Pratim
Sung, Alan
Koulogeorge, Andrew
Wang, Lili
Yang, Diyi
Vosoughi, Soroush
2023 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING (EMNLP 2023), 2023, : 11328 - 11345
[10] Knowledge Rumination for Pre-trained Language Models
Yao, Yunzhi
Wang, Peng
Mao, Shengyu
Tan, Chuanqi
Huang, Fei
Chen, Huajun
Zhang, Ningyu
2023 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING, EMNLP 2023, 2023, : 3387 - 3404

← 1 2 3 4 5 →