Foot In The Door: Understanding Large Language Model Jailbreaking via Cognitive Psychology

被引：0

作者：

National University of Defense Technology, China ^{[1
]}

不详 ^{[2
]}

机构：

来源：

arXiv |

关键词：

D O I：

暂无

中图分类号：

学科分类号：

摘要：

'current - Black boxes - Cognitive psychology - Consistency theory - Decision-making mechanisms - Language model - Model security - Multisteps - Psychological explanation - Security protection

引用

共 50 条

[31] Unsupervised Large Language Model Alignment for Information Retrieval via Contrastive Feedback
Dong, Qian
Liu, Yiding
Ai, Qingyao
Wu, Zhijing
Li, Haitao
Liu, Yiqun
Wang, Shuaiqiang
Yin, Dawei
Ma, Shaoping
PROCEEDINGS OF THE 47TH INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL, SIGIR 2024, 2024, : 48 - 58
[32] Enhancing Multimodal Sentiment Analysis via Learning from Large Language Model
Pang, Ning
Wu, Wansen
Hu, Yue
Xu, Kai
Yin, Quanjun
Qin, Long
2024 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO, ICME 2024, 2024,
[33] GEM: Gestalt Enhanced Markup Language Model for Web Understanding via Render Tree
Shao, Zirui
Gao, Feiyu
Qi, Zhongda
Xing, Hangdi
Bu, Jiajun
Yu, Zhi
Zheng, Qi
Liu, Xiaozhong
2023 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING, EMNLP 2023, 2023, : 6132 - 6145
[34] Developing safe and responsible large language model: can we balance bias reduction and language understanding?Developing safe and responsible large language model...S. Raza et al.
Shaina Raza
Oluwanifemi Bamgbose
Shardul Ghuge
Fatemeh Tavakoli
Deepak John Reji
Syed Raza Bashir
Machine Learning, 2025, 114 (6)
[35] Understanding Before Recommendation: Semantic Aspect-Aware Review Exploitation via Large Language Models
Liu, Fan
Liu, Yaqi
Chen, Huilin
Cheng, Zhiyong
Nie, Liqiang
Kankanhalli, Mohan
ACM TRANSACTIONS ON INFORMATION SYSTEMS, 2025, 43 (02)
[36] LARR: Large Language Model Aided Real-time Scene Recommendation with Semantic Understanding
Wan, Zhizhong
Yin, Bin
Xie, Junjie
Jiang, Fei
Li, Xiang
Lin, Wei
PROCEEDINGS OF THE EIGHTEENTH ACM CONFERENCE ON RECOMMENDER SYSTEMS, RECSYS 2024, 2024, : 23 - 32
[37] SkyEyeGPT: Unifying remote sensing vision-language tasks via instruction tuning with large language model
Zhan, Yang
Xiong, Zhitong
Yuan, Yuan
ISPRS JOURNAL OF PHOTOGRAMMETRY AND REMOTE SENSING, 2025, 221 : 64 - 77
[38] From jargon to clarity: Improving the readability of foot and ankle radiology reports with an artificial intelligence large language model
Butler, James J.
Harrington, Michael C.
Tong, Yixuan
Rosenbaum, Andrew J.
Samsonov, Alan P.
Walls, Raymond J.
Kennedy, John G.
FOOT AND ANKLE SURGERY, 2024, 30 (04) : 331 - 337
[39] Multi-Intent Inline Code Comment Generation via Large Language Model
Zhang, Xiaowei
Chen, Zhifei
Cao, Yulu
Chen, Lin
Zhou, Yuming
INTERNATIONAL JOURNAL OF SOFTWARE ENGINEERING AND KNOWLEDGE ENGINEERING, 2024, 34 (06) : 845 - 868
[40] GreenLLM: Towards Efficient Large Language Model via Energy-aware Pruning
Tian, Chunlin
Qin, Xinpeng
Li, Li
2024 IEEE/ACM 32ND INTERNATIONAL SYMPOSIUM ON QUALITY OF SERVICE, IWQOS, 2024,

← 1 2 3 4 5 →