IndicDialogue: A dataset of subtitles in 10 Indic languages for Indic language modeling

被引：0

作者：

Arnob, Noor Mairukh Khan ^{[1
]}

Faiyaz, A. ^{[1
]}

Fuad, Md Mubtasim ^{[1
]}

Masud, Shah Murtaza Rashid Al ^{[1
]}

Das, Baivab ^{[1
]}

Mridha, M. F. ^{[2
]}

机构：

[1] Univ Asia Pacific, Dept Comp Sci & Engn, Dhaka, Bangladesh

[2] Amer Int Univ Bangladesh, Dept Comp Sci, Dhaka, Bangladesh

来源：

DATA IN BRIEF | 2024年 / 55卷

关键词：

Natural Language Processing (NLP); Low-resource languages; Linguistics; Inclusive AI;

D O I：

10.1016/j.dib.2024.110690

中图分类号：

O [数理科学和化学]; P [天文学、地球科学]; Q [生物科学]; N [自然科学总论];

学科分类号：

07 ; 0710 ; 09 ;

摘要：

The Languages of the Indian subcontinent are less represented in current NLP literature. To mitigate this gap, we present the IndicDialogue dataset, which contains subtitles and dialogues in 10 major Indic languages: Hindi, Bengali, Marathi, Telugu, Tamil, Urdu, Odia, Sindhi, Nepali, and Assamese. This dataset is sourced from OpenSubtitles.org, with subtitles pre-processed to remove irrelevant tags, timestamps, square brackets, and links, ensuring the retention of relevant dialogues in JSONL files. The IndicDialogue dataset comprises 7750 raw subtitle files (SRT), 11 JSONL files, 6,853,518 dialogues, and 42,188,569 words. It is designed to serve as a foundation for language model pre-training for low-resource languages, enabling a wide range of downstream tasks including word embeddings, topic modeling, conversation synthesis, neural machine translation, and text summarization. (c) 2024 The Author(s). Published by Elsevier Inc. This is an open access article under the CC BY-NC license ( http://creativecommons.org/licenses/by-nc/4.0/ )

引用

页数：11

共 50 条

[41] Problematic Protoforms: Some "Hidden" Indic Loans in Western Malayo-Polynesian Languages
Hoogervorst, Tom
OCEANIC LINGUISTICS, 2016, 55 (02) : 561 - 587
[42] TRANSLITERATION OR TRANSCRIPTION - CASE FOR INDIC LANGUAGE USE IN BRITISH PUBLIC-LIBRARIES
RAIT, SK
LIBRARY SCIENCE WITH A SLANT TO DOCUMENTATION, 1981, 18 (03): : 131 - 136
[43] Command and control of industrial manipulator through speech-based interfaces in Indic Languages
N. Saravanan
R. Sivaramakrishnan
The Journal of Supercomputing, 2019, 75 : 5106 - 5117
[44] BODY LANGUAGE: INDIC SARIRA AND CHINESE SHELI IN THE MAHAPARINIRVANA-SUTRA AND THE SADDHARMAPUNDARIKA
Keyworth, George A.
RELIGIOUS STUDIES REVIEW, 2009, 35 (01) : 80 - 80
[45] BODY LANGUAGE. INDIC SARIRA AND SHELI IN THE MAHAPARINIRVANA-SUTRA AND SADDHARMAPUNDARIKA
Werner, Karel
JOURNAL OF THE ROYAL ASIATIC SOCIETY, 2009, 19 : 264 - 267
[46] Natural Language Query Refinement Scheme for Indic Literature Information System on Mobiles
Pathak, Varsha M.
Joshi, Manish R.
EMERGING ICT FOR BRIDGING THE FUTURE, VOL 2, 2015, 338 : 145 - 156
[47] Evaluation of Partition-Based Text Clustering Techniques to Categorize Indic Language Documents
Meedeniya, D. A.
Perera, A. S.
2009 IEEE INTERNATIONAL ADVANCE COMPUTING CONFERENCE, VOLS 1-3, 2009, : 1497 - 1500
[48] Extremely Low-resource Multilingual Neural Machine Translation for Indic Mizo Language
Lalrempuii C.
Soni B.
International Journal of Information Technology, 2023, 15 (8) : 4275 - 4282
[49] Aksharantar: Open Indic-language Transliteration datasets and models for the Next Billion Users
Madhani, Yash
Parthan, Sushane
Bedekar, Priyanka
Gokul, N. C.
Khapra, Ruchi
Kunchukuttan, Anoop
Kumar, Pratyush
Khapra, Mitesh M.
FINDINGS OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS - EMNLP 2023, 2023, : 40 - 57
[50] Low Resource Neural Machine Translation: Assamese to/from Other Indo-Aryan (Indic) Languages
Baruah, Rupjyoti
Mundotiya, Rajesh Kumar
Singh, Anil Kumar
ACM TRANSACTIONS ON ASIAN AND LOW-RESOURCE LANGUAGE INFORMATION PROCESSING, 2022, 21 (01)

← 1 2 3 4 5 →