一种增强的Good-Turing方法

被引:0
|
作者
毛隽
何炎祥
刘娟
成钢
机构
[1] 武汉大学计算机学院
关键词
图灵打折; 回退; 数据平滑; 未登录词;
D O I
10.14188/j.1671-8836.2007.05.010
中图分类号
TP391.1 [文字信息处理]; H087 [数理语言学];
学科分类号
摘要
在传统的图灵回退语言模型的基础上,提出了一种增强的图灵回退语言模型.这种增强的方法通过3个算法实现,包括语言模型的实现流程,以及统计语言模型中三元语法串、二元语法串和一元语法串的概率计算的方法,并将未登录词的计算结合起来.通过利用大规模语料库进行实验,验证了这种改进的N元语法语言模型能较好解决传统语言模型中的二元语法串、一元语法串和未登录词计算等问题.
引用
收藏
页码:527 / 530
页数:4
相关论文
共 2 条
  • [1] Chinese Word Segmentation and Named Entity Recognition: A Pragmatic Approach[J] . Jianfeng Gao,Mu Li,Chang-Ning Huang,Andi Wu.Computational Linguistics . 2005 (4)
  • [2] Class-based n-gram models of natural language. Brown P F et al. Computational Linguistics . 1992