文章摘要
谢力,李光耀,谭云兰.基于词频和文本类别的互信息改进算法[J].井冈山大学自然版,2013,(3):41-44
基于词频和文本类别的互信息改进算法
AN IMPROVED MUTUAL INFORMATION ALGORITHM BASED ON WORD FREQUENCY AND TEXT CATEGORY
  
DOI:
中文关键词: 互信息  特征选择  词频  文本类别  MⅢc
英文关键词: mutual information  feature selection  word frequency  text category  MIFC
基金项目:上海市科委国际合作基金项目(10510712500)
作者单位
谢力,李光耀,谭云兰  
摘要点击次数: 2456
全文下载次数: 0
中文摘要:
      分析了传统的互信息特征选择算法的不足,针对可能赋予低频特征词过高权重的问题,利用词频、集中度这两个强信息特征指标对算法进行改进,提出了一种基于词频和文本类别的互信息改进算法(Improved Mutual Infonnation Algodthm based on Word Frequency and Text Category,简称改进的MIFC)。实验结果表明,改进的MIFC算法提取的特征空间比传统的互信息算法有更高的精确度。
英文摘要:
      This paper analyzes the shortages of Mutual Information (MI) algorithm. Aiming at the problem that low frequency features may have higher weights, we take advantage of two indexes of strong informational features- word frequency and concentration ratio and propose an improved MI algorithm based on word frequency and text category (MIFC). The result of the experiment shows that MIFC algorithm has greater accuracy than traditional MI algorithm.
查看全文   查看/发表评论  下载PDF阅读器
关闭