登录   |   注册   |   网站地图
 
 
首页 > 情报探索 > 科技项目查重中特征词TF-IDF值计算方法的改进

科技项目查重中特征词TF-IDF值计算方法的改进

情报探索
Information Research
查看全文
摘要:
【摘要】 针对科技项目查重的需要,利用分词的结果,将科技项目文档转换为文本向量空间模型,抽取特征词,并将特征词的位置和词的长度2个因素考虑进来,提出一种TF-IDF值的改进计算方法,并实例验证该方法有一定的改善效果。
【关键词】 文本特征; 特征词权值; TF-IDF; 算法改进; 项目查重; 科技项目;
【基金】 福建省公益类科研院所科研专项“基于相似性计算的科技项目查重技术研究”(项目编号:2010R1009-4)的成果之一
引言:

【引言】使用空间向量模型方法对科技项目进行查重,一般要先对文本进行分词, 但如果直接用分词的结果作为文本向量中的各个维, 则整个文本向量空间的维数将非常高,这会降低整个处理过程的效率,且会损害聚类算法的精确性。因此,为了降低向量空间维数,简化计算,提高文本处理效率,需在不损害文本核心信息的情况下尽量减少要处理的单词数。一般的方法是根据某个特征评估函数来计算各个词的特征得分,又称为权值,然后按分值对这些特征进行排序,选取若干个分值最高的作为特征词。这些特征词即可作为文本的中间表示形式, 用来实现文本之间的相似度计算、文本聚类等。特征提取算法的优劣将直接影响到系统的运行效果, 而决定文本特征提取效果的主要因素是评估函数的质量。当前有多种文本特征的评估算法, 如TF-IDF、词频方法、互信息、期望交叉熵、二次信息熵、信息增益方法、x2 统计方法、遗传算法、主成分分析法、模拟退火算法、N-Gram 算法等。这些评估算法在不同领域中得到使用,也各自存在缺点和不足。其中TF-IDF因为计算较为简单并且效果良好,应用十分广泛。

作者:
方延风
作者单位:
福建省科学技术信息研究所;

知识产权声明 | 服务承诺 | 联系我们 | 人才招聘 | 客服中心 | 充值中心 | 关于我们

Copyright© 中国期刊全文数据库      电子邮件:journals@188.com   备案号:辽ICP备14002692号-1
友情链接:万方数据库
建议采用IE 6.0以上版本,1024*768分辨率浏览本页面