![]() |
【引言】使用空间向量模型方法对科技项目进行查重,一般要先对文本进行分词, 但如果直接用分词的结果作为文本向量中的各个维, 则整个文本向量空间的维数将非常高,这会降低整个处理过程的效率,且会损害聚类算法的精确性。因此,为了降低向量空间维数,简化计算,提高文本处理效率,需在不损害文本核心信息的情况下尽量减少要处理的单词数。一般的方法是根据某个特征评估函数来计算各个词的特征得分,又称为权值,然后按分值对这些特征进行排序,选取若干个分值最高的作为特征词。这些特征词即可作为文本的中间表示形式, 用来实现文本之间的相似度计算、文本聚类等。特征提取算法的优劣将直接影响到系统的运行效果, 而决定文本特征提取效果的主要因素是评估函数的质量。当前有多种文本特征的评估算法, 如TF-IDF、词频方法、互信息、期望交叉熵、二次信息熵、信息增益方法、x2 统计方法、遗传算法、主成分分析法、模拟退火算法、N-Gram 算法等。这些评估算法在不同领域中得到使用,也各自存在缺点和不足。其中TF-IDF因为计算较为简单并且效果良好,应用十分广泛。
知识产权声明 | 服务承诺 | 联系我们 | 人才招聘 | 客服中心 | 充值中心 | 关于我们 Copyright© 中国期刊全文数据库
电子邮件:journals@188.com 备案号:辽ICP备14002692号-1 |