您的当前位置:首页正文

自学习分词算法在科研项目查重系统中的应用

2021-02-03 来源:东饰资讯网
科技通报 第29卷第6期 Vo1.29 No.6 2013年6月 BULLETIN 0F SCIENCE AND TECHNOL0GY Jun.2013 自学习分词算法在科研项目查重系统中的应用 胡局新,鞠训光 州T程学院信电工程学院,江苏徐州221008) 摘要:分析了几种常见分词算法的优缺点,简述了自动分词算法模型以及其应用领域,基于现有分 词算法的局限,提出了一种基于字符串和统计分词算法相结合的自学习分词算法,并将此算法成功应 用于科技项目查重系统中,实现便捷、快速、准确的一种有效检测手段,为进一步实现科研项目查重系 统更智能化、更科技化打下基础。 关键词:自学习;分词技术;查重系统 中图分类号:TP391 文献标识码:A 文章编号:1001—7119(2013)06—0014—03 Self-learning Algorithm for Chinese Word Segmentation in Scientiifc Research and Project Application of Duplicate Checking System Hu Juxin,Ju Xunguang (Department of Information and Electircal Engineering,Xuzhou Institute Of Technology,Xuzhou 221008,China) Abstract:This paper analyzed the advantages and disadvantages of several common segmentation algorihtms,described automatic segmentation algorithm model and its application field,based on the existing word segmentation algorithm limi— tations,provides a self learning algorithm for Chinese word segmentation based on string and statistical word segmentation algorithm,and the algorithm is successfully applied to the project of science and technology of duplicate checking sys— tem,the realization is convenient,quick,accurate an efective means of detection,to further the relaization of pmjects of duplicate checking system more intelligent,more science and technology foundation. Key words:self learning;segmentation technology;checking system 中文自动分词研究最早可追溯到2O世纪50年代后 1)基于字符串的分词方法 期的俄汉翻译机的研制时期。目前中文自动分词方法 基于字符串匹配的分词方法又叫做字符串分词方 至少有十几种,其中最常见的有:正向最大匹配法、反 法,它是按照一定的策略将待分析的字串与一个机器 向最大匹配法、双向最大匹配法、设立切分标志法、最 词典中的词条进行匹配,若在词典中找到某个字符串, 佳匹配法以及字符串分词加歧义校正法和知识分词方 则匹配成功(识别出一个词1。按照扫描方向的不同,字 法等。这些方法虽然名称各异,分词速度也不尽相同, 符串匹配分词方法可以分为正向匹配和逆向匹配。 但从本质上可将它们归为两类:一类是基于词典的字 2)基于理解的分词方法 符串分词方法;一类是基于规则的分词方法。 基于理解的分词方法是通过让计算机模拟人对句 子的理解,达到识别词的效果。通常的分析系统,都力 1 常见的中文分词方法 图在分词阶段消除所有歧义切分现象。其基本思想就 是在分词的同时进行句法、语义分析,利用句法信息和 现有的分词算法可分为3大类:基于字符串匹配的 语义信息来处理歧义现象。 分词方法、基于理解的分词方法和基于统计的分词方 3)基于统计的分词方法 法。 基于统计的分词方法从形式上看,词是稳定的字 收稿日期:2012—09—24 作者简介:胡局新(1979~),男,江苏徐州人,硕士,讲师,主要研究方向:数据库技术、智能计算。 第6期 胡局新等.自学习分词算法在科研项目查重系统中的应用 l5 设 是分词过程中依据的分词词典,W1,W2,W3, …,Wn是 中的元素f词条),n为自然数。陧要进行分 词的中文文本,它包括非汉字字符集合A和汉字字符 集合C。其中非汉字字符集合是由外文字母、阿拉伯数 字、标点符号和空格等组成。设 是 中短句的集合,则 堤D和A的元素组成的序列。对任意的一个歧义字段 图1汉语自动分词系统框架 Fig.1 The Chinese automatic word segmentation system framework P=C1,C2,・一, 都有惟一的映射K:W1,W2,…,Ws。其 中 ∈W, =1,2,…,s,使得P在 的作用下得到正确切 分。分词模型可表示为: ,, , , 。 其中腥基本分词方法, 是分词词典,院中文文 本, 为知识库。对任意一个短句(或字段)d∈T,有,id ) = 1,W2,…,Wn。其中厂∈,:W1,W2,…,Wn∈W,k∈ K。上式表示脏 约束下,将d切分成为W1,W2,…,Wn, 有时k还包括d的上下文知识。汉语自动分词系统框架 如图l所示。 图2改进算法执行流程图 分词模型及方法的实现都是根据不同的应用需求 Fig.2 Flow chart of algorithm implementation 进行研究和开发,中文自动分词技术的主要应用领域 如下: (1)信息检索:代替人扫搜在互联网上想获取的 信息,通过采用分词技术使检索的信息更加准确,效率 也会大幅度地提高。 (2)机器翻译:翻译涉及到中文翻译成其他语种, 为更加准确和高效,得到翻译结果之前应对中文进行 准确分词,否则对应的外文将会丢失原意,造成表达错 误,随时代技术的发展,基于理解的翻译也是机器翻译 的发展方向。 (3)文本自动校对和查重:分词是文本校对中的 一个基本模块,校对系统运用分词模块对文本进行分 词,运用词语之间搭配的合理性来识别可能的错误。查 重系统同样运用分词模块对导人的文本与库中文本进 图3查重系统中的分词算法应用 行分词对比,比较相似度、词重合度以及复制率。 Fig.3 The checking system of word segmentation algorithm 组合,相邻的字同时出现的次数越多,就越有可能构成 3 自学习分词算法的研究与实现 一个词。因此,字与字相邻共现的频率或概率能够较好 地反映成词的可信度。可以对语料中相邻共现的各个 3.1自学习改进分词算法分析 字的组合的频度进行统计,计算它们的互现信息。 本文提出了基于词库与统计相结合的中文分词算 以上3种分词方法在一定程度上都存在着优缺点, 法。在不进行具体分词处理时,定期地统计语料库信 为更好的服务于中文分词,本文提出一种具有自学习 息,获取频繁序列来更新分词词典,而且也具备字符串 能力的分词算法,继承了基于字符串分词算法和统计 分词的速度快、效率高的特点。在字符串分词方面,传 算法的优点,实现快速准确、自学习的分词算法。 统的分词采用正向和逆向最大匹配算法,由于正向最 大匹配算法只能实现长词优先的原则,每次分词只能 2 自动分词模型及应用分析 切分出最长的词,但不能进行细粒度切分。因此分词准 确率较低。改进的正向、逆向最大匹配算法,采用“正向 汉语根据语义及语境的不同表达着不同的意思, 迭代最细粒度切分算法”,从左到右(正向1,按照最细粒 那么根据前面介绍的几种分词方法,每种分词方法在 度(能成词的全部切分)输出,这样将待切分的文本中能 实现过程中都建立一个初步的分词模型,具体如下: 分成词的词都切分出来,在很大程度上提高了词语的 6 科技通报 第29卷 回 国 以下3种情况: 找不到匹配节点。 到达树的叶子节点。 等于0。 (4)此时,C0为最大匹配,切分出的结果为Ki= C1C2…Ci 图4词典更新流程图 如果i等于0,此段文字分词结束,转到步骤(2)。 Fig.4 Flow chart of updated dictionary :l=如果i大于0,i=i一1,转步骤(3)。 切分准确性。 改进的具体逐词匹配算法如下: 基于词库与统计相结合的中文分词算法的执行流 k=getWordPosition(strBegin,word1); 程如图2所示。 if(word1Is_palcemark—or._namemark) 这个算法在分词的文本处理上采用了基于词典的 ifndnameor___place(word1); 机械分词方法,目的在于加快分词速度。在分词词典的 if(wordlisafalse_ambiguity) 构造上,参考了无词典分词的新词抽出方法,使分词词 cut_words(word1); 典可以应对层出不穷的新词,专业词汇等传统词典难 else{ 以处理的问题。 m=word1.1ength; 3.2改进分词算法实现 max_ambiguity=word1; 本文提出的改进算法是基于字符串与统计算法相 while(k<=mandwjisnotacut_mark) 结合的自学习分词算法,主要采用正向和逆向最大逐 {j=getNoWordPosition(k); 词匹配算法。 if0>m) 3.2.1正向最大逐字匹配分词算法处理流程. { (1)预处理,去除标点符号,并把每段标点符号之 max_ambiguity=str(k,j); 间的文字提取出单独存放,预处理完的结果保存为一 m_j; 个分词输入文件。 } (2)按顺序读出分词输入文件中的一段文字,记 k++: 一段文字为.sn,分词结果为Kn(n=l,2…),全部读取完 ) 毕时,算法结束。 算法中对歧义字段的查找是一个复杂过程,在实 (3)设待切分的中文字串为Sn=COC1C2…Cn,当 际中,由于歧义字段的链长不是很长,且分词算法中用 前正在匹配字为C (O<= <=n, 初始为0) = 。首先根据 到标点符号等切分标记,故算法本身不会产生膨胀的 c 为开头的词条树,然后沿着树结点逐层匹配,直到出 搜索空间。 现以下3种情况: 找不到匹配节点。 4 自学习的自动分词算法在科研项 找到可以成词的节点。 等于rt。 目查重系统中的应用 (4)此时,C 最小匹配,切分出的结果为Ki: 自动分词算法的应用领域之一就是文本查重,本 C1C2…Ci 节重点分析本文提出的自学习分词算法在科研项目查 如果i等于n,此段文字分词结束,转到步骤(2)。 重系统中的应用,首先针对已有的科研项目系统中的 如果洲、于n,i=i+1,转步骤(3)。 文本进行语料统计分析来得到新词,可以构建出实用 3.2.2逆向最大逐词匹配算法处理流程 性更强,更全面的分词词典。具体算法在科研项目查重 当进行逆向逐字匹配时,只要使用上文所述倒转 系统中的应用框架如图3所示。 词典中的词条,对算法稍作改动即可。由后向前对文本 进行匹配。详细步骤如下: 如图3分析,当文本导人查重系统后,经过内部的 (1)与改进正向算法一致。 分词算法,对导人的科研申报文本进行分词处理,通过 对文本中的已录词和未学习词进行识别,完成整篇文 (2)与改进正向算法一致。 章的分词了解,最终根据查重系统要求将语句相同率 (3)设待切分的中文字串为Sn=COCIC2…Cn,当前 和相同语句标示,输出对比结果。在查重系统中实现词 正在匹配字为C (0<= <= , 初始为n) = 。首先根据 为开头的词条树,然后沿着树节点逐层匹配,直到出现 (下转第19页) 第6期 高亚丽.分散型高压力下坡体承压风险监控方法研究 3 结论 本文为得到准确预测建筑物表面压力分布合适的 模型及计算方法,采用一种基于压力流体动能分析的 高压下,坡体承压检测模型。通过对建筑坡体进行压力 检测,运用有效的分类处理机制,去除外界干扰,建立 压力优化检测模型,对分散型的建筑坡体进行承压检 (a)垂直截面平均压力系数 测。仿真结果表明,给定合适边界条件和计算方法,使 用这种优化压力计算模型能够得到准确的分散型坡体 压力系数计算结果,可以为更加复杂的工程实际计算 提供研究参考和应用依据。 参考文献: 【1】 Richards P J,Hoxey R P,Short J L.Wind pressures on a 6 m cube[J1.Wind Eng.Ind.Aeordyn.2001,89(14—151: 1553—1564. 嘲 Wrisht G J Easom.Non-1inear k一£turbulence model re— (b)水平截囟平均压力系数 图1不同模型的计算结果对比 suits for flow over a building at full—scale『J】.Applied Fig.1 Different model calculation resul ̄were compared Mathematical Modelling 2003 f27):1013—1033. 利用LES稳态模型、DES SST稳态模型以及本文提 Roy C J,DeChant L J,Payne J L,Blottner F G.2003. 出的分散型高压力稳态模型,运算分散型高压力下的 Bluff-body?ow simulations using hybrid RANS/LES【J]. AIAA Paper 2003:3889. 坡体承压垂直面以及水平截面压力系数的分布曲线图 Hanjalic K.Kenjeres S.Some developments in turbulence 用图1描述。 modeling for wind and environmental engineering IJj. 分析图1可以得出,本文提出的基于压力流体动能 Wind Eng.Ind.Aerodyn.2008,96:1537—1570. 分析的高压下,坡体承压检测模型能够有效地获取分 D A K se,D Fauconnier,E Dick.ILES offlow over low 散型坡体的压力系数,从而为更加复杂的工程计算提 irse buildings Influence of inlfow conditions on the quality 供研究参考和应用依据。 of the mean pressure distirbution prediction[J].Journal of Wind Engineering and Industiral Aerodynamics. (上接第16页) 库自学习功能,将科研查重系统的所有文章中的语句 结构,提高了分词过程中的匹配速度,提高了分词效 转化成语料库中的词,当有新文本导人时,针对文本中 率,为科研查重提供了一套有力的查询对比方法,为科 出现的新词进行自学习,同时将新词通过字符串分词 研项目申报查重提供强有力的算法依据。 算法抽取出来,添加至词典中。具体实现如图4所示。 该算法能够经过语料训练从而分出“新词”,就是 参考文献: 在汉语词汇表中没有收录到的词。只要它的出现次数 [1】 邓宏涛.中文自动分词系统的设计模型[J].计算机与数 超过一定的阈值,就能被抽取出,以便之后在分词过程 字工程,2005,33f4):138—140. 中能把它分出来,能实时的更新语料库,完成自学习功 【2】 于琨,糜仲春,蔡庆生.可应用于互联网的自学习中文关 能,通过此种算法的应用将查重系统升级为一种智能 键词抽取算法[J1.中国科学技术大学学报,2002,32(3): 实时校对检测的查重系统。 381—384. 【3】 韩利凯.一种快速web中文分词算法研究[J].航空计算技 5 结论 术,2007,37(N:68—69. [4] 罗桂琼,费洪晓,戴弋.基于反序词典的中文分词技术研 究『J].计算机技术与发展,2008,18(1):80—83. 分词字典的不完备性是导致分词歧义的重要原 [5] Fan C K Tsai W H.Automatic word identification in Chi- 因,为丰富与完善分词知识库,提高分词正确率,本文通 nese sentence by the relaxation technique.Computer Pro- 过对多种分词算法的研究,提出了一种基于自学习的 cessing of Chinese and Oriental Languages,1 988,4(1): 汉语自动分词算法,改进了传统字符串分词中的词典 30-57 

因篇幅问题不能全部显示,请点此查看更多更全内容