第二节 国内外研究现状
一 术语定义抽取的研究现状
术语定义的自动抽取研究近年来一直受到了语言信息处理界的广泛关注。
贾爱平(2004)从大规模的真实文本中找出带有定义的关键词或关键词短语。通过人工总结出八种定义的规则,再从大规模的真实文本中找出含有关键词但不带有定义的实例,人工找出四种排除规则,最后利用正反两种规则对语料进行测试,并对最终结果进行分析。
张艳(2003)在汉语句法分析的研究基础上,做了汉语术语定义的结构分析与抽取工作,并对术语如何下定义的问题进行了理论层面的探讨与研究。研究者针对《中国大百科全书》中电子学和计算机领域的语料进行了分词和词性标注处理,应用句法分析工具进行概率句法分析,归纳句子中的短语成分,并根据汉语句子的句型结构,总结出术语定义的结构特点,从而获得术语定义主框架与种差部分的短语,同时利用《同义词词林》中的语义类型,定义了核心词与种差之间的关系,自动生成出术语定义。
Horacio Saggion(2004)从WordNet里找到与所要查询术语最相关的词汇及其上位词,作为其相关词语连同查询术语本身一同作为查询项提交给信息抽取系统。该方法可使返回的文档的准确率大大地提高。定义抽取过程中,将与术语定义模板匹配上且包含至少三个相关词语的句子认定为有效的包含术语定义的句子。
Hang Cui(2004)将大规模的候选术语定义句子,通过句法分析器进行词性标注与语块分析。研究者以查询术语为中心开设窗口,统计出每个窗口位置出现某个句法单位的概率,这些概率构成该位置的向量,所有这些向量构成软规则模板。计算候选句子与软规则模板的相似度及词序列的置信度,抽取出概率最大的句子作为候选术语的定义。
钱菲、袁春风(2012)采用规则匹配及基于N元统计模型的模板匹配来计算待匹配文本中每个句子与软模板之间的匹配度,进行术语定义的抽取。
吴瑞红、吕学强(2014)提出术语定义辨析模型并给出一种基于互联网的求解方法。研究者从百度百科与百度搜索中构建参考释义,根据参考定义与释义模板从辨析定义中抽取出最优定义。
上述研究者的工作都在一定程度上实现了术语定义的自动抽取任务,有的也取得了较高的准确率与召回率,但每种方法都有可以互相借鉴的优点,也有可以改善的空间。
我们知道,使用规则的方法需要一整套格式固定的、人工编写的规则模板。由于规则固有的局限性,所以使得信息抽取的精确率与召回率都受到影响;同时人工制定的规则较为主观、片面,缺乏整体性与系统性,难以穷尽复杂、多样的客观语言现象,更难将不断发展变化的语言现象都涵盖进来。单纯的规则匹配的方法只在句型结构上对术语定义进行筛选,而并未考虑到候选句子中每个词语的特征。在真实的自然语言中,大量符合定义模板规则的句子并不一定都是术语定义,而符合排除规则模板的句子有的确实是定义,还有一些规则以外的定义无法被识别,这些都是规则匹配方法先天固有的、难以克服的缺陷。
有的研究者实现的抽取系统涉及语言学方面的词汇、句法甚至语义的分析,处理复杂度较高;同时给术语下定义使用严格的种差加属概念的格式,定义模式灵活性较差,不适合从真实文本抽取其他语言形式(如外延型术语)的术语定义。有的研究方法设定固定数量的与查询术语相关的词语显得比较主观和武断,特别是在包含词语数量较多的候选句子中,该方法有时无法过滤掉垃圾信息,使得准确率无法得到保证。另一方面,在考虑术语相关词语的抽取时,通过计算词语之间的相似度可能将一些相关句子检索出来,这些相关句子可以被认定为术语的关联信息,但这些信息可能并不是术语真正的定义。有的研究方法没有选择以词为基本处理单位,而是选取以语块作为处理单位,颗粒度较粗,准确率必然会受到一定的影响。
二 句子聚类的国内外研究
聚类是研究样本分类问题的统计分析方法,是数据挖掘的重要内容之一。聚类分析能够揭示数据间的相互关系,是知识发现的重要依据,在经济学、社会学、生物学等各个学科领域的应用价值都很广泛。
聚类算法经常使用词语的相似度计算及句子的相似度计算。相似度计算在词义排歧、智能检索、自动问答系统、机器翻译、自动文摘、文本分类等自然语言处理领域具有非常广泛的应用。
词语间的相似度计算通常分为基于本体论(Ontology)或者基于语料库统计两种方法。基于本体论的词语相似度的计算可使用《同义词词林》来计算树状层次结构中两个节点之间的路径距离,作为两个概念之间的语义距离。语料库统计的方法通过词语相关性的各种算法来计算词语的相似度。例如,计算一组特征词与每一个词的相关性,这样每一个词都可以得到一个相关性的特征词向量,将这些向量之间的相似度作为这两个词的相似度。
基于本体论的方法不需要事先获得训练语料,比较直观、易于理解,能较准确地反映词语间语义层面的相似性,但这种方法得到的结果受主观判断影响较大,且较少考虑词语之间的句法和语用特点等因素。
基于大规模真实语料的方法能够比较客观地反映真实的自然语言现象。一般来说,词语在句法、语义、语用各个方面的因素影响都会被考虑到。缺点是这种方法比较依赖于训练语料的质量与规模,计算复杂度较高且受数据稀疏的影响也较大。
句子的聚类是基于句子相似度计算的。句子的相似度计算常用的方法有基于向量空间模型的TF×IDF方法和基于语义的方法。一种方法是把句子视为词的线性序列,不考虑词语之间的相互关系,不对语句进行语法结构分析,而只利用句子的表层信息;另一种方法是对句子进行句法和语义分析,属于深层结构分析法。
基于向量空间模型的TF×IDF的方法通常用来计算文本之间的相似度,也可被用来计算两个句子之间的相似度。一个句子使用一个n维的向量T=(T1,T2,…,Tn)来表示;另一个句子用n维向量T'=(T'1,T'2,…,T'n)来表示。那么两个句子之间的相似度可以用T和T'这两个向量之间夹角的余弦值来表示。权重采用TF与IDF来计算。TF(Term Frequency)代表词的出现频率,IDF(Inverse Document Frequency)代表倒排文档频率,表示词的区别能力。向量空间的计算方法比较适用于文本分类,算法相对简单易懂。然而该算法存在一个问题,即在句子的相似度计算中,由于句子的长度比文本短得多,只有当句子中的词语较多,句子之间相互重叠的词语或义原数较多时效果才比较好,且该方法将词语之间看成完全独立的个体,没有考虑到上下文语境之间的关系,也没有考虑到词汇语义之间的关系。
基于句法和语义的句子相似度计算的方法大体是在句法分析的基础上通过计算义原、词语的语义相似度,最终得到句子的相似度。
李彬等(2003)提出了一种基于语义依存的句子相似度计算。研究者利用《知网》语义知识库、语义消歧系统及依存语法建立起句子依存结构,进行相似度计算。
赵妍妍(2003)把词义距离定义为两个词对应的义原在义原树中的最短距离。采用词义消歧进行词义距离的计算,基于关键词特征同时利用两个句子中所有有效词来构成向量空间,计算两个句子的向量夹角的余弦值作为句子间的相似度。
许石、樊孝忠(2005)利用《知网》的义原纵向与横向关系及实例信息计算不同词性的相关度。在计算义原距离时,考虑了义原之间的关系,对义原的距离进行修正,结合相似度的对称性并加入计算实例的影响因素,提高了相关度的准确率。
本书的聚类分析属于句子的领域聚类,换言之,领域特异性是聚类的本质属性。句子的领域聚类是个相对较新的研究领域。以上文献的句子语义相似度计算一般指的是两个句子之间结构类似、词汇之间可以使用同义词或者近义词代替,同时上述方法在计算句子之间的相似度时,要同时考虑句子的语法结构信息和词汇语义信息,而且普通的句子相似度计算一般把句子中的每个词语等同对待。句子的领域聚类无须考虑语法结构信息,同时句子中每个词语对区分领域的贡献度是不相同的,在聚类处理中也应区别对待。这是本研究所涉及的句子领域聚类与一般意义上的词语、句子、文本聚类的差异。
三 术语识别的研究现状
术语识别是自然语言处理中的一个重要研究领域。首先我们需要明确识别对象,究竟什么是术语?对术语的界定,学界一直以来有着各种不同的理解,但大体上术语识别都是建立在名词、名词短语与固定搭配的抽取工作之上的。
最初的术语识别完全采用手工的方法,由语言学专家或领域专家从语料中经过人工甄别获取术语集。与机器识别比较,人工识别术语的方法具有识别准确率较高的优点,缺点是人力与时间开销巨大,有时会受主观人为因素的影响。随着新术语的不断增加、信息源的急剧膨胀、语料库规模的不断扩大,人工识别术语的方法显然已经行不通了,借助计算机的计算能力与自然语言处理技术是目前术语识别的主流方法。
术语识别的方法包括规则与统计两种方法。使用纯规则的方法目前已经很少。纯统计方法抽取出来的词、短语,有一部分是无意义的语言单位,或者是一些普通词汇。抽取出来的是不是真正的术语仍需要人工的筛选。所以目前大多数研究都是将统计方法与规则方法结合使用。
采用规则的方法抽取术语的有Dagan和Church(1994)、Justeson和Katz(1995)与Kyo Kageura和Bin Umino(1996)。
特别值得一提的是,Kageura和Bin Umino(1996)采用规则与统计相结合的办法,提出了“术语度”(Termhood)的概念。术语度表示一个语言单位属于领域词汇的程度,一个词的术语度越高,它成为术语的概率越大。
术语的抽取过程一般分为两个步骤:首先进行术语候选词抽取,再通过进一步计算,在候选集中进行术语选择。常用的有基于统计的方法计算字串的内部结合强度,如计算频率、互信息、Dice公式、隐马尔科夫模型、t检验、X2检验等。统计的方法中通常加入语言学的知识,利用术语的词法、句法信息甚至语义信息等进行术语抽取。
Uchimoto等(2000)与Fukushige和Noguchi(2000)认为术语是领域专有词汇。只有在一个领域内通用,而在其他领域内很少被使用的词语才是术语,研究者将候选术语词频TF与倒排文档频次IDF相结合进行术语的抽取。
Hisamitsu(2000)通过估计一个包含某个术语的文本与一个未包含该术语的文本的距离来计算词汇的术语度进行术语识别。
Keh-Yih Su等(1994)利用字符串的相对频率,即字符串的出现频次与语料中所有长度相同字符串平均频次的比值去测量字符串的重要性。研究认为相对频率越大的字符串作为术语的概率越大。
Chien(1997)、Zhang等(2000)利用上下文依附信息来测量一个字符串与上下文字、词间的依附程度。研究认为,与上下文窗口依附程度较大的字符串可能是术语的一个部分;反之,如果字符串与上下文的依附程度较小,则可能是术语的边界。
Church和Hanks(1990)采用互信息的策略抽取术语。互信息(Mutual Information)是通过定量描述两个符号(或符号串)之间的结合力来衡量独立性的一种方法。在术语识别中,互信息用来测量组成术语的字或词彼此间的相互关系。互信息的计算公式为:
式中x与y是两个特殊事件,P(x)是事件x单独出现的概率,P(y)是事件y单独出现的概率,P(x,y)是事件x与y共现的概率,I(x,y)=0说明x和y关联强度大,I(x,y)=0说明x和y的概率独立性,I(x,y)=0说明x和y具有互补的分布特征。互信息高的字符串,是术语的可能性大。
Patrick和Dekang(2001)将互信息和Log-likelihood结合使用,使Log-likelihood参数,避免了一些低频词的遗漏。
Shimohata等(1997)基于熵的计算抽取术语。熵是不确定性的度量。研究使用熵去度量一个词语作为术语的概率。
张锋、许云(2005)实现了一个中文术语的自动抽取系统。该系统基于互信息计算字串的内部结合强度得到候选术语,并从这些候选术语中过滤掉基本词,同时利用普通词语搭配前缀、后缀信息进一步过滤,最后通过术语候选的词法分析和术语词性构成规则进一步进行识别。
吴云芳(2003)提出“术语部件”的概念。术语部件是指特定专业领域中结合紧密、生成能力强、使用稳定的语言片断。研究者从术语数据库中统计出术语部件,面向信息科学与技术这一专业领域进行术语部件的分析,提出术语部件描述方法并设计了术语部件描述所需的属性特征,通过分析术语部件的表层句法信息和内部结构信息来实现术语的自动发现。
李芸、王强军、张普(2001)实现了基于动态流通语料库的信息科技领域术语的自动抽取。研究者根据术语在文本中的分布,将术语分为三类,不同的类别给出不同的抽取方法。第一类:前界和后界都有明显的标志。这一类用简单的程序抽取出来。第二类:只有后界标志的术语。这一类利用人工标注的结果,考虑术语的用字、用词情况,术语的词长、结构类型,对术语自身特点和术语的分布特征进行分析,结合统计的方法对抽取结果进行训练,再经过人工校对,自动学习新的数据。第三类:没有任何标记的术语。这一类术语利用流通度理论进行处理。通过计算词语的流通度值,根据词语在不同领域的流通度值的共时差异,区分出一般词语与术语,再根据术语流通度值的历时差异,判断术语是否新术语。
杜波、田怀凤(2004)针对专业领域术语的特点,利用多种衡量字符串中各字之间结合紧密度的统计量,抽取出双字候选项,并将这些候选项进行左右双向扩充,通过过滤筛选出符合要求的多字候选项得到最终结果。
孙乐、金友兵、杜林(2005)基于英汉平行语料库自动抽取术语。采用基于字符长度的改进方法,将平行语料进行句子级的对齐,抽取出双语语料中的名词和名词短语,作为术语候选集。通过计算每个英文候选术语与其相关的中文翻译之间的翻译概率。根据词频变化来设置合适的阈值抽取出其对应的中文翻译项作为汉语术语。
凌祺、樊孝忠(2005)在领域词汇自动获取的研究中,同样按照术语的前后界标记将术语进行分类。对于有前后界标记的术语,通过关键字和规则匹配进行抽取。对于无前后界标记的术语通过确定前后界位置,并将候选词和普通词汇加以比对来抽取。系统预先确定一定数量的领域词汇作为术语种子。研究者认为和种子词在同一句子中,同现频率很高的词或者短语一般都是领域词汇,通过频次、共现频次和一定的评价标准获得新的领域词汇,再将它们加入种子词集继续学习,自动获取新的领域词汇。
郑家恒、杜永萍、刘昌钰(2002)提出了一种基于语料动态获取专业词汇的方法,即通过专业核心词和核心模式抽取出语料库中的同类专业词,并由语料的规模和算法的循环次数动态控制获取的词数,最终得到专业词汇词典。
穗志方(2003)从语料库中学习词汇之间的关联度信息、二词和多词的组合置信度信息、组成成分的领域特征信息及术语的外部特征,即每个词在语料库中作为术语左、右邻居的概率。研究分析术语内部构成规则、词在术语构成中的位置信息。通过分析组成成分在术语首部出现的频率、在术语中部出现的频率及在术语尾部出现的频率,来确定一个词语是否合法的术语,同时篇章结构信息也被用来识别术语。如果某些语言单位经常出现在术语的上下文环境中,那么这些语言单位就可以作为术语的左、右邻居,为上下文中术语的识别提供依据。
田怀凤(2008)通过对统计数据库中双字和多字候选项增加字段的处理,完成从生语料中抽取专业术语的工作,并可根据需要对识别出来的术语进行含义解释和英文翻译,实验在计算机领域专业文献中进行测试并对测试结果进行分析。
王卫民(2012)提出一种半监督的基于种子迭代扩充的专业术语识别方法,研究使用少量训练文本,通过迭代的方法来增加训练样本,生成新的模型,利用迭代生成的最终模型作为专业术语的识别模型。
上述各种方法大都是使用统计方法抽取文本中的术语,但抽取出来的只是词语、固定搭配或者是不在词表里的未登录新词语。由于没有对“术语”这一概念进行具有可操作性的明确界定,所以仍无法将术语与普通词语、专名、固定搭配、常用短语区分开来;同时上述各种方法是从整个文本中进行术语的自动抽取,系统将文本中的每个句子同等对待,造成抽取的计算量大、复杂度高、效率较低。事实上,术语与非术语所在的外部特征即上下文环境是不同的,术语所依存的句子与不包含术语的普通句子,在系统处理时可采用不同的权重处理。在识别系统中,我们按照一定的规范将术语所在的句子先加以确定,在划分粗边界的基础上,采用后续识别方法在一个较小的范围内进行术语的识别,这样不但提高了抽取的效率,而且提高了抽取的准确率。本书中的术语识别研究就是在这一基础上完成的。