设为首页 加入收藏
   
     
   
农林•水电
 
农业科技信息智能检索系统中的知识组织
双击自动滚屏 发布者:admin 时间:2010-8-13 11:07:11 阅读:369次 【字体:

1 引  言
在信息化发展的不同阶段,人们对信息的组织和处理有着不同的需求,呈现由信息管理向知识管理发展的趋势。互联网的迅猛发展推动了知识工程中本体论的理论与技术研究。本体是对共享概念模型的明确的形式化规范说明[1],传统的分类法、叙词表等知识组织系统是对人类知识结构进行表达和有组织的阐述的语义工具[2],其中包含了系统、丰富的知识概念和属分、用代等关系,尽管这些关系比较简单,但他们是知识本体中最基础、最重要、同时也是最常用的关系,因此可以将他们看作是一种早期的或初级的知识组织本体[3],有些学者将他们归为轻量级本体,如图1所示[4]。在某些应用中构建简单本体比构建严格意义上的本体无论是在资金花费还是潜在的重要性和可利用性方面都具有一定的优势[5]
长期以来,我国的许多文献数据库标引系统利用《中国图书馆分类法》(以下简称《中图法》)和专业主题词表等知识组织系统进行了数以百万计的期刊论文和图书文献的分类和主题标引,积累了丰富的标引经验。这些标引数据实际上相当于一个累计的标引专家知识库[6]。利用这些经过主题分析抽象出来的知识点,进行概念及概念之间关系的挖掘和总结,不仅为知识本体的建立提供事实依据,而且将大大提高知识本体的建设速度。
在国家“十五”科技攻关计划的“农业信息网络用户需求智能识别技术研究与开发”的课题支持下,我们开展了农业本体论的研究,并且完成了"中国农业科技文献信息智能检索系统"。本文将就本系统开发中涉及到的农业知识库的数据组织和建立过程中的若干问题作进一步的探讨。
 
1: 本体表示型谱   An ontology expressiveness spectrum
 
2        知识组织基础
2.1 中国农业科技文献数据库
中国农业科技文献数据库的建设已有十余年的历史,是国内涵盖农业专业最全面、信息量最大的综合性中文农业数据库,现有数据70余万条,具有分类法、主题词双重标引。其分类标引是以《中国图书馆分类法-农业专业分类表》为主要标准,每条记录包含1-3个分类号标识,其主题词标引是以《农业科学叙词表》为基础,平均每条记录6个主题词,标引数据是由专业标引人员的手工标引而建立的。以这样的标引数据为基础进行农业知识组织结构的研究,可在知识表示的标准性、系统性、一致性上有较高的质量保证。通过对实际数据库中的主题词和分类信息之间的关系进行统计分析,揭示农业术语及其所涉及的知识层面的关系来构建知识库,使知识库的结构和内容既符合知识组织体系的逻辑又具有实用价值。
2.2理论分类库
   理论分类库是构建农业检索知识组织系统的基础,是组织体系的标准。建立理论分类库的作用有两个:
(1)实际标引类号以及相应类名的确定。文献库中分类的标引是采用分类法中的类号进行标识,若利用实际标引信息组织导航必须将类目以类名的形式显示给用户,因此需要将实际标引类号与分类法中的类目进行对照,以确定其类目的名称。
(2)分类法层级体系的重现。实际标引的类号是独立分类类目,要使用这些类目进行信息导航必须将他们按照分类法的层次结构归位。
    理论分类库由《中国图书馆分类法-农业专业分类表》中的全部7059个类目、《中图法》涉农的16个大类的中的42752类目、世界地区复分表、中国地区复分表、相对于《中图法》第三版的农业部分停用类号表和变更类号表、9个专业仿分表、4个专业复分表及一些统计数据表(如:类号出现的次数分组、年度分类号数量等)组成。其中的专业仿分表和复分表是实际标引使用频率较多的类目。对分类法中一些在实际应用中没有或很少用到的类似的表,没有进行单独建表。专业仿分表中的类号不含间隔符号“.”,以便于组配分类号所对应的类名的确定。
2.3 实际分类号与关键词的对照数据库
分类号与关键词的对照库中的数据来源于文献库的实际标引数据,经数据规范、查重等整理后,库中含有类目17,582个,对应的关键词有32万余个。为了便于数据的排序、统计等处理,对每个类目设立一个小表,以类号作为表名,小表分别保存在以相应的分类法一级类号为名称的目录中,表中包含关键词、词频等字段。每个关键词一条记录,词频字段的内容是此关键词在当前类号中出现的次数。分类号与关键词对照数据库的建立为农业检索知识库的构建提供了清洁的数据基础。
 
3        农业初级本体的构建
3.1初级本体中的概念及关系
农业知识本体模型中的概念可以分为两类:名词性概念和谓词性概念,概念间存在两类关系:等级关系和非等级关系[7]
农业初级本体是基于分类法和主题词构建。分类法中的类目是某一类概念的抽象表达,叙词表中的用项词是某一概念的优选词[8],因此可以将分类法的中部分类目名称和叙词表中的用项词看作概念。
《中国图书馆分类法-农业专业分类表》在《中图法》体系分类法的基础上进行了初步的分面改造,因此其以体系分类法为主线并兼具有部分分面分类的功能,其体系分类主要是对农业研究的主体对象分类,这些类目体现在对物种(各种农作物、各种家畜等)、对农业相关的自然环境(各种土壤等)等的分类,这些类中的类目名称属于名词性概念;其分面分类是对主体对象的属性特征、对主体对象进行的科研、生产活动及主体对象与其它对象之间的关系等方方面面的分类,这些类目体现在一般性问题,专业仿分、复分表和通用复分表中,这种类目名称中含有谓词性概念,如灌溉、施肥等。两种分类方法内部都是等级关系,但两种分类间的关系是非等级关系。通过两种类目的组配表示包含多主题的复合概念,将各个复合类目按照体系分类的等级结构连接起来,构成枝叶丰富的分类树既初级本体中的实际类目表。
农业大类分类表中的专业仿分、复分类目是主体对象与农业相关的概念,不是全方位的,如在“S6园艺”类中的仿分表“S60一般性问题”中包括与各种园艺相关的农业技术等方面的类目,而与这些园艺对象相关的如食品、生物科学等其它方面的概念不在其中,以具有几十万条记录的主题、分类双标引文献库为基础数据,利用统计分析的方法,确定主题概念与哪些类目之间存在关系并将这些类目按照分类法的等级关系重新排列,构成概念及与其存在关系的分类的集合既初级本体中的概念关系集。
3.2初级本体的构成
农业初级本体由实际类目表、概念关系集和检索后控词表三部分组成。
3.2.1 实际类目表
   实际类目表是将文献库中的实际标引类号按照分类法等级体系和组织原则复原后形成的类目丰富、层次清晰、结构完整的分类树。其应用于分类导航的部分界面如图2所示。实际类目表中包含农业及与农业相关的大类17个,类目21,376条,复分组合类目最深类级11层,非组配类号的最深级数为10层。
农业分类导航树的内容及组织结构的主要特点是:
(1)分类树中含有组配类目,将主类号与复分、仿分号进行逻辑组配以表达完整的概念,如用“胡萝卜的生物技术育种” 可直接用“S631.203.53”完成检索。分类导航树中有10,748个(占总数的50%)分类号是由两个或三个类号依据分类法的配号制度组配而成,其中由三个类号组配而成的分类号有203个。
(2)分类导航树中保留了261个标引人员对分类法的增补类号,这些类号是标引人员在标引实践中根据分类法的排列规则和实际数据的具体情况对标准分类法补充和扩展。
(3)从数据库中获得的分类号都是单独的类号,且有近一半的是复分、仿分号。类号之间没有相应完整的层次结构,因此,必须从把每个类号到根类号之间所缺少的类级补齐。对于组配类号,不是将其的主类号定为组合部分的父类,而是按照复分或仿分类目的中的类级规则逐级地给出每个类号的组配父类号。细化类目可以实现较细致的族性检索,有利于提高文献查准率。
2 实际分类导航用户界面(部分)
 
3.2.2农业概念关系集
农业概念关系集是主题词与其所存在关系的分类的集合。每个词与其所存在关系的分类之间是一个词对应一组分类树林的关系,如图3所示。农业概念关系集含有词汇2270条,相应的类目164,377条,平均每个词汇对应72个类目。利用概念关系集支持检索可使系统能够具有初步理解用户需求的能力,提示用户的请求所涉及的知识范围,使用户不但可以直接从宏观上了解所查询的信息的分布,而且可以在选定领域内查询,实现精确检索。
农业概念关系集中的类目的组织,需充分考虑用户的检索思维方式和查询习惯。因此其组织结构既要遵守分类法的概念划分规则,又不囿于这种划分规则。概念关系集的组织规则如下:
(1)类目先按含记录数的多少排序,后按分类法的层次归类。前三个第一层类目显示与当前检索词汇最相关的类目,这三个类目是经文献库统计得到的与当前检索词同现率最高的类目,将相关度最高的类目显示在用户界面的首要位置,满足便于大多数用户普遍意义的查询。
(2)去掉不必要的层面。分类号在按分类法的规则排列后,若某一节点不含记录数据,且其仅有一个子节点时,去掉此节点,其子节点上升一层。这样做的目的是减少不必要的层次以减少用户查询时的点击次数。以“番茄”所涉及的分类树林中的一枝“工业技术”中的类目为例,图4中的类目是按分类法的等级排列后的结构,其中的节点分有白色透明、灰色、黑色三种类型,黑色的节点是实际标引的类目,灰色和白色透明节点是为组成完整的分类层次所增加的类目,而其中的灰色节点是无数据且仅含一个子节点的节点,将他们去掉后提升其下的子节点(沿图4中的虚线),构成的结构如图5所示。可以看出调整后类目虽然把不同等级的类目归并在一个上位类下,但其类目分布简洁、清晰,便于用户的浏览与检索。
(3)三级以下的类目归并到第三级。如在图5中“TS202.3食品添加剂”节点被去掉。
(4)对数据库中出现频率小于30次的词汇不进行整合。
3 词与其所涉及分类示例
 
4 实际标引类目按分类法的等级排列示意图
 
5 实际标引类目按概念关系集的组织规则整合后排列示意图
 
3.2.3 检索后控词表
    通常把用于同义词扩检的词表称为后控词表。本系统中后控词表包括基础词汇9940个,对每个词条进行同义词轮排后的词汇条目为32,000余条,平均每个基础词有3.2个同义词。与普通同义词表的不同之处有:
(1)对基础词中的5724条词组进行了分类,其中1081条词有两个或两个以上的分类号,没有进行分类的词多属于通用词汇。对同义词词组进行分类的目的之一在于能正确区分当一个词汇同时是两个不同概念的同义词的情况。如“红豆”一词,它既是“越桔”的同义词又是“赤豆”的同义词。通过确定同义词组的使用范围,可以使同形异义词在不同的应用中使用不同的同义词组,实现同义词与同形异义词的同时控制。这种处理方法在进行对信息的自动分类处理时会具有同样的意义。数据的XML格式表现形式如下:
<R sx1="红豆">
  <FL sx2="S521"><T>赤豆</T><T>红小豆</T><T>赤小豆</T><T>小豆</T></FL>
  <FL sx2="S663.6"><T>越桔</T><T>牙疙瘩</T><T>雅格达</T><T>温普</T><T>熊果</T></FL>
</R>
 
(2)同义词组中包含别字。各种层次的网络用户在输入查询请求时会产生笔误,因此在同义词的选取过程中,包含部分经常会出现的错别词组,如:中华酚鼠-中华鼢鼠,天蓝冰草-天兰冰草,胞囊线虫-孢囊线虫-包囊线虫等,含有别字有利于提高查全率。
(3)词表包含缩略词:如脱落酸-ABA。
 
4        智能检索系统中本体知识库的实现
智能检索系统中使用农业初级本体作为知识库对系统提供检索支持。初级本体中的实际类目表、概念关系集和后控表三部分的数据组织形式都含有层次型结构,并且考虑未来数据共享标准的发展趋势,选择了纯XML数据库系统进行知识库的管理。纯XML数据库因其底层为原生性XML格式存储,数据结构采用XML Schema的模式定义,数据直接以XML格式存取和呈现,使用标准的XQuery查询语言进行检索,支持XML文档的动态扩充和修改,因此比通过扩展而具有存储和操作XML数据能力的关系或对象关系数据库具有先天的优势。本系统采用德国Software AG公司的Tamino纯XML数据库。利用Tamino数据库定义的知识库中的数据结构如下:
(1)实际类目表:如图6所示,其结构中的根节点是类目复合节点(entity),entity包含的子节点有类名子节点(LM)和多级entity节点的自重用,LM子节点包含的孙节点有:复合属性ID(id)、父节点父类号(parent)、类级(LJ)、类号(LH)。
(2)农业概念关系集:如图7所示,其结构中的根节点是词汇复合节点(navigation),navigation包含当前词汇(属性show)、词汇的所对应的记录数(RN)子节点和词汇所对应的多个类目(level)子节点。level子节点包含的孙节点有两部分,一部分是包括:类号(LH)、类名(LM)、本级记录数之和(SM)、下一级子节点记录数之和(SB)、本级节点数(BJ)和下一级子节点数(NJ)等统计数据;另一部分是多级level节点的自重用。
(3)检索后控词表:如图8所示,其结构中的根节点是同义词复合节点(tyc),tyc包含检索入口词子节点(R),R子节点包含入口词(属性sx1)和孙节点(FL),FL孙节点由分类号(属性sx2)和多个重复同义词节点(T)组成。
                      
实际类目树结构             概念关系集结构               后控词表结构
 
在定义知识库的结构时,利用XML节点重用技术定义具有递归调用特性的节点,使结构相同而重复出现次数不同且出现层级不同的节点不受固定次数和级数的限制,增强数据结构的灵活性和可扩展性;利用XML元素结构的表现力和XML的自描述特点,在符合数据逻辑结构的前提下,将部分信息定义在节点的属性中,以便于XML文档的解析和简化系统的开发。
 
5        结束语
本研究以分类法等知识组织系统为基础,通过对人工标引的知识点的统计分析确定概念间关系、构建初级本体知识库并在知识库的支持下提供族性扩检、缩检、组配概念导航、交互式类目建议等检索方式和同义与歧义词组的同时控制。进一步将在概念之间存在的关系结构的基础上,研究概念间严格的语义逻辑关系并用形式语言表示,进行重量级农业知识本体的构建。
 
参考文献:
[1] Studer, R., Benjamins, V., and Fensel, D. (1998). Knowledge Engineering: Principles and Methods.  [2] Data and Knowledge Engineering, 25:161~197
[3] 曾蕾.网络环境下的知识组织系统.现代图书情报技术,2004(1):2~3
[4] Howard Beck,Helena Sofia Pinto. Overview of Approach, Methodologies, Standards, and Tools for Ontologies.  (Accessed Oct.30,2002)
[5] Jos de Bruijn. Using Ontologies: Enabling Knowledge Sharing and Reuse on the Semantic Web. http://whitepapers.zdnet.co.uk/0,39025945,60120712p-39000539q,00.htm (Accessed May.30,2005)
D. L. McGuinness “Ontologies Come of Age”. In D. Fensel, J. Hendler, H. Lieberman, and W. Wahlster (eds.), Spinning the Semantic Web: Bringing the World Wide Web to Its Full Potential, MIT Press, 2003:171~194
[6] 侯汉清,薛鹏军.农业数字信息智能处理系统的构建与实现.见:潘淑春,贾善刚主编.国家农业数字图书馆构建与实现.香港:中国中外新闻出版社,2005:88~118
[7] 李景.本体理论及在农业文献检索系统中的应用研究——以花卉学本体建模为例: [博士学位论文].北京:中国科学院,2004:132~150
[8] 王素芳.Ontology与叙词表的融合初探.大学图书馆学报,2005(1):74~78
上一篇|下一篇

 相关评论

暂无评论

 发表评论
 昵称:
 评论内容:
 验证码:
  
打印本页 || 关闭窗口
 
 

咨询电话: 13891856539  欢迎投稿:gmlwfbzx@163.com  gmlwfb@163.com
617765117  243223901(发表)  741156950(论文写作指导)63777606     13891856539   (同微信)

All rights reserved 版权所有 光明论文发表中心 公司地址:西安市碑林区南大街169号-6
CopyRight ©  2006-2009  All Rights Reserved.


  制作维护:中联世纪  网站管理
访问 人次
国家信息产业部ICP备案:陕ICP备17019044号-1 网监备案号:XA12993