学科信息门户中网络信息导航系统的规范建设
学科信息门户中网络信息导航系统的规范建设
【内容提要】根据国家科学数字图书馆(CSDL)分布式学科信息门户及其学科信息导航系统建设的总体要求,描述了学科信息导航系统中资源选择、资源搜寻策略、元数据、知识组织体系、维护使用管理机制等的设计规范及其开放描述要求。
【摘 要 题】信息资源建设
【关 键 词】国家科学数字图书馆/学科信息门户/学科信息导航/设计规范
中国科学院国家科学数字图书馆(CSDL)工程的一个重要任务是建立权威、可靠的学科信息门户体系。本文首先简要分析学科信息门户的基本形态和CSDL学科信息门户建设要求,然后介绍CSDL学科信息门户中网络信息导航系统的选择规则、搜寻策略、内容描述机制、组织体系描述机制、组织管理机制的设计规范及其开放描述要求。
1 学科信息门户形态
学科信息门户致力于将特定学科领域的信息资源、工具与服务集成到一个整体中,为用户提供一个方便的信息检索和服务入口。学科信息门户经历了不断发展和深化的若干形式:
(1)以网络学科信息导航为主的学科信息门户,提供权威、可靠、规范和可持续的网络信息资源选择、描述和检索[1-3],例如SOGIG()、AHDS()、Biz/ed()、EELS( lu.se/)、GeoGuide()、MathGuide ()、Martindale's Reference Desk(http: //www-sci.lib.uci.edu/HSG/Ref.html)、OMNI( uk/)、WWWVirtual Library( html)等,成为相关学科领域的核心和可信赖的信息门户。
(2)以专业机构或图书情报服务系统为基础的信息门户, 根据专业机构性质或其信息服务要求,将各类资源(包括网络资源、数据库、文件系统、知识库、指南手册等)组合在统一门户下向用户提供服务,其中部分门户可支持横向整合检索、参考文献链接、用户虚拟社区等功能。
(3)基于跨学科门户检索的学科门户体系, 支持多个学科信息门户之间的整合检索,例如CrossRoads[4]、Issac Network[5]、Imesh[6]、ELT[7]系统。
(4)基于门户体系的数字信息服务机制, 将多个分布门户(主要是学科信息门户)作为整个数字信息资源的整合机制和服务渠道,让用户通过门户体系方便地搜寻、调用和利用各种不同的信息资源和服务,例如英国JICS的Distributed National Electronic Resources (DNER)[8]和美国NSF的National SMETE Digital Library(NSDL)[9]。
(5)开放数字信息服务机制, 不但支持基于学科信息门户的资源与服务集成,还进一步支持按照用户个性化需要定制信息门户,根据逻辑业务流程整合多个信息服务环节,支持多个信息门户之间的开放集成与定制[10],这方面的技术包括Open Digital Libraries、OpenLinking和Open Metadata机制,而且基于分布Web 服务的开放电子商务关键技术(ebXML[11]体系和Web Services[12 ]机制)也可在开放学科信息门户中得到应用。
通过这些努力,可以通过学科信息门户来逻辑地灵活地整合、可靠地组织、无缝地链接用户所需的信息资源和信息服务,并支持用户在它们基础上的个性化集成定制,从而将一个分布和纷杂的信息空间组织成一个方便的用户信息系统。
2 CSDL学科信息门户建设
CSDL将从开放数字信息服务机制出发,建立多个分布的学科信息门户网站,提供权威和可靠的学科信息导航,整合学科信息资源与服务系统,并逐步支持开放式集成定制。具体地:
(1)提供学科信息导航:针对专业研究型用户的需要, 建立可靠覆盖国内外本学科的权威的专业信息资源的规范导航系统,采取标准元数据来深入描述信息资源,采取规范知识组织体系对所收集资源进行组织,提供多层次信息检索和浏览功能,支持分布式信息资源选择、描述和组织,支持定期数据自动检验和计算机辅助更新。
(2 )实现学科信息横向整合:在学科信息门户内横向整合本学科领域的各种文献信息资源系统(包括二次文献数据库、全文数据库、联合目录、馆藏目录、馆际互借和全文传递等相关服务系统),提供分布资源的集成界面,并逐步实现同构和异构数据库的整合检索。
(3 )实现学科信息纵向整合:在学科信息门户内纵向整合本学科领域的各种文献信息服务过程(包括文献检索、全文获取、馆藏资源获取、资料传递、数字参考咨询服务、个性化集成定制、SDI服务、 用户协作交流服务等),按照用户信息检索与利用流程实现各个资源与服务系统间的无缝链接。
(4 )支持开放集成定制:通过规范元数据来描述学科信息门户的资源对象、知识组织体系、管理机制、检索与浏览机制、系统信息架构等各层数据,通过开放语言实现描述数据的规范标记,通过开放搜寻机制支持对这些描述数据的发现和解析以及对学科信息门户的发现、解析和重组,从而支持个性化定制和开放式集成。
CSDL将通过有效的学科信息门户,将分布的数字信息资源和信息服务集成到用户桌面,并通过开放描述机制和分布Web 服务机制来支持对各门户及其内容的个性化定制与集成。
3 学科信息门户中的网络信息导航
CSDL学科信息门户中的学科信息导航系统指具有严格质量控制、提供规范和深入的知识化描述、支持集成与定制的可靠的网络信息资源组织和检索系统。它们在协调一致的设计规范和开放描述原则基础上,针对本专业研究型用户所需要的网络信息资源(包括网站、图书情报系统、文摘索引、电子期刊、科技报告、学位与会议论文、研究机构、学术团体、教育机构、学术会议、工具书、专业服务系统以及与学科科研紧密相关的其他资源系统),根据可靠的评价选择规则、搜寻搜集策略、规范组织标引机制、检索浏览机制和维护使用管理机制等,建立起可靠覆盖本领域核心资源、基本覆盖本领域其他主要资源、选择性覆盖相关学科核心资源、与其他学科信息门户有机链接的网络化资源与服务组织体系,并支持用户系统或其他学科信息门户对自己信息的搜寻、集成。
这样的学科信息门户一般具有以下特点:专业性,针对限定的专业领域,主要针对学术研究信息和教育科研用户;集成性,把专业领域所需要的各种资源与服务凝聚到一个知识体系中;知识性,根据对知识内容及其关系的分析来选择、描述和组织资源和服务,例如按照严格的评价规则,由信息专家和学科专家选择信息资源,按照标准元数据格式和标准词表进行著录和标引,按照规范知识组织体系(如分类法)进行组织;智能性,提供符合专业领域特征的检索浏览方式,并可在专业知识组织体系(词表、分类法等)支持下优化浏览和检索,而且可与语义门户(Semantic Web)结合提供智能化资源检索和结果整合功能;可靠性,通过严格选择、规范描述和持续的校验与更新,保障导航信息的可靠性和整个组织与描述机制的可靠性。
为实现上述要求,学科信息导航系统依靠一系列规范机制来保障其有效性和可靠性,例如资源选择规则、资源搜寻策略、资源元数据描述规范、知识组织体系规范、使用管理机制规范、分布式组织管理规范等。通过这些规范,学科信息门户可以准确定义和描述自己的要求与运行机制,用户可以了解和信赖学科导航信息系统,其他系统也可以通过这些规范的开放描述来实现集成与定制。
4 资源选择和资源搜寻控制
严格的资源选择是学科信息导航系统知识性可靠性的关键保障之一,它的实现依靠严格的标准设计、规范定义和流程控制[2.13-16],至少涉及以下问题:
(1)资源选择标准。 它帮助工作人员明确理解对资源范围和质量的要求,帮助用户理解和信任它的质量控制标准并在此基础上帮助用户判断通过它所获得的信息的质量,促进分布运营机制下资源选择的一致性,帮助训练新的资源选择人员。资源选择评价标准应尽可能地可操作,其中某些可量化。
资源选择标准涉及资源范围标准、资源质量标准和资源评价标准。其中:
●资源范围标准,规定什么资源可被收集组织到学科信息门户,主要涉及:a.信息内容,例如主题范围和可接受的资源类型、资源来源、内容深度、内容权威性、内容新颖性、商业化程度等;b.接入条件,例如可接受的付费条件、技术条件、注册要求、残障人利用条件等;c.细粒度要求,指资源对象应该达到的信息内容详细程度;d.元数据要求,指资源的地理与语言范围等。
●资源质量标准,规定被选择资源需达到的基本质量,主要包括:a.内容标准,包括有效性、权威性、实质性、准确性、全面性、唯一性、资源结构组织、及时性以及资源维护程度;b.形式标准,包括浏览方便性、用户支持、标准化程度、美观程度;c.处理标准,涉及信息完整性、站点完整性、系统完整性等。
●资源评价标准,用于规范化地描述选择人员对资源的评价意见,资源评价应按照前述选择标准从多层面描述评价结果,应能确定评价人及其评价资格,应使用标准语言进行描述,还可使用特定标记方式(例如星级标记)来简要表示评价结果,并作为元数据的一部分被存储和支持检索,评价信息可被写入资源描述摘要中。
(2)资源选择流程规范。 一个具有一定规模的学科信息导航系统往往有多个专家参与资源的选择评鉴,需要有严格的规范来保证选择过程的一致性。资源选择流程规范规定由什么人、按照什么标准和什么步骤、对什么方面的资源进行选择评价,以及如何处理选择评价结果。具体地,这个规范包括资源选择标准、资源选择流程步骤、选择人员标准、选择人员描述格式(以便选择过程中的推荐、指向和咨询)、选择人员分工组织规定、选择结果描述方式、选择信息交换格式(支持协作选择描述),还可规定是否接受用户推荐资源、接收程序以及对推荐资源的审查和回复程序等。
(3)资源搜寻控制。 学科信息导航系统需要严谨的资源搜寻控制机制和相应的搜寻规范来界定搜寻范围、过滤搜寻资源、协调搜寻操作过程,保障在有限的分布的人力下对高质量信息资源进行完整、及时、持续的搜寻,保证搜寻的有效性、一致性和连续性。资源搜寻过程需要规定搜寻途径和方式(即通过哪些途径和方式来搜寻和跟踪哪些资源)、建立和维护搜寻对象目录、分配搜寻责任、确定搜寻时序、确定资源智能过滤规则、确定资源搜寻中元数据挖掘与转换机制、确定推荐资源审查规则、确定与其他学科信息导航系统的合作搜寻机制等。
所谓合作搜寻机制,指覆盖领域相互交叉的学科信息导航系统间合作搜寻和共享元数据的方法,例如:a.不同导航系统分工负责交叉领域里不同主题范围的资源组织,在各自知识组织体系中都包含这些主题范围,通过直接链接对方资源元数据来相互利用各自的资源内容。b.不同导航系统分工负责不同主题范围的资源组织,相互交换和复用交叉主题范围的资源元数据,所交换的元数据往往由接收方导航系统进行再标引再组织,从而共同(往往各有侧重地)提供交叉领域的资源检索。无论什么情况,都需要商定分工搜寻范围、数据格式,并遵守共同的质量控制和著录原则。
5 资源元数据描述
学科信息导航系统涉及的描述信息包括资源对象、知识组织体系、使用管理机制、检索与浏览机制等层次,通过开放语言和规范方式对这些层次进行描述都构成元数据[17],成为导航系统元数据体系的一部分。高质量的元数据描述是学科信息导航系统知识性可靠性的又一关键保障,也需要一系列的描述规范和过程规范来定义和控制。本节主要讨论对资源对象进行描述的元数据,包括以下内容:
(1)元数据规范。元数据规范对元数据元素、 子元素及可能的限制属性进行规定。资源元数据涉及内容和管理两方面。内容元数据对资源本身进行描述,建议采用通用的或标准的元数据格式,采用规范扩展方式复用其他标准元数据格式的相关元素来描述复杂资源对象,并通过XML Namespace方式建立与元数据格式定义文件的链接。 例如对一个课件资源,可采用Dublin Core[18]描述基本属性,复用IEEE LOM [19]相关元素来描述与教学有关的属性。管理元数据用于描述资源著录过程及其控制,一般不显示给用户,可被智能代理用于自动控制某些操作。可能的管理元数据元素包括维护者、上次搜寻日期、上次元数据更新日期、上次资源变动日期、预计资源重新审定日期、资源失效日期(例如会议信息)、元数据著录者等。管理元数据可以与内容元数据捆绑在一起,但也可单独通过一定唯一标识符与内容元数据链接,可支持内容元数据的复用。管理元数据也应采用标准格式和标准扩展方式。
(2)元数据著录规范及其他控制规范[20-22]。由于资源元数据可能来自多个途径(例如资源系统本身、用户、资源选择人员、资源著录人员、其他学科信息门户、自动挖掘等),它们对元数据内容的描述方式可能有很大差异,需要通过著录规范来具体规定如何进行元数据描述。规定内容包括:a.元数据内容编码规范,例如关于日期、语言、各种名称代码、主题词来源、分类表来源、评价等级等的标准表达方式或最佳实践(Best Practices)。有关标准可用计算机可识别方式组织,以利著录过程中进行查询和自动检验。b.元数据元素、子元素或限定属性的选择方式。c.主题词、分类号选择标引原则和方式,这时将利用分类标引规范。d.文字描述内容(尤其是摘要、评价意见等)的撰写规范,例如摘要来源、摘要长度、客观性、语言风格、署名等要求。这些著录规范被称为Application Profiles。
除了著录规范外,元数据检验规
[1] [2] [3] 下一页