浅论我国年鉴全文数据库的现状和改进策略
论文关键词:年鉴全文数据库;数字化年鉴;中国年鉴资源全文数据库;中国年鉴全文数据库
论文摘要:年鉴全文数据库是新兴的数字资源,是教学、科研、生产、乃至决策中不可或缺的工具。本文了目前我国两个大规模年鉴全文数据库的收录情况、销售策略、检索性能、结果处理能力等现状,认为年鉴全文库尚存在的信息时滞较长、检索性能不能很好体现年鉴特点、检索结果后处理能力不强、个性化服务欠缺、信息整合层次单一等问题,并提出了改进策略。
年鉴作为覆盖面广、信息密集、事实性强、连续更新的资料性工具书,有着其他工具书无法比拟的优势,是重要的信息源之一。在我国,大规模的年鉴全文数据库的开发走在了世界的前列,它多角度地揭示了年鉴内容,大幅提升了信息的序化程度和检索性能,实现了跨年鉴、跨年卷的整合检索,为用户查考年鉴信息带来了很大的便利。
但是,从用户的需求出发,年鉴全文库在更新频率、检索性能、结果优化等方面都有待进一步提高。尤其在当前数据库、报纸全文库产品已占有,“搜数”后来居上,第三代搜索引擎新功能叠出的形势下,年鉴全文库如果不做出自己的特色,将被湮没在重围之中。
2我国年鉴全文数据库的概况
2004年5月,北大方正(Apabi)公司与中国年鉴研究会合作,开发出我国首个大规模的年鉴全文数据库产品——“中国年鉴资源全文数据库”。随后,金报兴图的《年鉴全文数据库》和中国知网(CNKI)的《中国年鉴全文数据库》都相继推向市场。2007年金报兴图的年鉴全文数据库被方正合并,因此,当前我国的大规模年鉴全文数据库仅Apabi和CNKI两个。
Apabi的年鉴全文库共收录年鉴近600种,5300多卷(截至2007.10)m;CNKI的年鉴全文库目前提供检索的年鉴共1301种,约8000卷(截至2007.11.21)t副。它们收录年鉴的类型分布如表1所示:
两大数据库的销售方案也有所不同,Apabi可以按需选购年鉴品种,而CNKI则把所有年鉴打包销售。
3年鉴全文数据库现有功能分析
目前两大年鉴全文库都打破了印刷本年鉴的固有结构,突破了电子书传统的浏览模式,实现了跨年鉴、跨年卷、以条目为单位的整合检索,一定程度体现了年鉴资源的特点,检索系统也更符合用户利用年鉴的特征。
3.1年鉴整刊导航
年鉴整刊导航应当完整、有序地揭示数据库收录的年鉴品种,并提供收录年鉴品种检索、选定年鉴中条目检索的功能。目前两大数据库的年鉴整刊导航功能如表2所示。Apabi特别列出了长三角、黄河流域等专题年鉴品种导航,并专列了“发展报告”类。在整刊全文浏览功能中,Apabi除提供网页文本格式的原文外,还提供原书版式文件全文,以便读者核对重要信息,避免文本误录人造成的影响。
3.2检索性能
两大年鉴库都提供初级检索与高级检索途径,CNKI还设置了专业检索。它们具体提供的检索字段、条目类型限定及可用检索技术如表3至表5所示。
3.3结果处理功能
3.4全文显示格式
CNKI的年鉴文本、表格和图片均为PDF格式,不便于用户下载利用表格和图片。Apabi的年鉴文本都为纯文本格式,表格目前部分年鉴的表格为Excel格式,其他表格均为JPG格式,图片是具原图色彩的JPG格式。
4年鉴全文数据库存在的问题与改进策略
针对年鉴信息的特点,结合信息裣索技术,当前的年鉴全文库还有不少问题有待改进。
4.1信息及时性有待加强
信息的及时性是年鉴全文库在内容上保持吸引力的要素之一,包括年鉴新品种的及时收录和年鉴信息的及时更新两方面。但遗憾的是,目前年鉴全文库通常信息时差总要在印刷版出版后半年以上。
4.2检索性能应更契合年鉴的特点
目前年鉴全文库的检索系统基本上是仿照期刊全文检索系统开发的,只是增加了一些针对年鉴的字段和信息类型限制,这还不足以体现年鉴信息的特点,与读者的检索需求尚有一定的距离。近年来,包括自动摘要、自动分类、相似性检索乃至视频与图像内容检索的内容挖掘技术成为新的发展热点,年鉴数据库急待引人这些技术,而这些技术的基础则是对数据特征的详尽标引。
4.3检索结果后处理能力不强
(1)年鉴全文库现有的二次检索没有提供算符的选择,只能进行逻辑“与”的二次检索,这不便于用户进一步调整检索策略。
(2)对于年鉴全文库而言,由于条目数量巨大,检出记录数往往较多,因此特别需要对检索结果作进一步的分面和聚类。但目前的年鉴全文库都没有提供检索结果分面功能。所以,年鉴全文库应当按结果的信息类型、所涉地域、条目年份、所属年鉴、行业、学科等维度进行分面,供用户选择合适类别的结果浏览,这样既使大量检索结果序化,又可减少读者筛选结果的时问。
(3)现有年鉴全文库的统计表基本都是格式或PDF格式,数据导出灵活性不够,用户对统计表数据的再处理非常不便。数据库应对所有统计表格以Excel形式录入并提供导出接口,并可以进一步利用ASP、JsP等动态网页生成技术,根据用户需求,以交互互动的方式输出数据,实现统计表与统计图动态转换的数据可视化,为用户提供深加工的统计数据,简化用户后续处理的过程(这些功能在国外的Knovel工具书数据库中已经实现)。此外,在Excel表格显示地同时应提供原表格的图片格式或PDF格式的链接,以供读者核对数据,保证准确性。
4.4个性化服务功能欠缺
4.5信息整合层次单一
当前的文献数据库领域正在发生着重要的转型,许多数据库正从单一的信息检索工具,向广泛整合外部资源的、综合的信息资源与服务体系转变,它是数字信息源发展到一定阶段的必然选择,封闭的“信息孤岛”是难以充分满足用户需求的。然而,目前年鉴全文库对信息的整合尚停留于以条目为单位的跨年鉴文献层面,CNKI也仅与自己的各类全文库做了相似文献的整合。年鉴全文库与其他全文数据库、工具书乃至互联网信息等外部资源的整合有待加强。