欢迎来到工作报告网!

面向知识服务的引文索引数据组织研究(Ⅱ)

学校工作报告 时间:2023-07-22 11:40:05

zoޛ)j馟inx]4߯wm5NtNiiNH个人情况,比如性别、出生日期、研究方向等,这些信息都能够为深层次的知识服务提供分析用数据。

(3)被引文献库:用于记录被引文献的基本信息,字段包括:文献号、引文序号、引文篇名、引文语种代码、引文类型代码、被引作者、引文期刊名称、出版社、出版年、卷期、起止页码、被引形式、被引角色、备注等。

(4)期刊目录库:用于记录被收录期刊的基本信息,该库主要与来源文献库相关联的关键字是期刊代号。主要字段有:期刊代号、期刊中文名称、期刊英文名称、ISSN号、国内刊号、出版周期、出版单位、主办单位、期刊分类、创刊时间、邮发代号、通信地址、邮政编码、网址等。

(5)期刊沿革库:用于记录期刊名称变化的情况,主要用于统计中的数据归并处理,也可用于期刊引用网络构建时的刊名统一化处理。该库的主要字段有:期刊代号、期刊中文名称、之前名称、更名时间等。

(6)机构信息库:用于记录发文作者所在机构的基本信息,主要与来源作者信息库相关联,该库的主要字段包括:机构名称、机构英文名称、机构类型代码、国家代码、地区代码、通讯地址、邮政编码等。

(7)机构变化库:用于记录机构的名称变化信息,该库的主要字段包括:机构名称、机构类型代码、变化原因、之前名称、更名时间等。

(8)关键词索引库:用于存储所有收录文献的关键词,并建立倒排索引,主要目的用于检索和进行关键词统计,通过对关键词的统计,可以分析学科研究热点和发展趋势。该库的主要字段包括:关键词、关键词词频、来源文献号集合等。

(9)公共字典编码库:几乎和引文索引中的所有库都具有联系,该库包括7张编码表(国家与地区编码表、国内地区编码表、机构类型编码表、基金类型编码表、语种类型编码表、分类体系对照表和引用类型公共编码表),是整个基础数据架构的连接和纽带,同时其特有的编码设计也为知识服务提供了有力的保证。

4.3 公共字典库的代码设计

编码是对数据进行知识化和规范化的过程,编码本质上是对象的抽象表达,优秀的编码规则能够使系统发挥更大的效能[5]。我们在公共字典库中设置了7种编码,使各项数据之间建立起知识化的关联,下面介绍几种主要的编码。

(1)国内地区编码。地区编码主要针对作者的机构所在的地区信息进行的编码,编码的目的是能够以省或市为单位对国内各地区进行成果的统计和分析,甚至可以进行同级别城市(如各省会城市)的科研成果数量比较。通过地区编码,我们既可以很方便地以省为单位集中统计,也可以很方便地对各省内的城市进行相关统计分析。更重要的是,地区编码能够提升地区统计的准确性和效率。

由于目前各期刊对作者的地区标引没有统一的规定,文献中作者的地区数据显得非常凌乱,有的只标注省份,有的标注省和市,有的仅给出了城市名,有的甚至没有地区标注。另外,随着中国城镇化建设步伐的加快,地区名称也常常出现变更的情况,因此编码为解决这类地区名称变化带来的统计上的困难提供了有效途径,它实际上起到了地区名称规范化、统一化的作用。地区编码需要注意地区间的从属关系以及地区信息表示的粒度问题,既要能突出表现将省内城市聚合成以省为单位的粗粒度,也要能够表示省内所辖城市为单位的细粒度。以江苏省及其所辖市为例,既要能够通过编码从大量的文献中提取出江苏省作者发表的论文,也能够统计江苏省内各地级市作者发表的论文。这样的编码设计可以依据不同用户的需求,灵活的设置地区级别。此外,通过区县级的编码还能够从细节上发现小区域的经济特色和优势产业,为科技服务产业提供了良好的数据资源。

具体的地区编码策略为:采用6位数字编码方式,其中1-2位为省级行政区域编码(包括省、直辖市、自治区和特别行政区),3-4位为市级编码,省会城市的编码统一为“01”,若是直辖市这两位代表它们的区县,第5-6位为区县级编码,包括下属的县级市、区和县。依据这样的编码规则,北京的编码为“010000”,江苏南京的编码为“160100”,依次类推。

(2)机构类型编码。发文机构数量庞大、类型众多,对机构编码的过程,实质上是对众多发文机构进行归类整序的过程,同时也是知识化的过程。经过机构编码,引文索引可以根据用户不同的知识需求,对编码进行组配查询,来达到特殊要求的统计分析结果。例如欲分析对比全国“211”师范院校的科研实力,在没有编码前需要罗列这些学校,然后逐一检索获得相关数据。而科学的编码,可使这类繁琐的工作变得简单高效。

从科学分析角度针对科研机构分类,我们可以将所有机构划分:高等院校、科研院所、党政机关、文化团体、企业、军队系统、非高校教育单位和其他8种类型,分别用数字1-7、9表示(我们在整个编码系统中,对于其他类别统一都用数字9表示),对于每种类型再根据具体情况编制下级机构类型代码。

例如:对于高校,可以将其划分为“985”工程院校、“211”院校、教育部直属院校、中央其他部门所属院校、地方本科院校、高职(专科)院校6种类别,分别用数字1-6表示;再下一级可以表示高校的专业特征,如:综合性院校、师范类院校、医学类院校、工科类院校、体育类院校、艺术类院校、军事类院校、财经类院校和其他专业院校9种类别,用数字1-9表示。当然,也可以根据实际情况增加院校类别。有些高校可能会对应多个编码,本编码规定一律高靠,比如,南京大学可能对应的机构类型编码有“111”“121”和“131”三种,本编码系统只为南京大学取“111”作为编码,可在进行统计分析时,通过一定算法来区分。在对某一类学校进行统计对比时,我们只要借助编码就可以方便的进行统计分析。例如,当对全国财经类院校进行统计分析时,我们就可以利用代码“1x8”抽取相关数据完成统计,其中“x”可以为任何数字,也可以是指定某几个数字。

对于科研院所也可以划分三级进行编码,如:国家所属、省部所属、专业学会所属、其他等;然后再将其细分:自然科学类、工程科学类、医药学类、社会科学类、其他,等等。如,中国社会科学院为国家所属的社会科学院科研机构;再如,江苏省中医药研究院为江苏省所属的医药学类研究所。

其他类机构都可以按纵横两个方面再划分两级编码,纵是指行政上的上下级或所属关系,如,国家级、省市级等等;横是指机构的类别或属性,如高校按学科划分等。所有机构类型编码均由三位数字组成。在实际的机构编码过程中,可以根据资源涉及的机构状况,根据实际需要来设置自己的机构编码。

(3) 基金类型编码。其他中研究院术情报所化论、转化论与融合轮将用户的需求分解成基金类型编码用于为各类资助基金进行编码,以反映各类基金的科研成果状况,进而分析各类基金在科学研究中发挥的作用。目前,基金项目类型众多,从纵向看,有国家级、部委级、省市级、以及各单位的资助项目;从横向看,有攻关计划、重大项目、重点项目、一般项目、青年项目、国际合作与交流项目等等,所以基金项目类型编码同样采用分层编码的方式。如,纵向分别用1-3,9表示国家级、省部级、市级、其他;对国家级项目再划分:国家自然科学基金项目、国家社会科学基金项目、国家863和973项目、国家其他项目计划(如科技基础条件平台建设计划、政策引导类科技计划等),并分别用1-3,9表示;第三层再划分重大项目、重点项目、专项项目、一般项目、青年项目、其他等。

同样,部委级、省市级基金项目也可进一步划分为:自然科学基金项目、社会科学基金项目等;第三层再划分重大项目、重点项目、专项项目、一般项目和青年项目等。通过分层编码,将众多繁杂的基金项目进行了有序的归类和标引,为进一步的分析比较以及深度的知识服务做好数据基础。例如,通常情况下重大项目代表了各个研究领域的最前沿技术、最高的科研水准或国家、地区急需解决的科研问题。

通过对基金项目的编码,我们可以很方便的调出有关基金项目的成果。例如,若想通过引文索引查找或统计所有国家级重大项目的科研成果,只需要利用基金类型编码“1x1”对引文索引中来源文献进行检索即可以获得。

5 结语

任何知识的创新都是在前人研究基础上进一步努力的结果,没有继承就没有创新。文献间的引用填补了知识沿时间和空间的互补性需要。引文索引是对文献信息资源进行管理的有效工具之一,经过50年的发展,引文索引对整个科学领域的研究产生了重要的影响,引文索引系统也逐步摆脱信息检索的单一形象,在对期刊的评价、科研成果评价、人才的培养、学科的发展过程中都起到了关键的导向作用。

通过对国内多个引文索引系统的使用分析可以看到,目前我国引文索引建设还存在着明显的不足:一是功能简单,一般只提供检索与简单的统计分析功能;二是数据来源不同,检索的结果差距较大,各索引系统因开发单位不同,存在重复劳动情况,没有能够形成类似于WOS的统一检索平台;三是深层次的知识服务功能还非常稀缺,数据的统计分析都是以文献为单位,没有能够深入具体引用的内容部分,缺乏语义层面的分析。

有效的数据组织是进行知识服务的前提,引用关系是文献间最普遍最直接的联系,我们的任务不仅仅是表示这种关联,更要能从引用中发现更多知识,提供深层次的知识服务。数据的组织是知识服务的基础与关键,引文索引的研究不仅仅是个别人、个别单位的事情,应该是全社会集思广益、不断深入的过程,引文索引也不能是一个固定僵化的系统,要能够适应社会的发展和人们知识需求的变化。

参考文献:

[1]马智峰.参考文献的引用及影响引用的因素分析[J].编辑学报,2009,21(1):23-25.

[2]郭丽芳.中外五大引文索引系统比较分析[J].现代图书情报技术,2005,(1):36-39.

[3]王婧,华薇娜.国内外文科引文索引数据库检索功能比较[J].新世纪图书馆,2011,(1):42-44,73.

[4]苏新宁.中国社会科学引文索引设计[J].情报学报,2000,19(4):290-295.

[5]苏新宁.中文社会科学引文索引(CSSCI)的设计与应用价值[J].中国图书馆学报,2012,(38):95-102.

[6]纪蔚蔚.基于Web引文索引数据库建设方略[J].现代图书情报技术,2004,(12):45-50.

[7]陈建青等.中文生物医学期刊引文数据库(CMCI)的研制特色[J].现代图书情报技术,2005,(3):63-65.

[8]柴永红.论信息服务与知识服务[J].情报杂志,2004,(4):74-75,78.

作者简介:朱云霞,女,南京邮电大学副教授,南京大学信息管理学院博士研究生;苏新宁,男,教育部长江学者特聘教授,南京大学信息管理学院博士生导师。

推荐访问:引文 索引 面向 组织 知识

热门文章