收藏 分享(赏)

基于学科内容特征的图情档一体化程度测度研究.pdf

上传人:高**** 文档编号:955491 上传时间:2024-06-02 格式:PDF 页数:8 大小:191.29KB
下载 相关 举报
基于学科内容特征的图情档一体化程度测度研究.pdf_第1页
第1页 / 共8页
基于学科内容特征的图情档一体化程度测度研究.pdf_第2页
第2页 / 共8页
基于学科内容特征的图情档一体化程度测度研究.pdf_第3页
第3页 / 共8页
基于学科内容特征的图情档一体化程度测度研究.pdf_第4页
第4页 / 共8页
基于学科内容特征的图情档一体化程度测度研究.pdf_第5页
第5页 / 共8页
基于学科内容特征的图情档一体化程度测度研究.pdf_第6页
第6页 / 共8页
基于学科内容特征的图情档一体化程度测度研究.pdf_第7页
第7页 / 共8页
基于学科内容特征的图情档一体化程度测度研究.pdf_第8页
第8页 / 共8页
亲,该文档总共8页,全部预览完了,如果喜欢就下载吧!
资源描述

1、基于学科内容特征的图情档一体化程度测度研究王光志 武华维 王超摘 要 随着互联网和信息技术的发展,图书情报与档案的工作环境、内容、方式等发生了变化。本文从学科内容角度出发,利用期刊论文的题录信息,提出一种测度图书情报与档案一体化程度的方法。根据齐普夫定律对主题词赋权,对通过改进 Jaccard 相似系数计算学科内容特征的相似度,提出一体化指数测度三者一体化程度,最后以中国图书馆学报情报学报档案学研究三种核心期刊为对象进行实证研究。结果发现,三者在某些领域存在逐渐融合的态势,但是这种融合的主题内容范围和融合的程度仍然限制在一定范围,即没有出现较为明显、剧烈变化。关键词 学科内容 图情档一体化 测

2、度方法Abstract The development of the Internet and information technology haschanged the working environment,content and methods of library,informationand archives.To this end,from the perspective of subject content,a methodfor measuring the degree of integration of library,information and archivesis p

3、roposed.Firstly,according to Zipfs law,the subject words areempowered.Secondly,the Jaccard similarity coefficient is improved tomeasure the similarity of the subject content.Thirdly,the integrationdegree of the integration index is proposed.Finally,Journal of the LibraryScience in China,Journal of t

4、he China Society for Scientific and TechnicalInformation and Archives Science Study are empirically analyzed.The resultsshow that there is a gradual integration of the three in some areas,but thescope of the subject matter of the fusion and the degree of integration arestill limited to a certain ext

5、ent,that is,no obvious and dramatic change.Keywords Subject content.Integration of library,information andarchives.Measurement method.0 引言自上世紀六七十年代,“图书、情报、档案一体化”被提出以来1,国内有相当一部分学者认为图书、情报、档案工作一体化是必然的发展趋势,并以此为中心展开了许多相关研究。随着互联网和信息技术的迅猛发展,图书情报、档案的工作环境、内容、方式等内容也随之发生变化,尤其是人工智能、物联网、云计算等信息技术的出现,使得图情档的学科体系和能力

6、建设无法忽视信息和数据这一核心2。在信息化、网络化的今天,图书、情报、档案一体化这一命题是否仍然成立,并且图书、情报、档案的一体化程度如何?现有的研究似乎对这一疑问尚未有充分的认识和研究。鉴于此,本文采用一种定量分析的方式,从学科内容的角度出发,构建一种图书、情报、档案一体化的测度方法,以期为相关研究人员提供一种观测新背景下图书、情报、档案一体化发展程度的新方法或新途径。1 相关研究综述1978 年,中国科学院最早提出“图书与情报一体化”,以提高工作效率、避免重复浪费,便于统一领导规划3。这引起学界广泛关注,随后国内学者展开了一系列图书、情报、档案一体化的相关研究。首先,部分学者对图书、情报、

7、档案一体化的必要性和内在依据展开相关研究,如刘英则和吕福玲4认为图书、情报、档案同属于知识载体,都是信息的范畴,这便为三者一体化管理提供了理论依据。李学军5认为图书、情报、档案三者都属于信息源的一种,这种共性便为图情档一体化提供了理论基础,同时,这种共性使得三者会拥有相同的服务或工作对象,其工作方式和技术方法手段也会相同。另外,许芳6、符少华7、李华8等学者认为,图书、情报、档案是企业进行科技信息管理的重要手段,在信息技术时代背景下,通过图书、情报、档案三者间的知识共享,可以增强企业知识创新,提供企业竞争力,所以对企业来说,图书、情报、档案一体化是必然趋势;而宋雄伟9、余敏10、翁雪梅11等学

8、者认为,图书、情报、档案一体化,对高校的教育、教学、科研发展起着重要的推动作用,便于图书情报学科相关知识在学校内部的共享与流动,所以实行图情档一体化是改善和发展现代高校信息服务的趋势。为了进一步论证图情档一体化的可行性,相关学者调研了欧美国家中图情档一体化的理论和实践研究。李群和刘维荣12发现,美国、英国和日本在图情档一体化方面主要体现在利用网络和信息技术实现三者数字资源的共享以及一体化管理。李群13进一步对美国的教学实践进行研究,发现美国大学的档案学与图书馆学、情报学之间的教学联系紧密,三者在教学中相互渗透。张锦和王海兰14研究发现,英国电影组织(BFI)在组织和功能上实现英国电影信息中心、

9、英国国家影视图书馆、英国国家影视档案馆三者之间的一体化运行模式。随着研究程度的深入,学者开始重点研究图书、情报、档案一体化策略,具体来说,就是研究从哪些方面可以更好地实现图书、情报、档案一体化的开展和进行。如叶鹰15进一步探讨了图书情报档案一体化的学理基础;吴营和季晓琳16参考 ISO9000 标准管理原则,探讨了图书情报档案一体化的质量管理。田丽17探讨了辽宁省图书、情报、档案专业人才校馆所联合培养的模式。王小云18从图书、情报、档案的专业课程资源的建设角度,探讨了图书、情报、档案一体化专业教育的问题。赵益民19探索了图书情报档案的一体化整合模式,尝试通过行业联盟的形式对图书情报档案从虚拟层

10、次进行一体化整合,以实现资源建设和业务管理的整合。综上所述,可以发现几乎所有涉及图情档一体化的相关研究都未持怀疑乃至否定态度,当然也有部分学者就图情档一体化的可行性进行了论证,如葛翠玲20对图情档一体化开展了否定性检验研究,论证结果多认为图情档一体化在我国具有很强(或者一定的)可行性。但是,笔者认为部分学者显然混淆了图情档一体化的概念内涵。其实,图情档的一体化是在保持三者独立性,而不是取消三者独立性的基础上相互联系、相互渗透的,三者是在较高程度的协调性、统一性和整体性21上,为社会提供信息保障,三者的本质都是信息工作系统22,包括工作流程的一体化、服务对象的一体化、资源建设的一体化,学科建设的

11、一体化等等。从现有文献中发现,学者多从信息资源一体化、工作流程一体化、服务流程一体化等工作实务上进行的定性研究,尚未提及较为系统或详实的定量分析。当然也有部分学者从学科建设方面了一些图书、情报、档案一体化的定性探讨,但是多数研究似尚未对学科内容方面进行较为深入的定量分析。如刘满闪和焦运立23从基本共性和非基本共性的角度探讨了图书、情报、档案一体化的学科依据;赵国俊24研究了图书、情报、档案三个学科发展的分化和整合趋势,他认为当前三个学科在不断分化和整合,其中整合成为主流形态。张莉娅和邓勇25从著者交叉和知识网络的角度分析了图书、情报、档案三个学科的交叉融合,利用期刊论文中的著者和关键词分析发现

12、三者虽属于同源性学科但是三者之间有着本质的区别。初景利和张颖2指出当前图情档存在学科边界模糊、学科融合危机、体系构建艰巨等问题。闫慧26认为图情档三个学科之间存在认同危机,三者不仅长期以来存在话语碎片化、内生力不足的问题,而且图书馆、档案两个学科偏文和情报学话语偏理,这一切都使得三者之间的融合难道较大。2 图情档一体化程度分析框架随着期刊全文数据库、文摘数据库及信息技术的发展,期刊论文的题录信息成为承载文献内容的重要元数据。利用相关技术和方法对某一学科领域的期刊题录信息进行处理与分析,可以揭示该学科研究与发展的内外部特征27-29。考虑到学科内容主要以文本信息为承载对象,而期刊承载了学科发展、

13、建设方面的信息,所以本文从学科内容的角度来测度图书、情报、档案一体化程度时,主要以期刊为数据对象、以文本处理及分析方法为手段。如果代表学科内容的图情档三类期刊题录信息之间呈现较高的一致性,即研究内容较为相似,则说明图书、情报、档案在学科内容的一体化程度较高,反之则说明三者一体化程度不紧密。其具体的分析框架见图 1。3 数据处理方法本文以期刊的题名、摘要、关键词三种题录信息来表征图书馆学、情报学、档案学学科的主要内容。考虑到主题是表示学科内容的基本单位,本文利用自然语言处理技术对题名、作者关键词和摘要作为输入数据源作进一步的文本分词处理,以分别获取图书馆学、情报学、档案学学科领域主题词。3.1

14、数据处理工具及流程本文主要采用 python 语言中的 jieba 分词工具来进行文本分词。同时,考虑到该工具中分词词表可能无法识别这三个学科的专业主题词,所以本文同时将作者关键词作为分词词典的重要补充;然后,使用自建的常用停用词表对分词结果进行进一步过滤,然后再进行词性分析,仅保留包含实意的动词、动名词。最后,分別对图书馆学、情报学和档案学数据集中的关键词进行频次统计,然后根据词频的大小选取前 100 个高频词,分别形成三个主题词集合 Term 情报、Term 图书馆、Term 档案。针对图书、情报、档案学科内容的一体化测度便是在这三个主题词集合的基础上展开的。3.2 基于 Jaccard

15、相似系数的计算方法本文为了证明图书、情报、档案在学科内容上一体化程度,需要在已经获取的图书、情报、档案三个主题词集合的基础上,进一步计算三个主题词集合之间的相似程度,以便获取三者学科内容的一体化程度。本研究主要采用 Jaccard(杰卡德)相似系数分别计算出图书与情报、情报与档案、档案与图书之间的主题内容相似度。Jaccard 相似系数,又称 Jaccardindex,在于计算集合 A 与集合 B 的交集元素在各自集合中所占的比例。Jaccard 相似系数可用于比较有限样本集之间的相似性与差异性。Jaccard 系数值越大,样本间的相似度越高,Jaccard 系数值越小,样本间的相似度越低。J

16、accard 相似系数用公式(1)表示为:Jaccard 相似性系数主要用于计算符号度量或布尔值度量的样本间相似度。若样本间的特征属性由符号和布尔值标识,无法衡量差异具体值的大小,只能获得“是否相同”这样一种结果,而 Jaccard 系数关心的是样本间共同具有的特征。这恰好符合本研究测度图书、情报、档案学科内容一体化的需求。同时,与常用的余弦相似系数相比,Jaccard 系数可以避免因文本数据稀疏影响而导致误导性计算结果的出现,尤其适合稀疏度过高的数据。假设在计算图书与情报、情报与档案、档案与情报之间学科内容相似度时,如果三个学科的主题词频数据比较稀疏,那个他们三者之间的内容相似度会呈现出比较

17、高的数值,这样不可避免的会影响对实际情况的判断。考虑到数据稀疏性这一因素,本研究选择Jaccard 系数来计算文本相似度。3.3 Jaccard 相似系数的局限与改进Jaccard 系数也存在一定的局限。具体来说,Jaccard 相似系数使用 01 表示关键词的值,对于每一个词同等对待,计算方便快捷。然而,Jaccard 相似系数只考虑主题词集合之间共同交集,忽视交集主题词频之间的数量差异,没有考虑到词频的影响。鉴于此,本文对 Jaccard 相似系数做出进一步的改进,将主题词的词频这一因素考虑进来,利用改进后的 Jaccard 相似系数来计算图书、情报、档案三个学科彼此间的内容相似性。Jac

18、card 相似系数的改进步骤具体如下。首先,增加主题词权重。根据齐普夫定律,本文按照词频统计从大到小进行排序,然后将主题词词频顺序的序数的倒数作为该主题词的权重值。3.4 一体化程度测度说明利用 Jaccard 相似系数计算图书与情报、图书与档案、情报与档案之间学科内容的相似程度,这种相似程度仅仅体现了两个对象之间的一体化程度,为此需要将图书、情报、档案三者之间的相似程度拟合成一个整体才能够代表三者学科内容的一体化程度的数值。本文利用三者之间的集中程度和离散程度将三个学科内容相似系数拟合成学科内容一体化指数。在利用图书、情报、档案三者间的内容相似程度来把握三者学科内容的一体化程度时,主要利用三

19、者间的内容相似度的集中程度来反映相似度的整体集中水平,利用三者间内容相似度的离散程度来反映各个相似度之间的差异程度。如果图书、情报、档案三者间的内容相似程度的整体水平高且各个相似间的差异小,那么三者的整体内容相似度高,即学科内容的一体化程度高。所以一体化在测度时既要考虑各个相似程度的整体水平,也要考虑离散水平,两个因素相互依赖。由于两个因素的相互作用决定了整体一体化水平,因而我们采用乘法合成法,将整体水平和离散水平合成一个指标。本研究中采用均值来表示整体水平,采用变异系数来衡量离散水平,其中不用标准差的原因主要是它只能反映组内数据的离散水平,而无法衡量不同数据组间的离散水平。而变异系数则消除了

20、不同组间数据量纲的问题,可以进行不同组间的离散程度比较。由此,图书、情报、档案学科内容的一体化指数的公式为:4 实证分析4.1 数据来源与获取中国图书馆学报 情报学报 档案学研究分别是由中国图书馆学会、中国科学技术情报学会和中国档案学学会主办的国家级专业期刊,三个刊物分别刊发图书馆、情报、档案研究的重要成果,具有很高的学术水平,是国内图书情报档案研究热点和前沿主题的风向标,具备一定的代表性。因此本文将三种期刊分别作为图书、情报、档案学科内容分析的数据来源。在 CNKI中国学术期刊数据库中检索中图书馆学报和档案学研究自 2008年以来近十年所有的文章,从万方数据中国学术期刊数据库中检索情报学报自

21、2008 年以来的所有文章,经人工筛选,只保留学术研究论文,共获得 3396 篇,作者关键词 8618 个(见表 1)。4.2 文本计算与分析首先,利用 python 语言中的 jieba 分词工具来对 3396 篇中国图书馆学报、情报学报、档案学研究中论文的题录信息进行文本分词;然后,去除停用词和按词性进一步过滤后,分别统计三种期刊中的主题词频数,按照词频统计从大到小进行排序,利用(公式 2)获得所有主题词的权重。再次,选取前 100 中的主题词作为主题词集合,并取图书、情报、档案三者之间主题词集合的交集。最后按照(公式 4)计算图书、情报、档案三者之间主体内容的相似程度。表 2 为 200

22、82017 年图书、情报、档案三者之间的交集主题词个数,交集主题词集的个数占比都在 18%50%,仅由交集主题词集合的数量可以看出图书、情报、档案三者的学科内容呈现一定程度的一体化(交集主题词占比高于 18%),但是这种一体化的程度并不太高(交集主题词占比低于 50%)。在交集主题词集合的基础上,进一步结合主题词的权重分析 20082017 年图书-情报、情报-档案、档案-情报两两之间的内容相似度(见图 2)。在 20082017 年这十年间,图书-情报间的内容相似度在 0.03630.0753 范围内,图书-档案间的内容相似度在0.03090.0695 范围内,情报-档案间的内容相似度在 0

23、.02040.0695 范围内,可以看出三者之间内容相似度总体上集中在 0.020.08。20082010 年之间,图书-情报间的相似度明显高于其他两个,情报-档案间的相似度相对较低。在 20112016 年间,情报-档案间的相似度开始逐渐提高,相较于同期其他相似度,开始显出一定的优势;相同时期,相较于同期其他相似度,图书-情报间的相似度优势有所降低。在这十年间,相较于同期其他相似度,图书-档案间的相似度优势不是非常明显。总体上看,图书-情报、图书-档案、档案-情报三者之间的内容相似度总体上呈现增大的趋势(图 2 中两条直线所示)。4.3 一体化系数计算分析在完成图书-情报、图书-档案、情报-

24、档案内容相似度分析的基础上,利用(公式 4)计算 20082017 年图书、情报、档案三者一体化指数,具体结果如图 3 所示。从总体上看,图书、情报、档案三者学科内容的一体化呈现逐渐增大的趋势,但这是一种比较缓慢的增大过程(图 3 中的直线所示)。在这十年间,图书、情报、档案学科三者之间的内容相似的平均水平集中在 0.0380.068,三者之间的整体相似程度变化幅度小,三者之间的内容相似度的差异程度集中在 0.0720.482,内容相似程度的差异性波动较大,但是图 3可以看出这种差异性总体上呈现出逐渐降低的趋势。2008 年和 2013 年的一体化指数分别为十年间的最低值和最高值,进一步对 2

25、008 年(图 4)和 2013 年(图 5)的一体化内容发现,2008 年的一体化程度明显差于 2013 年的一体化程度。在 2008 年,图书-情报、情报-档案、图书-档案三者所具有相似主题内容各异,尤其是图书-情报之间存在较多的相似主题,图书-情报之间多侧重自动构建、资源、专家、主题词表、中文、中国、质量、知识转移、知识流、知识管理、战略、用户研究、用户、影响因素、引文分析、研究综述、研究现状、学科、叙词表、信息资源、项目、系统、网络环境、网络、途径、图书馆服务、数字图书馆、数字、实证研究、论文、领域本体、理论、科学、技术、高校图书馆、服务质量、电子政务、测度。而情报-档案、档案-图书之

26、间的相似主题内容较少,其中情报-档案多侧重知识集成、因素、新闻、情报、企业、领域、国际、关系、高校、概念、对策,档案-图书多侧重政府信息公开、信息资源建设、信息服务、新时期、现状、文献、图书馆、史学、美国、理性、开发利用、基础理论、传统。所以,2008 年图书、情报、档案的一体化程度总体较差,其中图情档三者共同关注的主题内容为策略、发展趋势、环境、科学、模式、模型、期刊、视角、体系、信息。在 2013 年,图情档三者共同关注的主题内容为美国、技术、内容、环境、中国、网络、实证研究、信息、资源、评价、方法研究、研究述评、高校等,图书-情报、情报-档案、图书-档案三者共同拥有的主题内容数量较多。图

27、书-档案多侧重数据库、信息化、图书馆学、资源共享、国际、平台、信息资源、馆藏、标准等内容,图书-情报多侧重情感分析、个性化、用户、电子、质量、web2.0、特征融合、制度、社交网络、文献等内容,情报-档案多侧重互联网、政府门户网站、数据挖掘、突发事件、知识图谱、企业、政策、信息服务、电子政务、数据等内容,图书-情报、情报-档案、档案-图书之间的相似主题内容的数量比较均衡。5 结语通过对以中国图书馆学报情报学报档案学研究三种核心期刊为代表的图书、情报、档案学科内容的分析研究发现,三者面临的工作环境、工作对象、手段发生变化,三者在某些领域存在逐渐融合的态势,但是三个学科之间仍然有自己的特定的理论和

28、方法,这种融合的主题内容范围和融合的程度仍然限制在一定范围,即没有出现较为明显、剧烈变化。本文基于学科内容的图书、情报、档案一体化的测度,通过对核心期刊的论文题录信息实证研究发现,可以量化图书、情报、档案在学科内容上的一体化程度及趋势。当然,本文提出的方法也存在一定的局限性。首先,选用实证数据可能无法全部囊括全部的图书、情报、档案的主题内容。其次,对学科內容的把握仍然仅仅依赖于期刊的题录信息,受一定条件的限制,无法通过全文来进行分析。最后,本研究仍然将主题词作为构成学科内容的基本单元,但是主题词可能会脱离具体语义,造成与内容之间存在一定的误差,影响分析结果。所以,针对这三个方面的问题,未来本研究的研究重点将会侧重基于更多期刊的全本数据及基于语义的学科内容分析。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 幼儿园

网站客服QQ:123456
免费在线备课命题出卷组卷网版权所有
经营许可证编号:京ICP备12026657号-3