1、日本 JPCOAR 元模型特点分析与发展趋势研究孙海燕?解登峰?孟祥莲摘 要 日本开放获取知识库联盟(JPCOAR)为应对近年来国际形势变化和学术信息发布技术发展、促进日本学术成果的国际流通,开发出了取代 junii2 的新一代元数据模型,对完善我国机构知识库元数据模型具有较强的借鉴意义。本文梳理了 JPCOAR 元模型的开发背景、基本原则和特点,并在此基础上分析了日本机构知识库元数据模型未来的发展趋势。研究发现,未来元数据最重要的是正确提供标识符并使其成为易于处理的数据结构,而不是专注于精细化描述。关键词 JPCOAR 元模型 特点分析 发展趋势分类号 G250DOI 10.16810/ki
2、.1672-514X.2020.03.015Abstract In response to the recent changes in the internationalsituation and the development of academic information disseminationtechnology,and in order to promote the international circulation ofJapanese academic achievements,JPCOAR has developed a newgeneration metadata mode
3、l that replaces junii2.It has strongreference for improving the metadata model of institutionalrepository of our country.By thorough inspection of the developmentbackground,basic principles and characteristics of the JPCOARSchema,this paper concludes the future development trend of theJapanese Insti
4、tutional Repository metadata model.The results showthat the most important thing about future metadata is to correctlyprovide the identifier and make it an easy-to-handle data structure,rather than focusing on fine-grained descriptions.Keywords JPCOAR.Schema.Characteristic analysis.Development trend
5、.0 引言21 世纪初兴起的机构知识库在世界范围内掀起持续的研究和建设热潮,近年来机构知识库建设在我国也引发了广泛关注和研究,但当前国内机构知识库建设仍然处于成果积累和模式摸索阶段,政策和联盟环境还有待进一步完善1。其中 DC 元数据是目前我国机构知识库使用最广泛、最基础的元数据标准,由 15个核心元素构成,辅以限定词描述,适合网络语义关系下的存储、管理及查询利用2。日本各机构知识库资源的元数据长期以来采用的 junii2 元数据模型,其前身同为 DC 元数据标准。由于我国机构知识库建设起步晚,目前尚无统一的元数据模型。因此,JPCOAR 元数据模型的开发背景、基本原则及发展趋势,对我国机构知
6、识库元数据模型的开发有极强的借鉴意义。日本各机构知识库资源的元数据长期采用的 junii2 元数据模型通过日本国立情报学研究所(NII)的学术机构知识库数据库(IRDB)广泛传播。“高校图书馆和国立情报学研究所联合推进会”下设的机构知识库推广委员会为了应对近年来国际上学术信息交流形势变化和新技术发展、促进日本学术成果的国际流通,于 2016 年设立了元数据研讨专家组。该专家组自设立之初就致力于研发取代 junii2 的下一代元模型。2017 年开放获取机构知识库联盟(JPCOAR)成立后,其下设的元数据标准专家组接替了元数据研讨专家组的工作,并于 2017 年10 月份正式發布“JPCOAR
7、元模型 ver1.0”。本文将详细阐述这一元模型的开发背景、基本原则和特点,并在此基础上分析日本机构知识库元数据模型未来的发展趋势,以期为我国机构知识库建设提供有益借鉴。1 JPCOAR 元模型的开发背景与基本原则1.1 JPCOAR 元模型的开发背景1.1.1 Dublin Corejunii2 的前身日本机构知识库元数据模型的历史可以追溯到 2002 年的“NII 元数据数据库共建项目”3。这一项目初衷是全日本的大学、研究机构共建线上学术信息资源的元数据数据库,使得注册的元数据能通过“大学 Web 资源检索”(JuNii:高校信息元数据试用门户网站)系统开放。这一项目的开展需要一个通用的元
8、数据模型,于是,2001 年经 NII 内部组建的元数据数据库研讨工作组的研究,参照 Dublin Core Metadata Element Set(DCMES),从中选用了 15 个元数据描述元素。随着 2005 年 NII 前沿学术情报基础设施项目(CSI)的启动,构筑机构知识库的机构越来越多,JuNii 便发挥了机构知识库门户的作用。NII 致力于JuNii 元数据模型的修订,并于 2006 年开发了日本沿用至今的元模型 junii2,用于收集机构知识库的元数据。随后,NII 试运行了机构知识库门户网站JuNii+之后,又试运行了为学术机构知识库提供服务的门户网站 JAIRO。这两个网
9、站于 2009 年相继正式投入使用。然而由于各机构知识库元数据描述方法不统一,导致检索效果不佳。因此,2009 年 NII 经广泛征求意见后,对 junii2进行了一系列修订,次年 3 月发布了 ver1.0。之后为了应对学位制度改革,NII 又对 junii2 进行了多次修订,到 2017 年 10 月 junii2 的版本已经更新到ver3.1。1.1.2 学术信息传播时代的变迁日本 2015 年内阁报告书提出“机构知识库要作为支撑开放科学的基础设施发挥作用”4。在日本,随着构筑国际性网络的呼声越来越高涨,IRDB 于 2016 年开始向欧洲开放获取平台 OpenAIRE 提交元数据5(如
10、图 1)。机构知识库推广委员会顺应这一潮流,由下设的几个工作组针对元数据所需元素进行调研,充分把握论文开放获取情况、元数据及资源内容的多样性,以确保开发的元模型具有良好的国际互操作性。调研发现,为了应对开放科学运动,必须对 junii2 进行全面修订。自此,JPCOAR 开始就开发新的元模型进行研讨。1.2JPCOAR 元模型开发的基本原则2016 年 10 月,JPCOAR 公布了全面修订 junii2 的基本原则,并广泛征求意见后,发布了 JPCOAR 元模型开发方案。这一开发方案于 2017 年 3 月开始正式实施。基本原则有以下几点6。(1)有利于开放科学、开放获取原则。在欧美,近年来
11、政府资助机构要求获得公共基金资助的学术成果开放获取已成为新常态。在日本,关于开放科学的研讨也已经上升到政策层面,除了学术论文外,要求开放获取作为论文支撑的科研数据的呼声也越来越高涨。执行 OA 政策的大学、资助机构的数量也在不断增加。JPCOAR 为顺应这一潮流,在开发 JPCOAR 元模型过程中追加了满足研究数据管理等社会新需求的元素。DataCite 作为一个帮助研究者发现、识别和引用研究数据的非营利性机构,为科研数据等数字资料提供了持久标识符 DOI(数据对象标识符)。JPCOAR 元模型开发过程中,借鉴了 DataCite 的元数据模型,使其能够描述各类贡献者的属性。此外,为了标识获得
12、公共基金资助的研究成果,促进其开放获取,JPCOAR还增加了与资助机构相关的元素及描述资源 OA 状态的访问权限元素。(2)有利于准确识别信息原则。要准确识别资源,将一个实体与另一个实体明确区分的标识符显得尤为重要。修改元数据结构、扩展标识符,最终目的都是为了准确识别信息。现代学术信息交流要求学术成果元数据不仅僅在所属机构内传播,同时还要在日本国内外传播。这就要求 JPCOAR 使用具有良好国际流通性的标识符。基于这一点,新的元模型增加了论文、研究人员、机构层面的标识符。此外,当前 junii2 的构造是各元素以平面方式描述信息,元素之间的关系无法被机器识别。为解决这一问题,JPCOAR 元模
13、型将关联信息分组(分层)描述,提升信息识别度。(3)有利于提升国际互操作性原则。为促进日本学术信息的国际交流,JPCOAR 在充分调查了国际动态后,决定参照国际互操作性较高并极有可能成为未来 IRDB 主要合作对象 OpenAIRE 的指南开展修订工作。此外,OpenAIRE 为了走出欧洲、在世界范围内收集并传播研究成果,也在不断修订其指南7。JPCOAR 元模型整个开发过程中注意一直保持与 OpenAIRE 的沟通交流,以便能够与 OpenAIRE 指南兼容。因为 OpenAIRE 采用了 COAR 的 controlledvocabularies(受控词表),所以 JPCOAR 元模型也采
14、用了其资源类型和访问权限。COAR 的受控词表遵循 SKOS 标准,提供指向 URI、定义多语言词汇表名称及其他受控词表的链接,以提高元数据的准确性和国际互操作性。JPCOAR 元数据标准专家组的部分成员加入了 COAR 受控词表编制委员会,在词表翻译、词汇补充等方面做出贡献。COAR 中的资源类型在词汇方面是分层次的,并且存在多种资源,因此在准确运用方面有难度。鉴于此,JPCOAR 元模型通过精炼词汇的方法避免类似概念词汇的混用。这样虽然主要架构基本上沿用了国际性元数据模型的做法,但 JPCOAR 对其进行了一系列修改使其更加适合日本国情,并且用指南明确定义并提供与主要合作对象的映射,以确保
15、互操作性。2 JPCOAR 元模型的特点JPCOAR 元模型由三层、79 元素、15 种属性构成,如表 1 所示,与 junii2 相比,JPCOAR 元模型不仅增加了元素、属性的种类,还增加了规定使用词汇的受控词表及语言属性的可用元素数。此外,JPCOAR 元模型还通过增加标识符或URI 格式的描述符,实现更复杂的元数据描述和流通。JPCOAR 和 junii2 的目标资源都以学术论文为主,但 JPCOAR 元模型还支持科研数据等多种资源类型。Junii2 在促进日本学术信息传播和保障机构知识库稳定运行方面发挥了巨大作用。JPCOAR 元模型继承了 junii2 的优势,且兼具良好的国际互操
16、作性和可持续性。JPCOAR 元模型主要特点有以下几个方面。2.1 采用外部模型如上所述,在开发 JPCOAR 元模型过程中,JPCOAR 充分考虑到元数据的国际互操作性,参考了 OpenAIRE、DataCite、DC-NDL,DublinCore、RIOXX 等多种外部元模型8。JPCOAR 的顶级元素中有 17 个使用了外部模型,如表 2 所示,在选用外部模型时,JPCOAR 优先选用了更通用模型的元素。比如,表示资源标题的元素在各模型中都有出现,但 JPCOAR 选用了最为通用的 Dublin Core 元素。JPCOAR 元模型主要通过捕捉公共基金资助的研究成果的开放度来响应开放科学
17、运动。因此,元数据要能够清楚的地表示 OA 状态,如是否开放获取及开放日期。关于这一元素,JPCOAR 在充分研讨 RIOXX 的 free-to-read,OpenAIRE 的Access Level 及 Embargo End Date 的基础上,选定了在表示开放获取状况和日期信息方面有优势的 OpenAIRE。管理公共基金资助信息是实现开放科学的一项重要工作。DataCite 的FundingReference、OpenAIRE 的 Project Identifier,RIOXX 的 project 都是与此有关的元素。由于 OpenAIRE 和 RIOXX 使用自己的词汇和描述规则来
18、描述科研课题信息,因此 JPCOAR 选用了更为通用的 dataCite 处理日本课题信息。但是,为了实现日英双语描述的语言属性,必须分别定义资助机构名称(jpcoar:funderName)和项目名称(jpcoar:awardTitle),因此,其上位元素资助信息(jpcoar:fundingReference)也必须分别定义。JPCOAR 元模型在描述学位论文方面因为考虑到与国立国会图书馆(NDL)的合作,主要采用了 DC-NDL 的元素。与 junii2 相比,JPCOAR 元模型因为采用了COAR 的受控词表描述资源类型,所以能够区分博士论文、硕士论文和学士论文。因此,在 JPCOAR
19、 元模型中不再需要 junii2 中用于识别博士论文的著者标识“ETD”。考虑到与标识符的对应关系,JPCOAR 元模型将学位授予机构和创建者都定义为唯一元素。总体来说,JPCOAR 元模型与 junii2 相比,元素配置上更加考虑元数据互操作性。2.2 采用外部词汇JPCOAR 元模型考虑到国际互操作性,词汇方面原则上采用外部受控词表。例如,用 COAR 的受控词表 Resource Type Vocabulary(资源类型词汇表)替代了 junii2 使用的日本特有资源类型 NIItype 并充分考虑二者差异性。比如junii2 的“Departmental Bulletin Paper(
20、纪要论文)”“LearningMaterial(教材)”等,在 Resource Type Vocabulary 里没有与之对应的词汇,于是采用了日本特有的词汇,元数据国际流通时,分别对应“JournalArticle”“Others”。但是,由于“Departmental Bulletin Paper(纪要论文)”是日本机构知识库的主要资源类型,“Learning Material(教材)”在国际上也是重要资源类型,因此 JPCOAR 将来考虑将其添加到 Resource TypeVocabulary 中。访问权限主要采用了 COAR 受控词表 Access RightsVocabulary
21、 中的词汇,另有一部分词汇选自 DataCite。比如各种日期信息(发布日期、创建日期等)最初仿照 junii2 被定为单独元素,但最终发现使用DataCite 的日期元素等属性更为合理。但是,学位论文的学位授予时间采用了DC-NDL 的元素。表示资源开放日期时,将访问权限(dcterms:accessRights)作为开放权限“embargoed access”。date 元素方面,指定date Type=“Available”,輸入解禁日期。解禁后,须将访问权限修改为“Open access”。另外,贡献者(jpcoar:contributor)种类相关的词汇也选自 DataCite。JP
22、COAR 通过选择 DataCollector、DataCurator 等角色表示的词汇来明确表达研究人员的贡献度。2.3 扩充元素及属性JPCOAR 元模型的顶级元素中,有 18 个名称为“jpcoar:”的元素是自定义的,是外部标准元模型中没有的。如表 3 所示。虽然尽可能减少自定义元素有利于提升日本元数据的国际互操作性,但完全使用外部元素描述元数据又会出现种类不够或过剩的情况。因此,JPCOAR 在整体把握整个 JPCOAR 元模型时,有必要考虑自定义元素与其他元素的平衡以及与 junii2 的向后兼容性。基于这些原因,JPCOAR 决定在外部元模型原有元素基础上适当修改,尽可能减少日本
23、特色形成特有元素。(1)创建者(jpcoar:relation)。虽然 junii2 也可以输入作者 ID,但JPCOAR 元模型中,创建者标识符(jpcoar:nameIdentifier)属性还可以描述作者 ID 的类型(如 e-Rad,NRID,ORCID,ISNI,VIAF,AID 等)。例如,日本广泛使用的科研资助人员编号就使用 NRID。关于创建者姓名,JPCOAR在描述作者姓名读音时,如果引入一个类似 creator Transcription 的子元素,则国际互操作性变差,因此,JPCOAR 是在创建者姓名(jpcoar:creatorName)上使用 xml:lang=“ja
24、-Kana”语言标签来描述。在创建者所属机构(jpcoar:affiliation)中,作为基础的 datacite:affiliation 是自由描述,与输入的所属机构 ID(kakenhi,ISNI,Ringgold,GRID)相对应。如图 2 所示。(2)关联信息(jpcoar:relation)。JPCOAR 元模型强调标识符的正确处理,并且只有真正指向内容本身的标识符(DOI,Handle URL,URI)才被描述为标识符(jpcoar:identifier),相关资源的标识符描述为关联信息(jpcoar:relation)。这两者是明确区分的。明确描述关系显然有助于实现更好的服务。
25、junii2 中描述关联信息的元素是独立的。(relation,isVersionOf,hasVersion,isReplacedBy,replaces,isRequiredBy,requires,isPartOf,hasPart,isReferencedBy,references,isFormatOf,hasFormat)在 JPCOAR 元模型中归为一个元素类型,与属性relationType 相区别,如图 3 所示。3 JPCOAR 元模型的未来发展趋势3.1 JPCOAR 元模型被加速普及2018 年底 NII 对 JPCOAR 元模型进行了最后的修改,目前 IRDB 与 JPCOAR
26、 元模型已经能够兼容。IRDB 从 703 个机构知识库(截至 2019 年 3 月底)收集元数据提供给 CiNii 等外部服务网站9。目前元数据几乎按原样提供给外部服务网站,但在下一代 CiNii 中,日本计划在论文、图书、期刊和博士学位论文基础上整合研究支持信息和研究数据等元数据,使这些元数据能够链接至 IRDB 的元数据。从国际性流通的角度来看,收集和提供高质量的元数据很重要。因此,在升级之后的 IRDB 中,元数据的标准化和权限验证得以实现。收集和提供尽可能准确无误的元数据,将有助于改善日本国内外的学术信息流通环境。此外,截至 2019 年 3 月,日本有 558 家机构知识库使用由
27、JPCOAR 和 NII 共同运营的机构知识库云服务 JAIRO Cloud10。与 JPCOAR 元模型兼容的 JAIRO Cloud 新版也已经在 2019 年开始试运行。这一举措将大大加速 JPCOAR 元模型的普及。3.2 JPCOAR 元模型目标资源进一步拓展在 JPCOAR 元模型的开发中,除了学术期刊文章和学位论文外,还纳入了研究数据和会议资料所必需的元素,以便能够处理多种类型的学术信息。最终目的是组织元数据流通所需信息、促进学术成果的顺利流通。将来,可以用作研究素材的数字化学术信息也将越来越多,如数字化的书籍、文献、博物馆资料等。日本的大学图书馆从很早就开始为有价值的资料制作数
28、字档案,有的大学图书馆还将这些数字档案通过机构知识库进行公开。然而,数字档案一般是与其原件合并为一条独立存在的元数据,且由于它们分散在所藏机构中,不便于整合利用。JPCOAR 今后的重点课题之一便是研讨如何将贵重资料数字档案纳入 JPCOAR 元模型的目标资源。为了实现国际性信息流通,JPCOAR 将 OpenAIRE 作为假想的元数据交换对象进行日本机构知识库元数据整合。因此,数据合作对象极为明确。考虑到近年来各种 Web 服务的广泛应用,JPCOAR 今后将考虑提供其他格式的数据。鉴于对各个机构知识库的影响,JPCOAR 决定目前维持 OAI-PMH 协议,但会密切关注国际动向的变化,并根
29、据国际形势研讨未来的协议。4 对我国机构知识库元数据模型构建及应用启示与日本相比,我国机构知识库元数据标准的规范化程度还不够高,体系有待完善,并且尚无统一的元数据模型。在今后的发展中,我国不仅要加强自身技术建设,更应增加与国外相关机构的合作学习,深层次推进机构知识库元数据模型的构建工作11。(1)在已有元数据标准的基础上,根据需要进行修改,最终形成适合我国机构知识库情况的元数据模型。考虑到元数据模型规范设计和长期维护的复杂性及国际化环境和互操作的需要,我国应充分比较各元数据标准的特点,分析资源管理、共享、应用等各方面的需求,并充分考虑各机构知识库资源的特有属性、功能需求和服务对象范围,从中选出
30、适当的标准,再根据需求进行调整与修改,形成适合我国国情的元数据模型。(2)构建具有实用性、准确性、可扩展性和前瞻性的元数据模型,推进机构知识库建设。一方面,元数据模型的设计应针对于不同类型用户,根据实际应用过程中的需求进行元素扩展;另一方面,元数据模型应容纳较多的元素,具有较强的描述概括能力。由于用戶的具体需求是多样的,动态变化的,资源描述与信息检索的技术的发展是迅速的,因此,一个元素丰富的元数据模型对信息资源的组织管理、内容揭示,数据检索会有较强的应用弹性;反之,一个元素匮乏的元数据模型,在面对技术升级、用户需求细化时,模型的实用性会很大程度上受到限制12。(3)重视国际合作。在提升自身技术
31、能力的基础上,增加与国际相关机构的合作。在构建元数据模型时,应及时与国际相关机构负责人进行情报交换,重视元数据类型的数据兼容性,以促进学术信息的国际流通。5 结语为推进开放科学,JPCOAR 一直强调标识符的重要性。JPCOAR 元模型的基本思想是:未来元数据最重要的是正确提供标识符并使其成为易于处理的数据结构,而不是专注于精细化描述。如果能从外部服务获得明确的信息标识符,日本图书馆员则必须拥有必要的元数据能力,以便专注于机构知识库中的原始信息管理。随着 JPCOAR 元模型的普及,在不久的将来,日本的学术信息有望被用于开展更多种类的服务。参考文献:龚亦农,朱茗.我国机构知识库建设现状调查J.
32、数字图书馆论坛,2018(9):20-28.魏来,宁子晨.基于 RDA 的图书馆书目数据与机构知识库数据关联研究J.图书馆工作与研究,2018(7):43-49.杉田茂樹.国立情報学研究所共同構築事業EB/OL.2019-07-23.https:/www.jstage.jst.go.jp/article/jkg/53/10/53_KJ00000979930/_pdf/-char/ja.内閣府.国際的動向踏関検討会EB/OL.2019-08-13.https:/www8.cao.go.jp/cstp/sonota/openscience/150330_openscience_1.pdf.国立情報
33、学研究所.“OpenAIRE 提供開始”EB/OL.2019-07-23.https:/www.nii.ac.jp/irp/2016/08/openaire.html.機関推進委員会検討.junii2 改訂基本方針EB/OL.2019-04-23.https:/jpcoar.repo.nii.ac.jp/?action=common_download_main&upload_id=179.科塔学术.OpenAIRE(欧洲开放获取基础设施研究项目)EB/OL.2019-08-13.https:/ IR 数数推移”EB/OL.2019-07-23.https:/www.nii.ac.jp/irp/
34、archive/statistic/.学術機関構築連携支援事業.“公開機関数推移”EB/OL.2019-08-20.https:/www.nii.ac.jp/irp/archive/statistic/.崔佳伟,吴思竹,邬金鸣,等.科学数据仓储元数据标准研究与启示J.数字图书馆论坛,2019(6):19-28.艾雪松,石宪,彭超,等.文物信息资源元数据模型构建与应用研究J.情报科学,2019,37(6):69-74.孙海燕 中国海洋大学图书馆馆员。山东青岛,266100。解登峰 中国海洋大学图书馆资源建设部主任、副研究馆员。山东青岛,266100。孟祥莲 中国海洋大学图书馆馆员。山东青岛,266100。(收稿日期:2019-08-20 编校:左静远,谢艳秋)