1、大数据背景下全球人工智能研究的回顾与可视化分析赖红波 赵逸维摘 要:以 Web of Science 数据库中大數据背景下的人工智能相关文献作为数据样本,借助 CiteSpace 软件,对这一领域的研究分布、研究热点、前沿研究等进行分析。研究发现,美国在该领域具有绝对的领导力,中国缺少具有关键性的文献,并且形成了分别以中美为核心的两个合作子网络;该领域还没有出现具有关键性意义的研究;深度学习是这一领域的研究前沿。目前这一领域还只是大数据和人工智能两门学科的交叉,还没有出现能够使其成为新的边缘学科的趋势。分析结果有助于了解该领域的发展和现状,为后续的深入研究提供参考。关键词:大数据;人工智能;共
2、被引网络中图分类号:TP18文献标志码:A文章编号:1673-291X(2020)15-0135-05引言人工智能和大数据是目前业界和学界都最十分热门的研究领域。韦氏词典将人工智能定义为:“机器模仿有智慧的人类行为的能力。”麦肯锡对大数据的定义是,一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合1;而我们平常更多的指的是对大数据进行的处理和分析2。大数据在很大程度上对众多领域造成了巨大影响,包括传统的企业3,如制造业4等,也包括新兴的如人工智能5。大数据是人工智能的三大基础之一,其作为训练人工智能的“原材料”,能在很大程度上影响人工智能的学习效率和效果;反
3、过来,人工智能的发展能大大地提高对数据的分析和处理能力。因此,两者之间有十分密切的联系,是互相交融、相辅相成的关系。然而,对于大数据背景下的人工智能这一交叉领域的研究还很少,起步时间也较晚,从 2012 年后才开始逐渐形成规模。在各自的学科领域内,大数据和人工智能都已经有了较多的综述研究以及知识图谱研究来概括描述学科研究的面貌;而两学科的交叉领域还几乎没有文献来描述。尽管发展晚、文献数量少,但这两个热点学科的交叉领域仍具有进一步深入研究的价值。因此,本文将对大数据背景下人工智能研究的相关文献进行科学计量与可视化研究,借助科学知识图谱工具 CiteSpace,通过“合作网络”“关键词共现网络”“
4、文献共被引聚类”等功能,梳理该领域中的分布情况,分析该领域的研究热点和前沿研究,以期从学术研究的角度提供更具价值参考信息,助力大数据背景下的人工智能更深层次的建设发展。一、数据与方法科学知识图谱是一种描绘科学知识发展进程与结构关系的图形,研究的对象是科学知识,在其背后则是复杂的数学模型6。在目前众多知识图谱工具中,陈超美教授开发的CiteSpace 知识可视化软件由于其鲜明的特征和优秀的表现而得到了广泛应用,成为目前最为流行的知识图谱绘制工具之一7。因此本文以 CiteSpace.5.4.R4 作为研究工具。考虑到 CiteSpace 并不支持对 CNKI 数据库导出的文献数据做共被引分析8,
5、CSSCI 则只包含了社会科学学科的文献,因此我们使用 Web of Science 数据库。搜索主题为“bigdata”以及(逻辑为 AND)“artificial intelligence”的文献,时间为数据库内所有年份(19862019 年),并将文献类型限定为会议论文、论文和综述;然后在结果列表界面点击“创建引文报告”,进行检索结果的扩展,得到这些论文的施引文献,得到两次检索除去自引的共计 4 520 篇文献。检索时间为 2019 年 10 月 1 日。这种宽松的检索取向有助于更加全面地研究诸如两学科交叉领域这样的文献数据较少的研究对象9。按照以上检索策略,去除掉数据字段缺失的文献,共
6、下载得文献记录 2 700 条,时间跨度为 19992019 年。将得到的 2 700 条文献记录导入 CiteSpace 中功能去重,最终得到 2 664 条文献记录,将其作为本次研究分析的数据样本。二、研究结果与分析(一)研究的分布利用 CiteSpace 的合作网络分析模块,对样本文献数据在国家和机构间的分布做出可视化分析。在 Node Types 中分别选择 Country 和 Institution,并将时间段按年分段,每一年提取排名前 50 位的数据来生成最终的网络。国家分布的结果(如表 1 所示),选取了两个指标下排名靠前的国家。其中中介中心性用来发现和衡量这一节点的重要性;具有
7、高中心性的节点(一般大于 0.1)通常是连接的关键枢纽10。从频次来看,中美两国的文献发表数量遥遥领先,体现了这两个国家对这一交叉细分领域的关注度和领导力。前十中也基本都是发达国家,但除中国外的另一发展中国家印度也值得关注。印度具有较强的 IT 实力,因此在大数据和人工智能的交叉领域也会有不错的发展。从中心性来看,与频次排名国家相比有较大的变化。美国的中心性高达 0.27,约为第二名的近两倍,说明了其发文多为关键的枢纽,具有突破性,是这一领域的领跑者,而中国虽然频次高但中心性较低,只有 0.1,重大突破的文献相比较少。沙特阿拉伯和奥地利的文献虽然数量不多,但也具有较高中心性,是这一领域不能忽略
8、的重要国家。机构的合作(网络如图 1 所示),节点大小代表发表文献的数量,具有高中心性的节点被紫色的圆圈出,连线代表合作关系。可以很明显地看到网络中的节点形成了分别以中国机构和美国机构为主两个合作子网络。中国这边以中国科学院为核心,有几个较为重要的高校如北大清华武大等,文章数量明显更多。美国一方的分布较为平均但连线十分密集,表明了其间更为密切的合作关系。重要的院校有哥伦比亚大学、威斯康辛大学以及加拿大的麦吉尔大学、滑铁卢大学等。在两个子网络之间还有几所重要的大学,其与两边都有较多的合作,比如美国麻省理工、哈佛医学院,英国牛津大学等伦敦大学学院等。两个主要的合作子网络各有特点:中国一边以几所机构
9、为核心带动其他的科研机构发展;欧美一方则是众多的机构共同发展,较为平均但数量众多。这些特点是由机构所在国家和地区的科研情况和科研政策决定的,两种模式下都有着很好的发展。但无论是何种方式,都表明了合作是推动科研进步发展的最重要因素之一;或许在将来,这两种模式之间可以互相有借鉴和学习。(二)研究热点和前沿文献关键词是一篇文章中高度凝练及集中概括的表现,通常出现频次较高的关键词被认为是一定时期的研究热点11。因此,本文使用文献关键词做主题词共现分析,这其中包括作者自己列出的关键词以及 WoS 数据库提取的扩展关键词;Node Type 选择 Keyword,整理后的部分结果(如表 2 所示)。大数据
10、和人工智能理所当然地位于频次的前两位,因为本文的研究对象即为这两个学科的交叉领域。其他排名靠前的关键词也来自于人工智能以及计算机数据等方面的学科,如系统、神经网络等等。发表的平均年份都在 2014 年左右,但其中早到了 2007 年如人工智能。从中心性来看,关键词的中心性普遍偏低,大于等于 0.1 的只有 5 个,表明这一领域具有高度突破创新的关键枢纽性的热点方向还未出现。其中,预测的中心性最高,并且平均发表时间也大大早于其他关键词,是这一领域较早成为较为关键枢纽的一个热点研究。另外,较为热点的研究关键词还有系统、大数据、人工智能和设计等。这些大多来自与大数据和人工智能两门学科中的重要研究方向
11、。大数据涉及各种大量的工作,包括数据的采集、存储、传输、分析、展示等等,这就使得大数据的系统12和设计成为十分重要的研究;人工智能方面,神经网络是目前其最热门的研究。而预测则代表了人们一直以来期望通过大量的历史数据来预测未来事件发生的愿望;在人工智能技术对大数据各个部分优化升级的同时,利用大数据训练出更优秀的人工智能有望在分析这一部分做出更大突破,从而实现“预测”。在 CiteSpace 中,研究前沿指正在兴起的理论研究和新主题的涌现,其是由引用共被引文献的施引文献集合组成的;共被引网络中的聚类的命名是通过施引文献中提取的术语确定的,这个命名就可以认为是研究前沿的领域。我们借助样本文献的共被引
12、网络来进一步地分析大数据背景下的人工智能研究前沿以及其演进趋势。节点类型选择 Reference,样式设置为年轮,其大小反映文献的被引次数,年轮圈代表文献的在不同年份的被引。排除掉较小聚类后得出的主要聚类(如图 2 所示),以关键词作为各聚类的标签。所得到的聚类的模块化指标达到了 0.9,表示共被引网络得到的聚类很好,结构十分显著;平均轮廓值高于 0.5,可以认为聚类结果是合理的。深度学习作为目前人工智能发展高潮的代表13,在大数据背景下仍然是最为前沿的研究;在经历了几十年的研究和实践后,研究人员发现深度学习可以挖掘大数据的潜在价值14;一种在大数据和人工智能中都经常使用的核最小均方算法也是研
13、究的前沿之一。在大数据与人工智能交叉的研究中,研究前沿更多地分布在了应用领域:用于语言词汇理解的15,用于宇宙数据研究如发现脉冲星的16,以及传感网络和智能电网,这可以认为这两者代表了物联网这一广泛运用到大数据和人工智能研究的应用领域。另外,整理出具有较高中心性的重要文献(如表 3 所示)。该领域内高中心性的关键文献还是较少,缺少具有枢纽性的研究发现。综述类文章一般会被较多地引用在与该学科有关的很多研究领域中,因此排名最前的两篇均为综述:一篇大篇幅地介绍了大数据的数据挖掘相关工作17,另一篇则提供了更为全面的关于大数据领域的概述和全景18。此外,还有台湾大学林智仁19就其开发的 LIBSVM
14、工具包的文档,该工具包是一个实现 SVM的库,而 SVM 算法在大数据和人工智能中都有重要作用。智能电网则是对大数据和人工智能来说都十分重要的应用领域,由大数据支撑的智能电网,是能源与电力行业的发展趋势,借助大数据和人工智能的技术推动智能电网发展具有重要意义。结语本文以大数据背景下人工智能研究的文献为样本数据,借助 CiteSpace 工具,对其研究的现状和发展热点、前沿进行了分析。研究发现:首先,从文献的国家分布来看,美国在这一领域具有绝对的领导力,中国虽然居于次席但差距很大。机构的分布出现了分别以中国和欧美为核心的两种分布特点的合作子网络,其中中国的网络以中科院和清北和核心,这几个机构具有
15、较高的中心性;欧美的网络没有大的节点,但数量众多且较为平均,各机构之间的合作十分密切。其次,大数据背景下的人工智能研究缺乏一个关键性的,具有突破意义的研究热点以及前沿。目前其多来自于两学科本身的热点研究,包括算法、神经网络、模型、设计等等。深度学习不仅是目前人工智能学科的代表,在大数据背景下也是最为前沿的方向,其他的前沿主要有大数据和人工智能交叉领域下的应用,诸如语义语法、宇宙相关研究、物联网等等。在大数据背景下,人工智能研究目前还是主要依附于这两个学科本身,这一领域还没有形成自己的规模和体系,仍停留在两学科交叉的阶段,而我们更希望看到能在这一领域产生具有自身特性的关键性、创新性的发展,甚至是
16、演变为一门边缘学科。如果能在这一交叉领域中取得发展和突破,无论是对于人工智能还是大数据本身的研究都会有很大的促进作用,并能够进一步地助力科技、社会的发展。本文选取样本文献的檢索策略可能无法准确地包含研究目标领域的所有文献,这可能也是众多使用该研究方法的文献所遇到的共同问题,期待在今后能有更为科学的对策。参考文献:1彭宇,庞景月,刘大同,彭喜元.大数据:内涵、技术体系与展望J.电子测量与仪器学报,2015,(4):469-482.2Mayer-Sch?觟 nberger V,Cukier K.Big data:A revolution that willtransform how we live
17、,work,and thinkM.Houghton Mifflin Harcourt,2013.3余义勇,段云龙.大数据时代下企业管理模式创新研究J.技术与创新管理,2016,(3):302-307.4钱玥妤,陈进.制造业企业与互联网融合创新发展研究以博世和谷歌公司为例J.技术与创新管理,2018,(4):438-444.5程显毅,胡海涛,曲平,程实.大数据时代的人工智能范式J.江苏大学学报:自然科学版,2017,(4):455-460.6陈悦,刘则渊,陈劲,侯剑华.科学知识图谱的发展历程J.科学学研究,2008,(3):449-460.7陈悦,陈超美,刘则渊,胡志刚,王贤文.CiteSpac
18、e 知识图谱的方法论功能J.科学学研究,2015,(2):242-253.8芮幼琴,康萍.国内科研经费管理研究知识图谱分析J.技术与创新管理,2014,(5):433-437.9Chen C,Hu Z,Liu S,et al.Emerging trends in regenerativemedicine:a scientometric analysis in CiteSpaceJ.Expert opinion onbiological therapy,2012,(5):593-608.10李杰,陈超美.citespace 科技文本挖掘及可視化M.北京:首都经济贸易大学出版社,2016.11屈家
19、安,刘菲.国际创新创业研究热点与趋势可视化分析基于 20072016年四大国际顶尖创新创业期刊的 CiteSpace 图谱量化研究J.科技进步与对策,2018,(12):154-160.12邵慧丽,张帆,郝哲,梁玉琪,侯菲菲.基于知识图谱国际视野下大数据研究可视化分析J.图书馆杂志,2016,(5):13-19.13万赟.从图灵测试到深度学习:人工智能 60 年J.科技导报,2016,(7):26-33.14马世龙,乌尼日其其格,李小平.大数据与深度学习综述J.智能系统学报,2016,(6):728-742.15Poria S.,Cambria E.,Gelbukh A.,et al.Sent
20、iment data flowanalysis by means of dynamic linguistic patternsJ.IEEE ComputationalIntelligence Magazine,2015,(4):26-36.16Zhu W.W.,Berndsen A.,Madsen E.C.,et al.Searching for pulsarsusing image pattern recognitionJ.The Astrophysical Journal,2014,(2):117.17Wu X.,Zhu X.,Wu G.Q.,et al.Data mining with
21、big dataJ.IEEEtransactions on knowledge and data engineering,2013,(1):97-107.18Chen M.,Mao S.,Liu Y.Big data:A surveyJ.Mobile networks andapplications,2014,(2):171-209.19Chang C.C.,Lin C.J.LIBSVM:A library for support vectormachinesJ.ACM transactions on intelligent systems and technology(TIST),2011,
22、(3):27.Retrospect and Visual Analysis of Global Artificial Intelligence Researchunder the Background of Big DataLAI Hong-bo,ZHAO Yi-wei(School of Management,University of Shanghai for Science andTechnology,Shanghai 200093,China)Abstract:Taking the literature in the Web of Science database related to
23、artificial intelligence in the context of big data as the data sample,andusing the CiteSpace software to analyzes the literatures researchdistribution,research hotspots,and frontier research.The study found thatthe United States has absolute leadership in this field,China lacks criticalliterature,an
24、d has formed two cooperative sub-networks whose centers areChinese and American.There have not yet produced any critical researches.Deeplearning is the research frontier in this field.At present,this field is onlyan intersection of big data and artificial intelligence.There is no trend tomake it a new edge discipline.The results of the analysis will help tounderstand the development and status quo of the field and provide referencefor further in-depth research.Key words:big data;artificial intelligence;co-citation analysis