给文学作品做“亲子鉴定”.pdf_免费在线备课命题出卷组卷网

资源描述

1、给文学作品做“亲子鉴定”朱会鑫我们知道 DNA（脱氧核糖核酸）技术可以对人进行亲子鉴定，可你知道吗，随着科技的不断进步，AI（人工智能）已经可以给文学作品做“亲子鉴定”，进而判定其作者是谁。那么，AI 是如何判定文学作品的作者的呢？利用 AI 判定文学作品的作者是否准确呢？下面，我们就以利用 AI 判定英国著名戏剧亨利八世的作者是谁为例。与红楼梦究竟是谁写的一样，亨利八世也存在同样的问题。可以说，在长达一个世纪的时间里，关于亨利八世的作者是谁的争论一直没有停息，直到最近的一项研究才使这个问题的答案变得明朗起来。捷克科学院的研究员普列查奇，最近使用机器学习技术来识别亨利八世的作者，并取得了具有说

2、服力的结果。那么，他究竟是如何利用 AI 判定亨利八世的作者的呢？简单地说，就是从词汇和节奏入手，辨别文本的来源。在了解作者的风格和常用的字词与句式后，再去辨别目标作品中的文本习惯样式，以判定它们是否出自同一个作者之手。即通过算法模型对文本常用词、常用语句和节奏模式进行分析，使算法学会辨别相关作者的写作特征。具体来说，就是先将剧本亨利八世细化成多个小场景，再使用支持向量机对亨利八世的各个场景进行归因分类和分析。其中，以 500 种最常见的节奏类型的频率和500 个最常见单词的频率作为分类器的功能集。鉴于作者在不同时期可能出现的风格差异，普列查奇采用了同时期其他戏剧的场景（如暴风雨科里奥兰纳斯）

3、作为训练样本，对于可能的作者也同样收集了训练样本。最终，普列查奇收集了 53 个莎士比亚训练样本、90 个弗莱彻训练样本和 46 个马辛格训练样本。为了测试模型的准确性，他还通过交叉验证的方式进行了检验。完成训练学习后，在亨利八世的文本上运行该模型，最后结合词汇和多功能化的综合分析，确定哪些作者参与了剧本的写作，以及他们的具体贡献。结果证明，这是区分莎士比亚、弗莱彻和马辛格风格非常可靠的依据。尤其是使用常用词和常用节奏的组合模型，在 3 位作者的风格鉴定上，准确率高达 96%。当模型应用于亨利八世的分析时，结果清楚地表明，莎士比亚和弗莱彻都参与其中，另一位传闻中的剧作家马辛格在算法的层面上和剧

4、本无关。为了更可靠地了解具体作者承担的份额，以超越特定场景的简单归因，普列查奇采用滚动归因分析方法，确定了具体文本片段属于某位作者的概率。滚动归因是一项针对涉及混合作者身份的案例技术。在滚动归因中，不对整个文本或其逻辑部分（章节、场景等）进行分类，而是对其固定长度的重叠部分进行分类。该方法使用移动窗口的概念，同时与标准的监督分类技术相结合，旨在评估离散文本样本之间的样式差异，以测试其文本样式的一致性。结果表明，结合了词汇特征的滚动归因方法是非常可靠的：在区分莎士比亚和弗萊彻时，滚动归因的准确率高达 99.77%。对文学研究者和爱好者来说，利用 AI 对文学作品进行“亲子鉴定”，以破解名著的作者之谜，是一件很有价值的事情，同时也提供了一个数据维度的视角，以解决此类问题。（成瑜摘自知识窗2020 年第 2 期，邱炯图）

展开阅读全文