1、基于文本挖掘的在线众筹项目推荐方法研究薛井红摘 要随着在线众筹的快速发展,用户从海量的众筹项目中搜寻感兴趣的项目信息越发困难。本文提出了基于文本挖掘的在线众筹项目推荐方法:首先,利用 LDA 主题模型挖掘众筹项目的隐主题;其次,基于隐主题构建众筹项目间的关联网络;最后,对相关众筹项目进行推荐。基于京东众筹数据的实验表明,基于文本挖掘的在线众筹项目推荐方法能够对众筹项目进行有效推荐。关键词在线众筹;文本挖掘;项目推荐;关联网络doi:10.3969/j.issn.1673-0194.2020.10.069中图分类号F724.6;F832.4 文献标识码A 文章编号1673-0194(2020)1
2、0-0-020引 言在线众筹平台的快速发展虽然为企业筹措资金、推广产品提供了有效渠道,但是,随着平台上众筹项目越来越多,消费者从海量的众筹项目中搜寻感兴趣的项目信息越发困难。因此,如何帮助用户从众多的众筹项目中找到感兴趣的项目、如何帮助众筹项目准确定位目标用户是项目众筹成功的关键,也是众筹平台关心的重要问题。研究者对在线众筹中的用户行为机制、众筹项目成功率预测方法和个性化推荐等问题进行了广泛研究,但是众筹项目的文本描述等信息在现有研究中应用不足。对众筹项目的描述文本进行深入分析,构建众筹项目的个性化推荐方法,可以有效利用项目之间的内在关联,提高众筹项目的推荐精度。本文从京东众筹平台下载了 7
3、334 个众筹项目的描述文本,在此基础上进行实验验证。本文实验表明,所提方法可以对项目的关联关系进行有效分析,有效提高众筹项目的推荐准确性。1众筹项目推荐模型构建1.1基于 LDA 的众筹项目隐主题建模假设是众筹项目描述的语料集合,是项目 m 对应的描述词集合,其中 M 是众筹项目的数量。设 V 是预先给定的隐主题数量,V 是语料中不重复的词的数量,Nm 是项目 m 的描述中词的数量。用 Wm,n 来标记项目 m 的描述中的第 n 个词,用 Zm,n 标记该词所属的主题。为了估计文档-主题分布和主题-词分布,需要计算联合分布。其中,语料中每个词的生成概率和可以分别计算如下。其中,(x)是伽马函
4、数。因此,我们可以得到联合分布的计算公式如下。基于联合分布和 Dirichlet-Multinomial 共轭分布,我们可以得到和的计算公式如下。其中,表示项目 m 的描述文档中所有词的主题分布。基于 Dirichlet 期望计算方法,可以得到众筹项目描述的主题-词分布和文档-主题分布如下。基于k,v,可以得到所有众筹项目描述的主题分布,对深入了解众筹项目的内容和类型起到决策支持作用。m,k 有助于分析每个众筹项目所属的众筹主题,对分析项目之间的关联关系、准确推荐众筹项目具有决策支持作用。1.2基于隐主题分布的众筹项目关联分析与推荐假设众筹项目的关系网络用 G=(D,E,W)表示,其中 D 表
5、示众筹项目,E 表示边的集合,即项目之间的关联关系集合,W 表示項目两两之间的关联程度。为了构造项目关系网络 G,本文假设两个众筹项目 i 和 j 属于同一主题,则他们之间存在一条连边,同时属于的主题数越多,连边的权重 Wij 则越大,即 Wij 等于项目 i 和 j 同时属于的主题数量。由于主题模型中每个项目几乎在所有主题上都有概率分布,而大量主题上的概率值极小。因此,针对每个项目,本文只取概率值最大的 5 个主题,并以此为基础构建众筹项目的关系网络 G。基于众筹项目的关系网络 G,本文构建的众筹项目推荐策略如下。针对新用户,本文利用结点介数(node betweenness)对众筹项目在关
6、联网络中的重要性和流行性进行排序,推荐项目集合中最重要和最流行的项目。项目 i 的介数定义为:。其中,njk 表示从项目 j 到项目 k 的最短路径数,而 nijk 表示 njk 条最短路径中经过项目 i 的路径数。如果用户搜索或点击了某一众筹项目 i,本文推荐与该项目相连的 T 个项目。即从与项目i 相连的所有项目 j 中,找出 Wij 最大的前 T 个项目,推荐给该用户。当与项目 i 直接相连的项目数量少于 T 时,本文采取 k 核方法对相关项目进行选择。2实验验证2.1众筹项目主题发现在本文实验中,文档主题数量设置为 50,利用基于 LDA 的众筹主题建模,可以得到众筹项目的隐含特征。例
7、如,众筹项目与眼睛保护相关,特征词包括“眼镜”“眼睛”“蓝光”“时尚”等;与室内空气健康有关,特征词包括“空气”“净化”“加湿”“霾”等;与智能硬件相关,特征词包括“产品”“智能”“科技”“市场”等。2.2众筹项目关联分析表 1 给出了“你家里能有晴空万里么”和“穿在身上的低音炮 SubPac”两个目标众筹项目的关联项目。可以看出,“你家里能有晴空万里么”产品的关联项目均与空气净化、室内健康等主题相关联;“穿在身上的低音炮 SubPac”产品的关联项目均与智能家居、新奇设计等主题相关。表 1 表明,所提方法可以对项目的关联关系进行有效度量。2.3推荐精度对比试验本文邀请 50 名志愿者参与推荐
8、精度对比试验。从所获取的京东众筹项目中随机选择特定项目作为目标项目,利用不同方法产生推荐列表,将推荐列表提交给志愿者,让志愿者判断每个推荐项目与目标项目是否相关。将相关项目的数量与推荐产品数量的比值作为推荐准确度。本文选取的对比推荐方法为基于类目的推荐方法。从表 2 中可以看出,与基于类目的推荐策略相比,本文方法可以得到准确的众筹项目推荐结果。基于类目的推荐方法虽然可以从同一类目中选择产品推荐给用户,由于同一类目中的产品数量众多,推荐难以得到准确效果。本文所提方法可以充分利用众筹项目的隐主题信息和关联关系,取得更高的推荐精度。3结 语本文利用众筹项目的描述文本挖掘项目特征的隐主题,基于隐主题分布构建众筹项目之间的关联网络,并提出了个性化项目推荐方法。基于京东众筹项目数据的实验表明,所提方法可以对众筹项目主题和关联关系进行有效分析,得到准确的个性化推荐结果。在后续研究中,本文将在 LDA 主题模型的基础上,研究基于众筹主题和项目标签的二部图模型,进而构建更加有效的众筹项目推荐方法。主要参考文献1毕功兵,杨云绅,梁樑.策略延迟下众筹项目的定价和激励决策J.中国管理科学,2019(11):1-10.2李清香,王念新,吕爽,等.发起人与出资者的在线交互对众筹项目成功的影响J.管理工程学报,2020(2):1-9.