1、基于网络爬虫的住宅型房地产评估测评系统陈思宏 刘紫仪摘 要 针对传统房地产评估行业存在的问题构建了新的流程优化方案,基于该流程方案设计了利用 python 网络爬虫获取互联网大量住宅型房地产数据的测评系统。同时阐述了该测评系统通过大数据和资产评估市场法得出比准价格,该价格作为依据为评估师的执业结果进行判断评分,有助于降低评估误差,进一步规范评估市场。关键词 python 爬虫;住宅型房地产评估测评系统;评估价值测评中图分类号 F293.33文献标识码 A文章编号 1009-6043(2020)05-0139-03一、引言在传统房产评估过程中,委托方和评估机构可能会存在利益共谋,从而损害第三方利
2、益。单个评估企业对资产评估所得到的结果也难免存在失误。如果评估公司的评估结果与委托方预期差距较大时,委托方会选择重复评估,浪费人力和物力。这些问题都不利于评估行业的健康发展。随着大数据时代的到来,评估行业如何在大数据环境下获得所需要的评估数据变得日益重要。近年来,我国资产评估行业努力推进评估行业大数据建设,很多学者积极探索资产评估信息化。吴颖(2016)认为房地产的三种评估方法由于过分依赖资产评估师的经验,从而对评估结果的公信力存在一定的影响。鉴于此,本文引入第三方监督机构,借助房地产价值评估测评系统,提高评估结果的准确性和评估行业的公信力。胡兰,段禾青(2018)提出了在资产评估行业利用大数
3、据与云计算相结合,用以弥补分析阶段人工信息处理出错的可能,并提出构建评估大数据智能化平台,不足之处在于尚未阐述如何构建评估大数据智能化平台以及如何获得平台的数据。为了弥补这一不足,本文融合政府、房产交易市场、互联网和财务软件四个层面数据来源,经过数据清洗后组成了数据仓库,为构建评估大数据智能化平台提供了思路。董睿琳,董楠(2019)提出了利用网络爬虫技术获取数据资源和利用大数据进行自动估价系统。在此基础上本文提出了利用 python 构建网络爬虫以及如何利用爬虫获取数据、获取互联网上哪部分数据等内容,以实现快速、高效、大面积的爬取数据。本文利用基于 python 的网络爬虫技术将互联网大数据资
4、源与住宅型房地产价值评估测评系统结合,自动进行分析计算,为评估结果提供了一定的参考依据,有助于降低评估误差,进一步规范了评估市场。二、评估流程优化住宅型房地产评估流程优化是指转变传统价值评估观念,引入独立的第三方监督机构,利用大数据技术介入结果检查,同时管理评估行业的信用评级,从信誉方面把控评估公司的评估资质,淘汰掉不符合要求的评估公司,促进市场的良性竞争。监管部门的引入,不仅保证了评估结果的可靠性,还可降低评估风险,减少重复评估对资源的浪费,有利促进评估行业的发展。委托方在市场上发布评估需求,以公开招标的形式吸引合格的评估公司,并依据评估公司信誉评级进行业务委托。监管部门对评估公司评估过程介
5、入监管,首先对资产评估师现场采集的照片及底稿进行审计审核,若审核不符合要求则对评估公司进行评级扣分,若信息无误则将数据录入测评系统中进行下一步的分析。测评系统的分析阶段利用市场法、收益法或成本法对数据进行处理,得出比准价格,并将其与评估公司的结果进行比较,若评估公司的结果与该价格偏离度较低,说明评估公司评估质量良好,委托方可接受该结果无需重复评估。最后监管部门会依据结果的准确性对评估公司信誉进行评分,并更新公司信誉评级。该信誉将会影响委托方对评估公司的选择。三、住宅型房地产评估测评系统设计依据评估房产优化后的流程设计针对监管方的测评系统。该系统特色之处在于数据采集除利用财务报表等结构化数据外,
6、还通过基于 python 的网络爬虫技术采集互联网上庞大的非结构数据信息。系统采集的基础数据是房产评估的整体依据,因此本系统利用互联网大数据资源,全面的获取住宅型房地产行业的数据信息,有助于提高评估公正性和真实性。住宅型房地产价值评估测评系统拥有三个功能模块:数据采集、价值评估以及信誉反馈,下面分别对其进行介绍。(一)基于网络爬虫的数据采集下面将对数据的主要来源进行阐述,并利用 python 语言设计网络爬虫对住宅型房地产的基本信息进行抓取。1.数据采集来源数据的获取主要来自以下几个方面:(1)政府层面信息来源。获取资产评估协会发布的行业指导、评估案例,以及政府部门在相关网站上发布的相关评估标
7、准、细则,如土地级别图、基准地价表等,这是利用基准地价系数修正法得到评估范围的前提。(2)从房地产中介获取数据信息。房地产中介掌握大量的买卖双方的交易信息,因此能够很好地反映市场需求和房地产价格,为测评系统的价值评估范围提供较大的参考依据。(3)财务报表数据。在使用收益法对房地产进行评估时,需要利用财务报表的相关信息。使用企业普及度较高的财务软件,可实现对财务报表数据的收集。(4)运用爬虫获取网页数据。互联网是一个巨大的信息库,它提供了实时、快捷的海量信息。基于 python 技术的网络爬虫能够稳定高效的从大型网站中进行大规模的数据爬取,为得出评估价值区间提供保障。通过上述四种主要渠道获取并存
8、储数据,利用数据仓库加工这些异构的数据源,消除掉数据源中的不一致,最终得到一个数据源的有效集成,从而构建一个包含完整数据信息的评估大数据智能化平台。网页下存在的大量非结构数据信息虽然价值高,但因数量庞大、结构复杂而采集较为困难,因此下面主要介绍利用网络爬虫技术获取互联网下房产市场上大量数据的过程。2.网络爬虫爬取互联网数据资源本系统设计数据采集模块,通过 python 的語言编写网络爬虫,抓取的内容包括:(1)互联网上的住宅房地产信息。具体包括某一地区房产位置、交易价格、建筑面积、房屋户型、装修情况、产权年限、所在楼层、户型结构、建筑类型、建筑结构、配套电梯等。(2)政府部门在相关网站上发布的
9、相关评估标准、细则。由于互联网上的房产数据内容庞大,并且信息往往不集中,数据的获取存在一定的难度,因此下面主要阐述从互联网上获取的房地产基本信息。首先系统根据一定的网页分析算法过滤掉与住宅型房地产主题无关的链接,保留有用的链接,然后对这些连接下的网页进行下载并对网页结构进行分析,最后利用一定的算法获取网页下的房产基本信息并完成数据存储。以链家房地产网站为例,在该网站搜索某市住房信息,可得到该市不同地区住房情况,点击具体某一房源,在二级网站中查阅到该房源详细的信息,因此需要获取的房产详细信息存储在二级界面中。对房地产网站进行元素审查发现,首先需要对主页面进行爬虫设计,对该主网站树形结构下载后进行
10、 DOM 树遍历,并利用正则表达式提取其中包含的二级网站 url。对于抓取到的第二层网站链接,继续对其网页结构进行分析,确认好需要的数据所存在的位置后,对该网页下的房产基本信息解析和数据的提取,最后将抓取到的信息经过数据清洗,删除掉一些空行、错误的数据后保存在数据库中,以保证数据的有效性和可用性。二级链接中的数据可以让采集到的数据更加充实完善,从而提高资产评估的准确性。(二)基于市场法的价值评估由于大数据资产的交易市场越来越活跃,市场法评估大数据资产价值具有明显优势,因此下面主要介绍利用市场法得出住宅型房地产的比准价格。在基于网络爬虫的数据采集模块中,网络爬虫已将从互联网上爬取到的大数据信息存
11、入数据库,方便后续数据的查询与调用。对评估人员现场勘察记录底稿进行审计后,将住房基础数据录入测评系统中。录入的基础数据是测评系统分析匹配相似房地产的基础。测评系统通过对录入的数据进行模糊查询,从数据库中调用出全部与目标房产具有相似度的楼房参照物,利用计算机内部算法对参照物属性进行区域修正和个别因素修正等计算后,根据参照物的相应权重,采用加权平均法计算得出评估对象的比准价格。该测评系统在分析阶段还可以与评估专家模块相结合,利用其包含的专业知识解决在分析房地产价值的过程中存在的特殊、专业性的问题,有利于提高评估的规范性和工作效率,降低业务成本。大数据数据库的优势在于可以将全部既有较高相似度的房产数
12、据匹配出来进行计算,弥补了因人工精力有限,难以对全部具有相似属性的房产进行因素修正的缺陷。最后对结果求取加权平均值计算得出的结果区间。与人工相比利用大数据信息化所得到的结果正确率与准确性更高。另外,由于大数据常与可视化工具组合完成对相关数据的分析,因此还可利用本系统中存在的房地产大数据进行可视化分析,通过对可视化的分析结果进行观察,可以发现评估行业中普遍存在的问题,对政府的决策、评估政策的制定等都具有一定的帮助作用。(三)信誉反馈评估测评系统的信誉反馈机制是指利用系统价值评估阶段计算得到的比准价格与评估公司报告中的评估结果进行比较,根据偏离度对评估公司进行打分。若評估结果符合比准价格或与比准价
13、格偏离度较小,则说明评估公司的评估结果与该系统差异度较小,准确度较高,该公司展开评估工作较为有效,委托方可放心使用该评估结果无需重复评估。若评估结果与该比准价格偏离度较大,说明该公司的评估结果可信度较低,则监管部门应该对该公司的信用评级进行扣分。由于委托方对评估公司的委托主要依据该公司评估的信用评级,当公司的信用评级降低到一定程度后,该公司将会失去大部分的评估市场,只能通过降低服务价格或提高评估质量来转型,否则将会被市场淘汰。这一定程度上帮助市场筛选掉不符合要求的公司,从而促进评估产业的可持续发展。综上,针对监管部门的住宅型房地产价值评估测评系统的设计,利用互联网与大数据技术相结合,通过网络爬
14、虫获得的数据为后续分析打下了基础,使得价值评估阶段拥有价值较高的参考依据。计算机相较人工能够处理更多的数据信息,得出的评估价格更精确,从而为评估公司的结果提供了参考依据。参考文献1刘琦,童洋,魏永长,等.市场法评估大数据资产的应用J.中国资产评估,2016(11):33-37.2陈伟,孙梦蝶.基于网络爬虫技术的大数据审计方法研究J.中国注册会计师,2018(14):76-79.3周云.一种基于大数据的品牌资产评估方法及系统P.权力要求书,2016.4胡兰,段禾青.大数据时代资产评估行业现状及发展分析J.绿色科技,2018(23):41-42.5董睿琳,董楠.基于房地产大数据的自动股价系统研究J.智能计算机与应用,2019,9(3):276-280.6姜楠,王景升.资产评估M.大连:东北财经大学出版社,2018:94-112.责任编辑:王凤娟