1、基于聚类算法的地下钱庄监测分析研究陈好孟摘要:地下钱庄的“对敲”模式掩盖了境内人民币交易与境外外币交割行为之间的内在联系,给发现和打击地下钱庄违法行为带来了很大困难。本文以大数据聚类技术为工具,以地下钱庄内外轧差涉及的资金跨境支付为立足点,提出了“地下钱庄跨境支付交易社区理论”,按照“动机行为特征分析框架”对地下钱庄的交易行为特征进行分析,明确“对碰循环式线索筛查框架”在监测分析和打击地下钱庄中发挥的重要作用。关键词:地下钱庄;聚类算法;交易社区理论中图分类号:F830文献标识码:A 文章编号:1674-2265(2020)06-0009-08DOI:10.19647/ki.37-1462/f
2、.2020.06.002随着我国对外开放力度的不断加大和国际贸易的迅速发展,以地下钱庄为代表的非法跨境收支活动也在不断加剧。通过虚构交易背景,利用跨境收支渠道在境内外转移资金,地下钱庄已经成为骗出口退税、骗招商补贴、跨境洗钱等违法犯罪活动的重要支付渠道,成为影响我国国家经济社会安全的重要因素。为此,自 2015 年起,最高法、最高检、中国人民银行、公安部、国家外汇管理局在全国持续开展打击利用离岸公司和地下钱庄转移赃款专项行动。随着打击力度加大,地下钱庄的交易变得更加隐蔽复杂,已经从传统交易模式向使用跨境资金单体循环的“对敲”交易模式转变,资金在境内和境外独立循环,境内只有人民币的收付和交割,而
3、无外币的交易,境内外各自形成独立的资金清算循环体系,仅在定期内外轧差结算时涉及资金跨境交易。地下钱庄的“对敲”模式导致监管部门难以在海量数据中发现境内人民币交易与境外外币交割行为之间的内在联系,给监管部门发现和打击地下钱庄违法行为带来了很大困难。本文以大数据聚类技术为工具,以地下钱庄内外轧差涉及的资金跨境支付为立足点,提出了“地下钱庄跨境支付交易社区理论”,按照“动机行为特征分析框架”对地下钱庄的交易行为特征进行分析,明确“对碰循环式线索筛查框架”在监测分析和打击地下钱庄中发挥的重要作用。一、相关研究从现有文献看,对地下钱庄的研究多以理论研究和案例分析为主,研究内容集中在地下钱庄分类、交易模式
4、、发展趋势、查处方法以及地下钱庄对国家经济金融安全的影响等,研究的着重点是地下钱庄的打击及查处。从事地下钱庄研究的人员工作领域分布鲜明又偶有交叉的特点,主要分布在公安、司法、人民银行及国家外汇管理部门。公安部门的研究人员对地下钱庄的研究集中在已破获的地下钱庄典型作案方式、作案工具及案件特点等案例分析方面1。司法部门的研究重点在于地下钱庄查处的定性及处罚依据2,3。人民银行有关人员的研究主要是从反洗钱视角,研究利用地下钱庄进行洗钱的方式、特点及打击查处办法 4。在这些部门中,国家外汇管理部门关于地下钱庄的研究论文篇数较多,涵盖了地下钱庄经营发展趋势、交易方式及特征、交易对手打击惩处方式及监管建议
5、5。已有文献对地下钱庄的研究虽有部分内容涉及跨境支付,但仅从理论上研究了地下钱庄跨境支付的动机及方式,没有对异常跨境支付与地下钱庄识别进行数理论证,没有系统分析地下钱庄跨境支付的行为特征,如何利用大数据技术监测分析地下钱庄交易线索在学术研究领域尚属空白。二、理论假设和监测分析模型设定地下钱庄非法买卖外汇活动在我国经济金融体系中由来已久,其产生主要是与不发达经济体之间跨境支付的不便以及境外赌博、非法跨境转移资产、洗钱、走私、骗政府奖励、骗出口退税等违法犯罪活动的需求有关。随着我国外向型经济的蓬勃发展,骗政府奖励、骗出口退税成为推动地下钱庄非法买卖外汇活动不断加剧的重要因素。以我国出口市场占比较大
6、的非针织类服装(HS 编码 62 开头)为例,比较我国海关出口数据和国际组织(UN、WTO)公布的对方国家进口数据,可以发现我国存在相当规模的虚假出口。据此,可以进一步推断出地下钱庄以跨境收汇的方式广泛参与了骗招商奖励和骗出口退税的事实。目前在国家外汇管理局系统,打击地下钱庄的难点主要包括:一是大部分分局被动接收公安机关移交处罚交易对手,打击主动性和威慑性亟待提高;二是主动发现线索仅集中于深圳、广州等沿海经济发达、跨境资金收支量大的地区且以流出渠道为主,其他分局难以从流出渠道发现线索。为了解决上述问题,通过对地下钱庄行为特征的分析,确定了从流入渠道发现地下钱庄非法买卖外汇线索的新思路,提出了地
7、下钱庄跨境支付交易社区理论,探索利用分布统计模型检验特征等有效性工具,解决地下钱庄监测分析的实施路径问题,并结合正在侦办的某地下钱庄案进行分析和验证,证明方法的科学有效性。(一)地下钱庄动机行为特征分析根据对我国近年来破获的一系列大型地下钱庄案件的跟踪、比较研究以及长期以来对异常跨境收支活動的甄别分析,发现地下钱庄非法买卖外汇活动并非简单的“两头轧差”,其背后存在着深刻复杂的动机和运作模式。地下钱庄非法买卖外汇活动具有如下特点:一是地下钱庄是骗退税非法产业链的重要组成部分;二是地下钱庄长期处于“境外缺头寸”状态;三是跨境支付是地下钱庄的“刚性需求”。根据上述推断(见图 2),在地下钱庄的非法跨
8、境支付活动中,存在骗退税、骗招商补贴、做假账、走私或进口低报的境内违法公司(a);地下钱庄控制的境内付款公司(b);地下钱庄控制的境外收款公司(c);地下钱庄或境内违法公司控制的境外付款公司(d);境内非法投资者或洗钱者(e);我国出口商、境外务工人员(f)等 6 类交易主体。1.境内违法公司(a)骗出口退税、骗招商奖励的动机,导致以下行为特征:(1)成立境内空壳公司。相关关系特征:法人代表与联系人相同或均为空;同一交易社区的公司之间注册资本、经营期限、经营范围完全相同的比例较高。(2)异地配单。相关关系特征:出口货物的报关地与出口企业所在地不一致;出口货物的抵运国与付款国不一致。(3)构造出
9、口单据。因果关系特征:货物贸易收款的结算方式中电汇比例极高、货物贸易预收及延收比例极低。(4)出口高报。因果关系特征:同一家企业同一类出口商品同一计量单位价差大;出口商品單价为整数的比例极高;同时进口低关税商品和出口高退税率商品。(5)构造退税。因果关系特征:出口收汇率极高;出口收汇周期短。(6)使用债务性资金。因果关系特征:资本金收汇后快速结汇或跨境支出不留余额;货款收汇后快速支出不留余额。(7)随机配资。因果关系特征:货物贸易的境外付款人多为浅交易者;从多个国家收入资本金。(8)集中利益输送。因果关系特征:企业呈县域集中分布。2.地下钱庄控制的境内付款公司(b)向境外调出头寸的动机,导致以
10、下行为特征:(1)成立境内空壳公司。相关关系特征:法人代表与联系人相同或均为空;同一交易社区的公司之间注册资本、经营期限、经营范围完全相同的比例较高。(2)虚构跨境付款交易背景。因果关系特征:可疑付款比例极高、进口零关税商品比例较高。3.地下钱庄控制的境外收款公司(c)从境内调入头寸的动机,导致以下行为特征:(1)成立境内空壳公司行为。同一交易社区的境内付款公司法人代表与联系人相同或均为空的比例较高。(2)虚构跨境收款交易背景行为。可疑收款比例极高;境内付款人可疑付款比例极高;境内交易对手进口零关税商品比例极高。4.地下钱庄控制的境外付款公司(d)向境内违规企业汇入虚假货款、资本金的动机,导致
11、以下行为特征:(1)成立境内空壳公司行为。相关关系特征:法人代表与联系人相同或均为空;同一交易社区的公司之间注册资本、经营期限、经营范围完全相同比例较高。(2)随机配资行为。因果关系特征:货物贸易的境内收款人多为浅交易者;从多个国家向境内汇入资本金。(3)虚构跨境付款交易背景行为。因果关系特征:向多个行业的企业汇入资本金;出口高退税率商品的客户过于集中。(二)地下钱庄跨境支付交易聚类社区理论的提出从地下钱庄的行为动机特征分析可以看出,地下钱庄的“客户”有以下三项基本需求:一是骗退税、骗招商补贴、做假账的境内违法公司(a)需要从境外收到货款和投资款;二是走私或进口低报的境内违法公司(a)以及境内
12、非法投资者或洗钱者(e)需要将境内资金转移境外;三是我国出口商、境外务工人员(f)需要将境外资金汇往境内。最理想的状况是:如果第三项需求的资金规模正好等于第一、二项需求的资金规模,地下钱庄只需将来自(f)客户的境外资金的一部分在境外直接支付给(e)客户的境外账户,另一部分以货款和投资款名义通过境外空壳公司(d)跨境支付给境内(a)客户,用于骗退税等非法活动,并最终流入(f)客户的境内账户,即俗称的“两头轧差”。地下钱庄将能以最低成本和最隐蔽的方式完成交易。但实际情况是,(a)客户骗招商奖励、特别是骗退税属于大规模的持续性行为,(f)客户的境外资金规模远远无法满足上述流入需求,势必使地下钱庄处于
13、“境外缺头寸”状态。地下钱庄只能通过成立境内空壳公司(b)或收购个人购汇额度以保税区转卖付款、预付货款、构造进口付款、境外投资、境外放款、个人付汇、个人境外提钞等名义将来自客户(a)(e)的资金或其自有资金购汇转移到境外空壳公司(c)用于平补境外头寸。根据以上对流入、流出渠道的分析,不难发现:如果仅从单个收入货款、资本金以及发生保税区转卖付款、预付货款的境内公司观察,几乎无法发现其与地下钱庄非法跨境收支行为的关联。实际情况往往是,即使发现了资本金非法结汇或预付货款长期不进口的企业也只能作为个案处理。为了解决这一难题,从系统论的观点出发,地下钱庄交易网络是一个互相重叠的整体,虽然无法获得其境内人
14、民币资金划转和境外资金划转的信息,但是通过观察其流入渠道和流出渠道的交易群体,也能识别一定规模以上的地下钱庄及其境内客户群6。基于以上认识,提出了“地下钱庄跨境支付交易社区理论”(见图 3),通过流出渠道向境外付款的(b)公司与(c)公司之间以及通过流入渠道向境内付款的(d)公司与(a)公司之间实际上形成了两类迥然不同的交易聚类社区。将(b)公司与(c)公司之间的交易社区称为流出型交易聚类社区,将(d)公司与(a)公司之间的交易社区称为流入型交易聚类社区。由于他们的交易动机与正常的跨境贸易、投资行为相背离,其交易模式以及交易参与者的行为、属性均与正常交易社区有显著不同。按照信息论的方法,可以通
15、过给全部境内、外交易参与者打标签的方式,向交易社区中引入新的信息。在流出型交易社区中,除构造进口付款渠道外,其他流出渠道均需要大量支付保税区转卖款、预付货款等异常特征较明显的资金,因此境内付款公司多集中在沿海跨境收支量大的地区。而流入型社区的境内收款公司则遍布全国各地。从打击地下钱庄的社会效益考量,发现和打击流入型交易社区可以联合更广泛地区公安机关的力量并且实现地下钱庄和骗退税等违法境内公司一起打击。(三)聚类算法的改进当前,监管部门对地下钱庄的监测分析主要采取人工聚类的手段,在地下钱庄这个违规手法层出不穷的监管领域,人工聚类的分析方法起到了一定的作用。但受人工信息处理能力和方式的制约,人工聚
16、类也存在一定的局限性:一是监测指标的泛化能力不强,根据局部事实设计的规则模型往往不能涵盖全部事实;二是监测指标面临规则迁移的挑战,地下钱庄交易手法的不断演变,往往使当前有效的人工聚类规则模型随着时间的推移失效。为有效解决上述问题,建立了“智能化监管体系”(见图 4),整个体系以大数据为基础,以人工聚类和机器聚类为支柱,以图数据为载体,以节点排名算法为核心,以数据可视化为抓手。数据可视化节点排名算法图数据人工聚类机器聚类大数据图 4:智能化监管体系图示该体系的数据来源于 8 个领域:(1)外汇局通过数据接口采集的资金流、货物流及登记备案信息。(2)大数据公司出售的企业实际控制人和社保信息。(3)
17、外汇局采集的行政处罚信息和主体涉汇负面信息。(4)国税总局提供的企业涉税负面信息。(5)各地海关提供的企业报关负面信息。(6)公安机关提供的购买出口报关单、购买增值税发票等情报。(7)最高人民法院依法公开的非法经营外汇业务、逃汇、虚开发票、骗退税、走私、信用证诈骗等犯罪行为的判决信息。(8)世界贸易组织(WTO)与世界海关组织(WCO)等公布的国际货物流统计数据。信息论认为,信息熵的本质是信息的差异性或不确定性,信息的差异越大,信息熵越大,信息所包含的信息量越大,地下钱庄跨境支付交易社区与正常交易的差异越小、交易行为越混杂,被发现的可能性越小。地下钱庄将采取一切可能的手段掩饰隐瞒非法交易,致使
18、监管部门收集的信息难以识别异常交易;极端情况下,除非引入新的信息,否则任何算法和規则模型都不可能有效发现地下钱庄线索。大数据则是向系统引入新信息的唯一途径,在引入大数据的基础上,人工聚类和机器聚类是发现异常特征和规则模型的两个有效手段。长期以来,监管主要依赖人工聚类的方式发现异常特征和规则模型,未来将更多地依靠机器聚类的方式发现异常特征和规则模型。机器聚类的目的是解决人工聚类泛化能力不强问题和应对规则迁移的挑战。同时,面对海量资金流、物流数据和其他大数据,机器聚类在效率、成本方面显然有人工聚类无法比拟的优势。考虑到监管领域普遍存在的负样本稀疏、分类标签未知的现实,选择无监督聚类作为技术路线。参
19、照主体画像的通行做法,设计“社区聚类算法”,具体如下:使用 TF-IDF 算法分别计算交易主体全体和个体的资金流、货物流特征向量。TF-IDF算法基于信息论中的交叉熵理论7,其思想可以理解为:在同一个主体中反复出现的特征提供的信息量大,在所有主体中都出现的特征提供的信息量小。计算公式如下:TF-IDF=i=1nWiDlogDallDw其中:Wi表示特征向量 i 的数量(例如交易金额),D表示主体中全部特征向量的数量(例如付款总额),DW表示出现特征向量 i 的主体个数,Dall表示全部主体的个数。资金流特征向量包括:收入/支出、企业代码(境外主体名称)、交易编码、结算方式、国别、金额区间、交易
20、金额占比、交易对手数量占比。货物流特征向量包括:进口/出口、企业代码、贸易方式代码、商品编码、口岸、国别、计量单位、成交总价占比、均价、整数占比。分别计算境内企业之间和境外主体之间特征向量的余弦相似性。余弦相似性用于表示空间中两个多维向量之间的夹角,夹角小的两个向量相似。计算公式如下:cos=i=1nxiyii=1nxi2i=1nyi2其中:xi、yi表示两个特征向量各维度的值。使用 K-Means 算法对主体的特征向量聚类,并根据聚类的结果对境内外主体打上机器标签。人工标签和机器标签的产生,为进一步统计分析和人工智能技术的应用提供了必要条件。根据图论的观点,地下钱庄跨境支付交易社区中的境内、
21、外主体及其交易可以表示为图数据中的节点、边和边上的权重(例如交易量)。整个图数据中的交易社区是由多个互相独立或重叠的交易网络构成。划分地下钱庄跨境支付交易社区的目的是将其从众多交易社区中分离出来。考虑到大型地下钱庄跨境支付社区是重叠社区,通常的社区发现算法无法排除重叠社区中广泛存在的正常交易网络。但判断一组异常节点是否属于同一个社区并不重要,重要的是找到地下钱庄跨境支付流入型社区和流出型社区的枢纽节点。因此,参考经典的 PageRank 算法,设计了节点排名算法(NodeRank),以自动发现各个地下钱庄跨境支付交易社区中的枢纽节点并对其排名,节点的风险值决定了节点的排名,而节点的风险值与其自
22、身及直接关联的节点的风险值有关。节点风险值的计算公式如下:nodeRank=risknode+i=1nlnri其中:risknode是当前节点的风险值,lnri是与当前节点相连的 i 节点的风险值。三、实证检验近年来,各地监管部门围绕打击非法集资、电信诈骗、骗退税等专项工作,显著加强了对地下钱庄非法买卖活动的打击力度,查询可疑人民币资金流向和冻结涉及地下钱庄非法交易账户的效率显著提升。通过案例分析可以看出,当前为最猖獗的骗退税型地下钱庄非法外汇买卖活动具有以下特征:(1)“配票、配单、配资”是出口骗退税的基本特征;(2)分析跨境资金流和进出口物流是发现地下钱庄非法跨境支付行为的有效手段;(3)
23、掌握异常结汇资金的追踪和对可疑账户的冻结是地下钱庄线索落地的必要途径。目前,可掌握的打击地下钱庄信息包括:公安部门的购买虚假出口报关单、虚假发票企业清单;税务部门掌握的骗出口退税企业清单;海关部门掌握的出口高报、进口高报企业清单;外汇局掌握的地下钱庄跨境交易社区。从实践经验看,公安、税务、海关部门掌握的信息无法实现地下钱庄线索的批量精准扩线,而外汇局掌握的跨境收支数据在地下钱庄线索扩线方面具有天然优势。实证分析的思路是,从公安机关、税务总局、海关总署部门提供的各类负面主体清单中梳理出可能从事骗出口退税的境内收款企业。在由境内、外收款人和付款人构成的交易社区中,运用“地下钱庄交易社区指标体系”,
24、采取人工甄别的方式,沿着“违规的境内收款人(骗出口退税)可疑的境外付款人可疑的境内收款人(骗出口退税、骗招商补贴)/可疑的境内付款人(地下钱庄控制的境内付款公司)”的路径不断扩线。对最终确认的涉嫌骗出口退税、骗招商补贴的境内收款人,由公安机关批量从税务总局、海关总署、人民银行分别调取企业的出口退税记录、出口报关记录、货款或资本金结汇人民币资金流向数据,追踪资金流向地下钱庄控制的境内付款公司账户或“人头账户”的线索。在抓获地下钱庄经营者后,公安机关统一冻结相关账户,对涉嫌犯罪的当事人移送起诉、将涉嫌非法买卖外汇的当事人移送外汇局处罚。为检验运用基于大数据的聚类技术识别地下钱庄跨境支付交易社区的实
25、际效果,利用上述思路和算法,结合 2019 年侦办的某地下钱庄案进行了监测分析。主要做法是(见图5):将非现场检查发现的疑似地下钱庄交易线索(弱线索)与公安机关掌握的购买出口报关单、购买虚开增值税发票企业情报(强线索)对碰,以碰撞出的境内企业为出发点,引用“地下钱庄控制的境外付款公司(d)”及“境内收款的违法公司(a)”规则模型,在流入型交易社区中循环筛查异常境内企业和境外主体,实现快速精准扩线。该地下钱庄案涉及非法资金交易近百亿元人民币,当事人涉及浙江、福建、黑龙江、新疆等全国 10 余个省(市、自治区)。目前已抓获多名犯罪嫌疑人,冻结银行账户 4000余个,冻结资金约 5 亿元人民币。在侦
26、查过程中公安机关掌握了 200 余家购买出口报关单企业和购买虚开发票企业。按照已经设计的模型,运用大数据和聚类技术帮助公安机关扩线。此前,公安机关曾尝试利用全国跨境交易数据对掌握的 200 余家企业实施单轮扩线:从 200 余家境内企业出发,找到境外付款人,并从境外付款人出发最终找到了 20000 余家境内收款企业,但对这 20000 余家境内收款企业开展人工甄别,发现绝大部分属于正常企业,如果再以这 20000 余家企业为基础进行下一轮扩线,將会最终找到国内大部分付款企业,从而失去分析意义。为了在扩线的各阶段对异常信息进行有效收敛,使用“对碰循环式线索筛查框架”开展扩线。首先,以非现场分析发
27、现的全国范围 5000 余家疑似地下钱庄境内收款公司(见表 1)与上述公安机关掌握的 200 余家企业(见表 2)对碰。以碰撞出的 2 家有管辖权的购买虚开发票企业为出发点,运用“地下钱庄控制的境外付款公司(d)”规则模型筛选出 60 家可疑境外企业(见表 3);其次,反查 60 家境外企业的境内交易对手,运用“境内收款的违法公司(a)”规则模型筛选出 1200 余家可疑境内企业(见表 4);最后,对筛选出的 1200 余家异常境内企业进行人工甄别,筛选出骗退税嫌疑最高的企业 400 余家。分析发现,上述 400 余家企业中包含了公安机关掌握的购买出口报关单企业 130 余家,普遍具有“公司法
28、人与联系人相同(一人公司)”“电汇结算方式比例高”“贸易信贷比例低”“异地报关”“账户不留余额”“与同一交易对手交易笔数较少(浅交易)”等相关特征,有效验证了基于地下钱庄跨境支付交易社区理论的聚类分析的科学性。四、结论地下钱庄违法犯罪活动严重扰乱了正常的金融管理秩序,影响国家经济金融安全和社会稳定,助长了洗钱等犯罪分子的嚣张气焰。作为游离于监管体系之外的非法金融组织,地下钱庄带来了巨大的社会危害,不但助长贪污、走私、贩毒、逃骗税、涉赌、诈骗、恐怖融资等上游犯罪,还绕开了我国外汇管理,导致国际游资或投机性短期资本借此通道进入中国市场炒作套利,并造成经济金融统计失真,影响宏观决策部门对经济金融运行
29、形势的分析判断、管理决策和政策制定。为此,2020 年国家外汇管理局和公安部都将打击地下钱庄及其交易对手作为重点工作任务。准确发现地下钱庄交易线索是打击地下钱庄工作的先决条件。本文提出的“地下钱庄跨境支付交易社区理论”“动机行为特征分析框架”“分布统计模型”等地下钱庄相关分析指标和模型,并通过案例对方法的科学有效性进行了验证,下一步,将根据地下钱庄交易方式、手段的不断变化,对模型和算法进一步优化,为打击地下钱庄提供有效的信息支撑。注:1 通过核对中国出口商品的出口报关额与进口国家的海关进口报关额,从宏观上可以佐证企业虚假报关出口的事实。其业务逻辑是根据商品名称及编码协调制度的国际公约,不考虑运
30、保费,同一 HS 编码的出口额应该等于对方国的进口额。2 遵照保密规定,对第二和第三部分涉及的企业和实证数据进行了脱密处理,但不影响数据计算结果的真实性和方法的科学性。参考文献:1正裕.特大“地下钱庄案”J.现代世界警察,2016,(5).2李心宇.汇兑型地下钱庄洗钱犯罪的侦查和防范 J.法制与社会,2017,(6).3陈晶莹.规制地下钱庄以防金融风险 J.检察风云,2018,(5).4王轶洁.浅议账户管理与反洗钱从江西“710”地下钱庄案谈起 J.金融与经济,2011,(9).5荣蓉,韩英彤.坚定不移铲除地下钱庄“毒瘤”J.中国外汇,2019,(2).6张成虎.反洗钱中的可疑金融交易识别 M
31、.北京:经济管理出版社,2013.7吴军.数学之美 M.北京:人民邮电出版社,2016.Research on Monitoring and Analysis of Underground Bank Based onClustering AlgorithmChen Haomeng(PBC Jinan Branch,Jinan250021,Shandong,China)Abstract:The counter-knock model of underground banks conceals theinternal link between domestic RMB transactions a
32、nd foreign currencysettlements,which makes it very difficult to detect and crack down on illegalactivities of underground banks.This paper uses big data clusteringtechnology as a tool,and takes the cross-border payment of funds involved inthe internal and external gaps of underground banks as a foot
33、hold,it proposesthe Community Theory of Cross-border Payment Transactions of UndergroundBanks.The characteristics of the important role of the underground bankstrading behavior are analyzed to clarify the collision-circular cluescreening framework in monitoring analysis and cracking down on theunderground bank.Key Words:underground bank,clustering algorithm,the transactioncommunity theory