基于金融知识图谱的会计欺诈风险识别方法
针对商业银行会计案件日益复杂且频发的问题,将会计案防领域的行业知识与金融知识图谱技术结合,以更精准地识别与防范商业银行会计风险。采用图分析、图挖掘等技术,提取深层关联风险特征,并与行业经验知识相结合,构建了249条单点规则及425条组合规则,形成了丰富、可灵活配置的反欺诈策略体系。将该智能化反欺诈方法应用于银行活期账户的风险排查,与传统规则策略相比,识别精准度大幅提升,且对于筛选出的高度可疑账户,识别精准度达到85%左右,极大提升了会计案件核查的效率。
商业银行会计风险案件形式多样,涵盖反洗钱、资金、非法集资、虚假交易、恶意刷单、套现挪用等多种作案手段。随着商业银行业务范围不断拓展,经济形势复杂性加剧,会计风险案件日趋高发,给商业银行及社会经济带来严重的损失,也给金融系统的稳定性造成不良影响。除了明确对反洗钱等金融犯罪行为的打击防范,监管对银行资金的使用规范也日益严格,如《商业银行互联网管理暂行办法》明确表示,资金不得用于购买房产、股票、金融衍生品等。加强对会计风险案件的防控是新形势下银行风险管理的重要内容,具有较大的经济效益和社会效益,一是能更好地保障客户资金的安全,切实做好维护客户利益的本职工作;二是有利于监测并规范信贷资金的用途,使其切实用于企业的经营发展,支持与服务实体经济;三是能增强反洗钱能力,防范金融犯罪,助力金融系统的稳定与社会经济健康发展。而现实中各类风险事件的作案手法越发复杂,内外部勾结、团伙合作等形式较难被及时察觉,传统事后核查方式的防范效率较低。这些都对银行传统的风险管理模式提出更严峻的挑战,需要借助新技术、新方法来更有效地应对。
近年来,金融科技蓬勃发展,驱动金融业务经营与管理模式的创新变革。中国人民银行印发的《金融科技(FinTech)发展规划(2019—2021年)》明确指出,金融科技已成为防范化解金融风险的新利器,是新形势下金融风险管理的内在需求和重要选择。金融科技在会计非现场监控工作中的应用能实现对会计异常数据的自动监控、自动预警、自动通知,有效提升会计监控的效率;基于大数据、人工智能技术的反欺诈智能平台能对海量金融交易进行监测,在降低异常交易预警的同时,极大地提高了识别欺诈交易的命中率。为此,商业银行积极探索大数据、人工智能、知识图谱等核心技术在会计案防领域的高效应用就显得格外必要。将传统的风险业务知识与大数据、人工智能技术结合,充分发挥数据模型在风险特征挖掘上的能力,构建更完善、更精准的智能化会计案件风险防控体系,能有效地提升银行的风险管理水平,推动银行的高质量发展。
本文引入知识图谱相关技术,提出了结合关联风险特征的会计案防智能化反欺诈策略体系构建方案。首先,构建了银行账户金融知识图谱,并采用多种图分析技术挖掘提炼账户之间的关联风险特征;其次,将关联风险特征与传统会计案防规则结合,形成完整的会计案防智能化反欺诈策略体系;最后,基于银行真实交易账户对反欺诈策略进行检验,检验结果表明,该智能化反欺诈策略体系能有效识别出高风险账户。
作为人工智能的重要领域之一,知识图谱相关技术在金融反欺诈领域的应用日益广泛,对金融风险防范起到显著的促进作用。姜增明等人认为商业银行反欺诈的关键在于建立以大数据为支撑的风控体系,采用知识图谱、社交网络分析等技术,更有效地防范复杂模式下的欺诈风险。柴洪峰等人指出依托知识图谱强大的知识推理和逻辑判断能力,在提升风险监管决策准确性的同时,也能增强其可解释性。陶睿等人通过构建上市公司知识图谱,对企业风险进行智能化监控,提升了监管穿透性,缓解了监管时滞性;陶士贵等人基于股权关系图谱,采用复杂股权关系路径算法,有效识别企业的最终受益人,实现反洗钱风险的预警提示。上述文章主要侧重于从企业控制人角度出发,采用知识图谱挖掘股权关系中的风险,但这些文章均仅描述了研究思路,并未就具体图计算过程和实验结果进行详细阐述。金磐石等人通过构建企业关联图谱,将企业画像特征与从知识图谱中提取的企业关系特征结合,并将其作为分类模型的变量输入,预测小微企业欺诈的概率;王成等人采用知识图谱的网络嵌入方法预测互联网借贷的欺诈行为,将网络中的节点嵌入低维的向量空间,以自动学习网络中隐含的关联关系,增强了欺诈预测的性能。这两篇文章主要将知识图谱与AI算法结合,通过算法模型预测信贷业务中的欺诈风险,但对于会计案防业务来说,这种方法不仅欺诈样本比例较低,影响模型训练效果,而且对案件发生逻辑的分析要求高,完全采用机器学习模型预测欺诈缺乏相应的可解释性。凡友荣等人基于电信通话知识图谱,通过最短路径算法、PageRank算法、聚类算法等识别电信通话中的关联路径、核心人物及社会关系,为电信资金的识别提供重要线索;魏瑾等人搭建了基于知识图谱的欺诈电话智能决策平台,提升了电信识别的准确率。这两篇文章采用知识图谱技术提取个人之间的交互网络特征,能获得更深层次的风险信息,但主要为个人关系层面,未涉及账户资金交易,场景应用上存在较大差异。
为此,本文基于会计案防领域的业务特点,构建了一种将行业知识与知识图谱技术结合的智能化反欺诈策略方案,在交易账户金融知识图谱的基础上,采用多种图分析技术,从网络结构、账户资金流向、资金交易闭环、账户关联强度等度进行深度挖掘,提炼出账户关联风险特征;将账户关联风险特征与账户基础特征结合起来,基于行业知识构建反欺诈规则策略集,以实现对会计案件欺诈风险更精准的识别。
在商业银行会计案防工作中,基于长期业务经验积累形成的风险规则逻辑是识别欺诈案件的重要行业知识,但是对于资金交易闭环、账户穿透转移等关联交易特征,由于涉及主体较多、交易路径复杂,人工难以及时识别,这也是会计案防工作的痛点与难点。知识图谱通过将蕴含业务规律的、跨系统跨主体的数据信息以图的形式进行关联、展示与分析,能够挖掘出隐含的欺诈风险信息。对于银行账户交易来说,不同账户之间通过资金转移形成了一张交易关联网路,采用知识图谱技术能更及时、更精准地提取出账户深层的关联交易风险特征,并通过图可视化技术进行展示,这有助于提升会计案防风险识别的质效。
由于会计案防欺诈样本相对较少,且对案件发生逻辑及可解释性要求很高,会计案防核查最终需要基于行业知识的风险规则策略对案防事件进行识别与确认。传统案防风险策略一般以账户的基础特征为主进行构建,缺乏账户之间的关联网络特征。而在本文的智能化反欺诈方案中,将行业知识与知识图谱结合起来构建出更前瞻、更精准的风险策略集。一是通过账户交易知识图谱提炼、挖掘更加丰富的交易网络特征,全面获得账户的基础特征(也可以将其看成账户节点的属性)与账户间隐藏的关联特征,形成更完整的特征规则集;二是基于会计案防行业知识,对融合了网络关联特征的规则集进行组合配置,形成更加精准有效的会计案件反欺诈策略体系。在整个过程中,如何通过知识图谱技术挖掘出账户之间隐藏的关联特征,是本文研究的重点。智能化反欺诈策略方案的整体架构如图1所示,主要包含指标库、金融知识图谱分析、规则策略等部分,其中指标库是指对会计案防规则进行解耦,并加工出账户的基本特征,是实现风险策略可灵活配置应用的重要工程化基础;金融知识图谱分析部分主要是对账户交易知识图谱的构建以及关联网络特征的提取;规则策略部分主要是对融合了账户基础特征和关联网络特征的规则进行组合配置,形成不同场景下的会计案防反欺诈策略。
会计案防业务中原始的规则逻辑大多以文本的形式描述,在应用过程中将对每一条规则逻辑进行独立的SQL语句编写,一旦规则逻辑发生任何细微的改动,都需要重新编写SQL规则语句,这种应用方式一方面导致规则配置及更新迭代的效率较低,另一方面也难以与知识图谱等技术结合进行挖掘分析。为了实现会计案件的智能分析预警,需要对规则文本进行进一步的拆解,提炼出影响案件性质的关键要素,形成指标库,以便通过对指标的灵活组合配置,形成适应不同时间、不同场景的业务规则,对会计风险案件做出更快、更精准的响应。指标拆解示例见表1。
同时,对于一些难以从结构化数据中直接提取的规则指标,将采用知识图谱、机器学习等技术进行相应的处理,以更充分地实现指标自动化、智能化生成。如在“票据审查真实”这条规则中,传统票据审查方式只能靠人工在线下进行,在此则依托光学字符识别(optical character recognition,OCR)技术对承兑人、票面金额等票据要素进行自动提取与真实性判断;又如,对于“是否是股东”这条规则,可以采用自然语言处理(natural language processing,NLP)技术从股权变更公告中自动提取股权相关信息,图2为指标智能化生成方法示例。
知识图谱具有节点和边的概念,节点表示信息实体或者实体的属性值,边表示两个被连接实体的关系或者一个实体的某个属性。金融知识图谱主要针对金融行业的业务场景,通过大规模语义网络,将金融业务领域中的结构化、半结构化、非结构化等不同类型数据进行整合,将事物或者概念作为实体,基于实体之间的语义关系相互连接,构建出网状的知识链接,形成结构化的语义知识库,以更清晰的形式描述金融业务中复杂的关联逻辑。金融知识图谱的内容和结构根据具体金融业务的不同而不同,对于会计案防领域,防范重点在于资金的违规流动,故该领域金融知识图谱的重点在于对账户之间资金交易关系的刻画,与传统知识图谱相比,账户实体之间的边增加了表示资金流向的箭头,边的粗细也会根据交易量进行区分。
知识图谱的构建首先是语义框架的设计,即确定会计案防业务领域中的实体,以及实体之间的语义关系结构;其次是知识内容的构建,即根据语义框架中定义好的实体及关系类型,从多源异构数据中提取出实体,将实体、关系、属性以三元组的形式存储在图数据库中,形成完整的关联图谱。
采用各类知识图谱分析技术能够发掘出图结构中隐含的业务深层联系,实现智慧搜索与智能交互,进而增强金融机构的业务智能化水平。本方案主要采用图可视化分析、知识推理、图计算等图技术,提炼金融知识图谱的浅层关联特征、深层关联特征等多层次结构信息,赋能复杂业务经验的智能化应用,提高欺诈风险识别的覆盖率、准确率。主要的图分析及特征提取内容如图3所示。
图可视化分析主要是将图结构的数据存储在Neo4j、JanusGraph等图数据库中,并结合Elasticsearch搜索分析引擎,实现高灵活性、高准确性、低时延及大规模并行化的检索查询,形成对图结构数据的可视化关联展示,以提取实体之间的关系类型、实体属性等基础的网络特征。
通过图计算、知识推理等分析挖掘技术,提取出图数据结构中的深层关联特征,揭示隐含的欺诈风险。本方案主要采用的图关系挖掘方法见表2。
找出资金从某一账户转出,与其他账户交易后又转入原始账户的交易闭环,有利于排查虚假交易、洗钱等风险行为。账户交易图谱是有向图,可采用Tarjan算法识别交易网络中的强连通图,即图中任意两个顶点可以互相通达,从而挖掘出闭环交易。Tarjan算法基于深度优先搜索进行节点访问,定义dfn[u]为深度优先搜索时节点u的时间戳(即次序编号),low[u]为u或u的子树能够追溯到的最早的栈中节点的序号。对于当前节点u和关联节点v:若(u,v)为搜索边,low[u]=min;若(u,v)为回边,low[u]=min。最终选取low[u]=dfn[u]时,该节点往上的所有节点构成的强联通分量。
将两个账户之间的交易路径长度、交易时间、交易金额、交易次数等多个维度综合起来进行评估,挖掘出有直接或间接交易关系的账户之间的紧密程度。对于一条交易路径,如图4所示,A1、A2两个账户之间并无直接交易,但通过账户B2、B3建立起间接的交易关系。
用λ表示两个直接交易账户之间的交易权重,λi为资金从账户A1到A2的整个交易链路中第i段交易的权重:
其中,Ti表示第i段交易中两个账户在特定时间内的时间切片个数,dt表示第t个时间切片,N表示交易次数,M表示交易金额。这里交易权重主要由单位时间段的交易次数以及单次交易的金额这两个因素决定。整个交易链条中A1和A2的关联强度R为各段交易权重的平均值。
分层穿透是指通过层层追溯,找到最终的间接利益关联方。此处主要是对资金在转出初始账户后的交易路径进行层层追踪,找到资金的最终流向,能有效挖掘出多层复杂场景下资金通过中间账户转移到非法账户的风险。推理示例如下:
其中,a、b表示两个节点,edge表示存在边关系,path表示存在关联路径,箭头表示关系及路径的方向。
资金转移模式匹配主要用来判断“分散转入、集中转出”以及“分散转出、集中转入”这两种可疑的账户交易模式,前者通常隐含非法集资的风险,后者则具有典型的洗钱特征。为了更加精准地评估某一资金转移与风险交易模式的匹配程度,将账户交易的网络图谱转换为账户余额随时间变化的交易波形图,用波形的相似程度表示账户交易模式的相似程度,从而定量评估资金转移模式是否具有较高的风险特征。
在波形相似度的衡量上,相关系数一般用来衡量波形总体相似程度,容易忽视局部特征的差异。本文在计算波形相关系数的基础上,选取波形的主波峰值、主波起始点至顶峰的时间这两个主要的波形局部特征,将两者结合起来,得到最终相似度,其计算式为:
其中,W为基础波形,P为对比波形,Wt、Pt分别表示在t时刻两个账户的金额;分别表示两个账户在该时间段内的平均金额;H表示主波峰值;T表示主波起始点至顶峰的时间;β表示权重。
在实验中,将实际金融活动中线起会计风险案件作为规则设计的参考蓝本,基于行业经验知识从中提炼出可疑风险规则,并对规则进行拆解,形成基础指标库,作为账户的基础特征;选取某银行2019年6月至2020年1月的所有活跃账户数2 900万个,将其中有历史管控和确认欺诈的账户作为欺诈样本,共6 571个,将账户交易情况、企业及个人基本信息等作为数据基础,构建账户交易知识图谱,提取出账户的关联风险特征。
与会计案防相关的完整的指标体系涉及的内容广泛。从指标对象来说,涵盖了客户、账户、交易、员工、营业机构等不同层面的主体,如客户注册地、账户开户地址、是否人工验印、员工操作笔数、机构开户数量等。从指标加工的技术来说,涵盖了基础指标、统计指标等,基础指标是指客户或账户的基本属性,统计指标是指经数据运算后的指标。表3展示了一些业务规则指标,将这些指标作为账户的基础特征。
本文图网络结构标识的实体主要包含两类,一类是账户实体,包含企业、个人开立的可发生资金交易行为的银行账户;另一类是非账户实体,如经营机构、操作设备等。对应的实体之间的关系也主要分为两类,一是账户与账户之间,主要是交易关系,由是否有资金往来确定,若发生过转账、支付等交易行为,则有交易关系;二是账户与非账户之间,具体关系需要根据非账户实体确定,如账户与经营机构之间是开户关系,账户与操作设备之间是使用关系。在本文账户关联图谱中,实体用节点表示,关系用边表示,其中交易关系具有箭头和粗细区分,边的箭头由转出账户指向转入账户,边的粗细则主要由交易金额决定;而对于账户与非账户之间,未涉及资金流向,其关系大多是固定的,也是可逆的,如某一账户和开户证件号,可以从账户关联到证件号,也可以从证件号关联到账户,可逆关系无须箭头和粗细的区分。对于与其他实体无任何关联的孤立实体节点,其表示该账户无资金交易行为,也无任何基本信息关联,将该孤立节点删除。最终构建形成的金融知识图谱由诸多非连通的子图组成,各个子图之间未构成关联,子图内部的账户之间以多种方式进行连接。知识图谱中涉及的主要实体及关系类型见表4。
图5为账户交易知识图谱的子图示例。以子图1为例,A1~A5代表资金账户实体,A1账户的资金主要流向A2、A3、A4 3个账户,其中A1A2的资金交易量最大,连线的资金交易量最小,连线边则较细;IP地址、证件等为非账户实体。从图5可知,账户A2、A3、A5关联同一个证件号码,非账户实体与账户实体之间无交易行为,故连接边为无箭头的实线 账户交易知识图谱的子图示例
浅层关联特征主要指可从图结构中直接查询得到,无须进一步加工计算的特征,也可以通过图谱可视化直接读取,如图5中的子图1,A4、A5账户对应同一个对账地址,当多个非同名账户都对应同一个对账地址时,则存在虚假开户的风险。表5给出了浅层关联特征示例。
与浅层关联特征的获取有所不同,深层关联特征无法从图结构中直接获取,需要基于图计算等方式深入挖掘提取得到。
如图6所示,基于前述Tarjan算法挖掘强联通分量,可以发现资金从账户A1转出,经过账户A2、A3、A5路径,以及账户A2、A3、A4、A5路径,回流至账户A1,形成两条资金闭环,提示存在洗钱或虚假交易等疑似欺诈的行为。
当两个账户之间存在多条交易路径时,对不同交易路径下的关联强度进行计算,选取最大值作为最终的关联强度值。如图7所示,A和B代表账户实体(为了进一步区分,以A表示起始和终点账户,B表示中间账户);V表示非账户实体,与账户间无资金交易关系,也不影响账户关联强度的计算。A1与A2之间存在两条关联路径,分别是A1B2B3A2,以及A1B1A2。计算两条交易路径下A1、A2的账户关联强度,得到在较长路径下,两者的关联强度反而更大,有助于对可疑账户的高关联账户及核心交易路径进行排查。
如图8所示,对账户资金流向进行层层穿透,可以发现账户A与账户D并无直接的资金交易,但经过知识图谱对交易层级的拓展,显示账户A中的资金经过B1到Bn,以及C1到Cn这两条路径,最终流向了账户D这类投资股票、房产的高风险账户,属于违规使用信贷资金的行为。
如图9所示,通过限定资金转入转出特点,得到两种交易模式图,一种模式是分散转入、集中转出,账户X1、X2、X3、X4中的资金先后流向账户X中,呈现陆续分散转入的现象,然后账户X再将资金集中转出到账户Y中,这有非法集资的风险;另一种模式是集中转入、分散转出,与前一种模式正好相反,资金先由账户X集中转入账户Y中,然后再由账户Y陆续转出到账户Y1、Y2、Y3、Y4等账户中,这有较严重的洗钱嫌疑。
进一步分析不同账户的交易波形与欺诈样本交易波形的相似程度。图10表示“分散转入、集中转出”模式下某一欺诈账户的关联交易模式,图11为对应的风险交易波形图;波形一(如图12所示)和波形二(如图13所示)分别代表两类账户的交易波形。根据前述计算方式,得到波形一、波形二与风险波形的相似度分别为0.423和0.825,表明波形二对应的账户交易模式存在与风险波形类似的欺诈特点,需要重点排查;波形一与风险波形的相似度较小,表明波形一对应的账户交易模式属于前述欺诈行为的可能性较小。
基于以上分析,本文进一步提取出一些具有较高欺诈风险的深层关联特征,见表6,这些深层关联特征和浅层关联特征一起形成了对账户基础特征的有力补充。
将账户基础特征与从知识图谱中提取出的关联风险特征相结合,搭建了较完整、丰富的风险指标集。对每一指标设置阈值,即相应的单点规则;由于单点业务规则不足以解释风险现象,需对其进行灵活的搭配形成规则组合,并辅以指标阈值的调整。最终构建出会计案防领域反欺诈规则策略体系,该体系共涵盖了249条单点规则,以及425条组合规则,图14为规则配置的示例。
将以上规则策略集应用于选定历史时间段的2 900万个银行活跃账户,将其中有过历史管控或确认过欺诈的账户标记为欺诈样本,共6 751个。将该数据集分为两组进行对比试验,一组采用账户基础特征构建的规则策略进行欺诈识别,另一组采用融合网络关联特征后的规则策略,通过对比两组策略的风险识别结果,验证知识图谱应用的效果,实验结果见表7。
策略1表示仅使用账户基础特征规则进行欺诈识别,策略2表示将账户基础特征与关联特征结合起来形成反欺诈策略。将样本近乎平均地分配到两组实验中,最终策略1筛选出2.1万个疑似风险账户,其中确认为欺诈的共4 230个,确认率为20.1%;策略2提示有风险账户数为4 067个,其中属于欺诈的有2 621个,确认率为64.4%;进一步从策略2预警提示的风险账户中挑选出规则命中最多的前100个账户,其中85个被确认为欺诈账户,头部欺诈确认率达到85%。实验结果表明,融合了知识图谱关联特征后的规则策略能够显著提升会计案防欺诈识别的准确性,缩小异常账户核查的范围,使风险管理措施集中到最可疑的账户中,从而提升会计案防工作的质效。
本文将会计案防领域的行业知识与金融知识图谱技术相结合,构建了基于图谱关联特征的智能化反欺诈策略方案。在实验中,以行业真实会计风险案件和银行内部账户数据为分析基础,对欺诈经验规则进行指标化拆解、加工,形成反欺诈基础规则指标库;采用图可视化分析、知识推理、图计算等知识图谱技术,对基础网络结构、账户资金流向、资金交易闭环、账户关联强度等进行深度挖掘,提取出关联风险特征,最终形成了丰富、灵活的会计案防智能化反欺诈规则策略体系,共包含了249条单点规则,以及425条组合规则。将智能化反欺诈规则策略用于银行内部账户的风险核查,挑选其中疑似欺诈程度较高的账户进一步人工核验,最终欺诈确认率高达85%,这充分表明了智能化反欺诈策略在风险识别上的精确性,能显著提升会计案防工作效率,增强银行的风险管理能力,也有助于维护金融系统的稳定性。
未来智能化反欺诈策略中将融入更多的机器学习、深度学习等AI算法,将算法模型的分析预测结果进一步纳入规则集中,使反欺诈策略体系更加完善与精细;也将依托大数据相关技术搭建智能化会计案防平台,以平台化运作的方式实现规则策略的自动化加工计算、组合配置及提示预警,最终在真实会计案防场景中高效运行,助力银行风险管理的数字化、智能化转型升级。
陈强(1976-),男,博士,兴业银行信息科技部创新技术总监、高级工程师、高级经济师,厦门大学统计学与数据科学系兼职教授,中国计算机学会(CCF)会员,北京金融科技产业联盟人工智能专业委员会委员,兴业银行集团科技架构专家委员会常任委员。主要研究方向为数据科学,人工智能算法在金融风险控制、财富管理、理财投资等业务领域的应用研发及系统落地。代仕娅(1990-),女,蚂蚁科技国际事业群数据算法技术部数据产品专家,主要研究方向为数据科学、人工智能相关产品在金融领域的研发及落地应用。
大数据期刊《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,并被评为2018年、2019年国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186