在 2022 世界人工智能创新大赛(artificial intelligence world innovations,简称aiwin)中,网易智企旗下易盾 ai 实验室数据挖掘团队(ai-dm团队)以卓越的技术优势,经过初赛、复赛、终选答辩,一路过关斩将,从 731 支参赛队伍中脱颖而出,获得“企业违约风险预测”赛道的季军,f1-score 达到 0.7257,在精准率(precision)和召回率(recall)上表现出色。
这是易盾在业务风控领域取得的首个国内权威赛事认可,展现了领先的大数据风控技术实力。
注:f1是对机器学习模型精准率和召回率两者的综合评价指标
智能化数字风控是易盾多年深耕的核心领域。网易易盾对“风险画像”技术的研究与创新,取得了跨场景多源数据融合、行为时序建模、关联图谱挖掘、金融产品风险预测等方面的显著突破。
本次大赛中,ai-dm 团队利用机器学习、深度学习等方法训练一个预测算法模型:基于“风险画像技术”的 two-stage 企业风险识别算法。
该模型可以学习发债企业的相关信息,以预测发债企业未来一段时间内是否存在违约风险。ai-dm 团队从数据集中海量的发债企业相关信息进行挖掘,包括股东信息、对外投资信息以及舆情信息等,从中提取有效的特征,并进行风险预测。
在实际金融市场中,该技术有利于开展市场监管,从庞大的交易行为中挖掘主体关系和深层信息,分析这些交易主体是否正在通过相互交易来提升营业收入或达成其他非法目的。
任务与背景
ai国际权威赛事,科技赋能金融业风控
世界人工智能创新大赛(aiwin大赛)是世界人工智能大会(world artificial intelligence conference,简称waic)的重要组成部分。
waic 是经国务院批准,由国家发展和改革委员会、工业和信息化部、科学技术部、国家互联网信息办公室、中国科学院、中国工程院、中国科学技术协会和上海市人民政府共同主办,致力于推动该领域学术界和工业界研究、创新与应用的发展,目前是国家有关部门和上海市共同打造的国际高端合作交流平台。
本次“企业违约风险预测”任务由国泰君安联合世界人工智能大会(waic)发起,结合来自一线真实业务的发债企业信息和违约历史信息等数据集,旨在以机器学习、深度学习等全新方法突破风险的不确定性。
自 2014 年我国债券市场“刚性兑付”神话被打破后,债券违约现象日益升温,2018 年债券市场有 160 只债券发生违约,涉及 44 家发债企业,违约余额高达 1505.25 亿元,违约严重程度达历史之最。
在债券市场信用风险加速暴露、违约事件发生趋于常态化的背景下,如何对发债企业违约风险进行有效评估与提前预测成为当前面临的重要监管难题。
由于信息不完全,单纯依靠财务数据已难以充分解释违约风险溢价问题。如何有效利用财务以外的其他数据,例如发债企业的舆情数据、股权上下游数据,对发债企业违约风险进行预测具有重要意义。
在此背景下,发债企业的违约风险预警竞赛成为年度最为热门的赛道之一,包括上海交通大学、南京大学、同济大学、北京航空航天大学、华南理工大学、合肥工业大学、中南大学、腾讯、网易易盾、海康威视、银联数据、mtrc、上海赛可、中软国际等高校和企业的团队选手,竞争极其激烈。
技术与解析
发挥“风险画像”技术实力,金融违规分析与识别
面对错综复杂的经济金融环境,加强监管、确保稳定发展已成为当前金融业的重要任务,然而涉及主体较多、交易路径复杂,人工快速识别难,令监管与金融机构在风控方面难免无从下手。
网易易盾通过长期在数字风控上的投入和建设,利用大数据、人工智能、云计算等最新科技赋能金融行业,提升查找风险企业的效率和速度,降低监管成本。在本次发债企业的违约风险预警竞赛中,网易易盾数据挖掘组提出了一种基于风险画像技术的 two-stage 企业风险识别模型。
企业风险画像技术旨在通过多源跨模态大数据融合,对企业属性、财务指标、网络舆情、对外投资信息、股权上下游关联关系等多维度进行特征挖掘,提取通用风险标签,以降低数据理解成本,并利用机器学习算法识别过检主体的风险,使客户及时管控和处置各类风险类型。
在数据探索和特征工程阶段,技术团队利用“风险画像”技术全面挖掘企业的多维度大数据,为模型精准识别违约企业打下基础,主要涵盖三大方向:
1 根据企业基础属性信息,通过非线性模型衍生其所属省市区、所处国民经济行业、注册资本和经营起始年限等高阶交叉组合特征。
2 通过时间序列建模,挖掘企业营收指标波动曲线中潜在的财务风险特征。
3 针对网络舆情数据,结合 nlp 技术挖掘新闻篇章中内容语义标签的向量化特征,并采用 lda 降维技术将高维空间中分布相似的内容映射至低维稠密空间,降低模型训练复杂度。
模型构建阶段则是沿用了风险画像业务实践中种子关联扩散的思想,达到“先求准再求全”的目标。在 stage1 阶段利用 xgboost、lightgbm、catboost 构建集成学习模型群,通过平均法融合各个基模型的学习能力,用于计算企业综合违约概率,精准识别高风险的违约企业。
stage2 利用股权上下游关联关系、网络舆情内容构建企业主体之间的关系图网络,通过半监督学习算法对风险种子标签进行传播,进一步召回与 stage1 违约企业存在强关联的潜在违约企业。
除了能挖掘违约主体,该建模方式还通过图网络计算的方法,挖掘在拓扑关系上存在异常的关联团伙主体,更全面地发挥数据价值挖掘违约主体以及潜在团伙,在保证模型高精准的同时提升召回率。
相比于其他参赛队,易盾 ai-dm 团队深入挖掘企业多维度大数据,构建企业风险画像,在提升模型效果同时,为运营决策人员提供可解释的特征因素。团队本身来自风控业务线,拥有内容安全、业务反作弊、社交反欺诈、游戏反外挂等诸多细分风控场景的最佳实践经验。
同时,最大程度发挥了多维度大数据协同趋优的建模思维,将属性、时序、内容、关系等特征通过统一的机器学习框架进行融合,创新性提出 two-stage 企业风险识别模型,将识别任务拆解为“高置信风险企业识别”和“关联风险企业召回”两个子任务,并在初赛和复赛中经过数十轮迭代,线上排名均长期取得稳居前五的战绩。
应用与亮点
深入风险源头,产业应用助力大数据风控
基于“风险画像技术”的 two-stage 企业风险识别模型,不仅在大赛中有效解决金融行业债券风险评估难题,以“风险画像”技术为内核的业务安全与反作弊至尊全讯大全官网的解决方案已经赋能多个产业,且在社交娱乐场景中广泛应用。
近年来,互联网黑色产业利用不法的手机卡,成规模地在各互联网平台中进行诈骗、色情引流等各种不法行为。每年的危害案件多达百万级,其中以社交行业尤为泛滥。
无论是社交娱乐中的用户账号,还是金融业务中的企业账户,风险画像的本质是从个体层面解决问题,从源头把握风险,在攻防对抗中更具鲁棒性。
对于社交娱乐行业而言,“风险画像”技术适用于整治互联网平台上存在的许多违规账号,这些账号存在如欺诈、引流、黑产团伙等隐蔽的恶意行为,致使企业遭受资金损失与用户流失。
方案以账号维度解决问题,对平台的安全风险进行正确评估,并存留违法违规证据,让风险处置能得到最扎实的助力,相伴营造清朗安全的社区氛围。
内容安全 内容之外,切实可行的全新技术路线
不良 ugc 内容通过图片扭曲、特征掩盖、牛皮癣干扰等对抗手段,即可成为ai图像识别的疑难杂症,增加内容算法的检测难度。文本方面,通过同音词、象形词、拆字、干扰词等形式带来的隐晦有害内容也一直屡禁不止,如附骨之疽一般,难以根治。
此时,“风险画像”技术的优势显而易见,站在更高的维度,与内容层面的识别结合,直接纠出不良内容的制造账户。该技术捕获不良信息发送者在内容、行为、设备等方面的深层次特征,在内容风险不断变种的强对抗背景下,助力平台运营快速定位发布者,从源头切断不良信息产生。
业务反作弊 深入网络营销的全链路,定位风险所在
每年大促都是羊毛党们的狂欢日。羊毛党以获取各种优惠券、现金返利为职业,对平台、商家促销和优惠信息保持着极为敏锐的嗅觉,通过模拟器、分身工具、群控真机、卡商、打码平台等作案手段,以薅死对方为最终己任。恶意投票,控评、水军等作弊行为也带来了恶劣的影响。
随着企业数字化转型,业务与营销纷纷转向线上网络平台,网络商业模式与网络营销模式的也引来了黑灰产业链的注视。黑灰产作弊团伙一般有几个特点:一个是有大量账号,二是存在登录的问题,三是模拟正常用户活动。
在此背景下,“风险画像”技术能提供关键援助,其作用在于识别刷单、刷票、刷券等营销作弊行为,吸纳注册、登录、营销活动、下单、投票、内容发布等业务节点的风险数据,从源头上把团伙和个人作弊者的账户纠察出来,减少平台与商家的资金损失,助力企业真增长。
网络反欺诈 “行为 账号 内容”多维度关联分析
近年来,网络欺诈防不胜防,不少正是隔着网络攀谈引诱受害人上钩。全国公安机关深入推进“断卡”“断流”专案行动,严厉打击网络欺诈行为。
此时,“风险画像”技术融合内容、头像、行为时序、设备指纹、gps/ip/ wifi 等多模态数据,联合易盾长期积累的黑产库,通过多个维度的相似度计算得到用户风险关系图谱,顺藤摸瓜定位欺诈团伙,一网打尽欺诈话术和存在欺诈套路的嫌疑账号。
结语
风控注定是一场你来我往的拉力赛,易盾的ai实验室专注于数字风控的前沿技术,探索领域涵盖自然语言处理、计算机视觉、知识图谱、语言技术、可信 ai、隐私计算等。
科研工程师们始终执着于技术创新,保持着高效产出,围绕各商业环节,有能力定位问题,为行业提供扎实可靠、易于应用的产品与至尊全讯大全官网的解决方案。
自成立以来,网易易盾在技术研发方面不断投入,加码“场景聚焦”和“业务线价值”,让客户轻松应对安全挑战,专注业务创新发展。未来,网易易盾仍将持续加深风控技术,探索“风险画像”、“社交关系网络”有关的技术新方向,为企业的数字转型升级保驾护航。