首页>>互联网>>大数据->银行风控采用哪个大数据库(2023年最新整理)

银行风控采用哪个大数据库(2023年最新整理)

时间:2023-12-12 本站 点击:0

导读:很多朋友问到关于银行风控采用哪个大数据库的相关问题,本文首席CTO笔记就来为大家做个详细解答,供大家参考,希望对大家有所帮助!一起来看看吧!

通付盾风险监测预警平台利用流计算引擎优势,为风控服务保驾护航

相比批量计算,流计算方式可以很好地对大规模流动数据在不断变化的运动过程中实时地进行分析,捕捉到可能有用的信息,并把结果发送到下一计算节点。目前,该计算方式已经在Web应用、网络监控、传感监测等领域得到了实践与应用。通付盾大数据安全专家将流计算技术原理成功应用于大数据安全领域,打造出计算性能优越,高并发,上万吞吐量,毫秒级返回的流计算引擎,为金融行业提高风控管理提供了技术支持。

在互联网时代背景下,金融消费者聚集的高度碎片化数据,规模在不断增加,金融机构和企业可以运用这些数据进行计算、加工和判断,推动金融行业智能风控的落地形成。因而当今的智能风控侧重大数据、算法和计算能力,强调数据间的相关关系。

通付盾大数据安全团队持续专注大数据计算与存储技术领域,在大数据安全技术的反复研究与摸索比较中发现,一款基于海量数据处理的高性能计算引擎至关重要,在这一点上,流计算引擎有着无可比拟的优势,而大多数计算引擎基于批处理系统,虽然具备海量数据处理能力,但在时效性上有明显滞后性,无法满足当前金融大数据实时计算需求。

以金融风控反欺诈为例,部署"流计算引擎"的通付盾风险监测预警平台能够基于海量风险数据,实时进行复杂风控模型及策略计算,高效输出风控结果的智能风控系统,性能明显优于传统的智能风控平台。

要解开流计算引擎的性能优越性之谜,需要从流计算的技术原理本身说起。

流计算秉承一个基本理念,即数据的价值随着时间的流逝而降低,如用户点击流。因此,当事件出现时就应该立即进行处理,而不是缓存起来进行批量处理。为了及时处理流数据,就需要一个低延迟、可扩展、高可靠的处理引擎。对于一个流计算系统来说,它应达到如下需求:

1)高性能

2)海量式

3)实时性

4)分布式

5)易用性

6)可靠性

相较于传统静态数据,技术人员利用数据挖掘和OLAP分析工具从静态数据中找到对企业有价值的信息,流数据的处理对应不同的计算模式:实时计算。

实时计算一般针对海量数据进行的,一般要求为秒级,而通付盾大数据安全团队目前所采用的流计算引擎,针对海量数据的实时计算能力已经达到毫秒级,关键技术在于引擎的流计算能力:

(1) 与批量计算那样慢慢积累数据不同,流式计算将大量数据平摊到每个时间点上,连续地进行小批量的进行传输,数据持续流动,计算完之后就丢弃。

(2) 批量计算是维护一张表,对表进行实施各种计算逻辑。流式计算相反,必须先定义好计算逻辑,提交到流失计算系统,这个计算作业逻辑在整个运行期间是不可更改的。

(3) 计算结果上,批量计算对全部数据进行计算后传输结果,流式计算每次小批量计算后,结果可以立刻投递到在线系统,做到实时化展现。

正式如此,与传统采用关系型数据库采集金融大数据的方式进行风险预警相比,采用流计算技术的通付盾智能风控预警平台具备以下几大优点:

1)预置海量风控模型,智能识别业务场景风险类型,快速匹配并推送风控策略,提高风控效率;

2)支持实时、准实时、离线等多种风控模式,实现万级吞吐量毫秒级响应,为实时交易保驾护航;

3)风险大盘实时预警,及时感知风险态势,灵活调整风控策略,提高风控时效性;

不仅如此,基于"流计算引擎"的通付盾风险监测预警平台利用大数据、人工智能等先进技术,有效整合反欺诈技术如设备指纹、终端威胁感知、数据治理、态势感知等技术,构建面向不同场景的智能风控策略,既满足监管机构对金融业务风险防控的相关要求,又满足了金融企业创新业务有效开展的需求。

当前在大数据发展方向上,机器学习正在逐渐从批处理、离线学习向实时处理的方向发展,实时化正在变成一种趋势,实现感知、分析、判断、决策等功能的大数据智能系统都需要流式大数据实时处理平台的支撑;此外,流式大数据实时处理可以为大数据驱动的深度学习提供计算框架支撑。

流式计算在内容方面对金融与科学计算当中的数据进行更快运算和分析的需求,将成为下一代计算引擎。通付盾大数据安全团队希望能够利用流计算研发成果,打造真正智能化的风险监测预警平台,服务更多企业客户。

五大赛道、八位专家,银行局中人眼里的AI江湖

谁说大象不能跳舞?

2020于全体银行而言,是一场无预告的终极考验,一轮最直观的金融 科技 对决。疫情让网点流量骤降到接近于0,全方位挑战银行线上服务水平,检验那些连年增加的 科技 投入,有多少真正变作数字化、智能化的一点一滴。

踏进2021,银行们迎来周密复盘、整装待发的最好时间节点。

在过去这一年,银行更努力地摆脱大象转身的刻板印象,告别以往被各路创新推着走的窘况,试图在金融 科技 和数字新基建的浪潮里承担更主动、开放的角色,以轻快敏捷的步伐持续向前。

没有一家银行不想拥抱AI,没有人愿意错过数智化转型的未来。在梳理数十家银行AI全布局,以及 「银行业AI生态云峰会」 多位嘉宾的分享过程中,我们逐渐发现银行业AI的那些挑战和困境,那些艰险之处同样是机遇所在。

数据安全与隐私保护

银行业AI,首先被AI本身正面临的数据困境,和日渐收紧的数据监管尺度拦住。

在技术维度不断向前奋进的同时,银行必然要思考的一个议题是:业务创新与隐私保护如何兼顾?

雷锋网AI金融评论主办的 《联邦学习系列公开课》 曾对这一问题展开过系统深入的探讨。第一节课上, 微众银行首席人工智能官杨强 就直接点明:“人工智能的力量来自于大数据,但在实际运用过程中碰到更多的都是小数据。”

平安 科技 副总工程师王健宗 也在课上指出,“传统的AI技术必须从海量的数据中学习或者挖掘一些相关的特征,利用数学理论,去拟合一个数学模型,找到输入和输出的对应关系,比如深度学习中训练网络的权重和偏置,模型效果与数据量级、质量、以及数据的真实性等有着密切的关系。”

一个典型例子就是银行信贷风控:现在大部分AI应用都由数据驱动,信贷风控更需要大量数据训练,但大额贷款风控的案例又非常少。“要是来做深度学习模型,只用少量这种大额贷款的样本远远不够。”杨强解释。

小数据需要“聚沙成塔”,同时又面临侵犯隐私的可能。为此,网络安全与数据合规领域的立法进入了快车道,滥用数据和爬虫也受到过严厉整治。

虽然目前《数据安全法》还只是处于草案的状态,但是草案明确提出要关注数据本身的使用,需要在保护公民组织、相关权益的前提下,促进数据为关键要素的经济发展。

数据被称作是新时代的油田,但银行该怎样通过AI摸索出更高效、更合规的开采工具?

在「银行业AI生态云峰会」第一场演讲中, 微众银行区块链安全科学家严强博士 就对银行必备的数据安全与隐私保护思维,进行了深入讨论。他指出:

在数字经济时代下,银行业AI发展 必须要尊重“数据孤岛”作为数据产业的原生态,隐私保护技术则是打破数据价值融合“零和博弈”的关键,需要打通隐私数据协同生产的“双循环”。

而 区块链 是承载数据信任和价值的最佳技术,对于隐私计算和AI应用中常见的数据品质等难题,都可以通过区块链进行互补或提升效果。

联邦学习、TEE可信计算、安全多方计算等多个AI技术路线也正尝试落地于银行的核心业务场景。

AI金融评论了解到,除了微众银行, 江苏银行 2020年也已开展联邦学习方向的 探索 ,他们与腾讯安全团队合作,基于联邦学习技术对智能化信用卡经营进行联合开发和方案部署,在联邦学习技术支持下进行金融风控模型训练。

银行数据库

以“数据”为线,银行前中后台的升级轨迹清晰可见。

如果说前些年的银行 科技 ,讨论度更集中在前台智能化应用,那么如今中后台建设开始更多地来到聚光灯下,讨论它们为银行数字化转型呈现的价值和意义。

这当中的一个重要模块,就是 银行数据库 的改造升级。

我们曾经报道,Oracle自进入中国市场以来,在银行数据库市场,一直具有压倒性优势,也是许多银行的采购首选。

由于长期使用Oracle,不少银行形成较严重的路径依赖。平安银行分布式数据库技术负责人李中原也曾向AI金融评论表示,系统迁移和重新建设需要大量成本,从单机变为多机群体,故障发生的故障发生的概率和维护成本都会加大,对整体系统运维将是巨大挑战。(详见 《银行业“求变”之日,国产数据库“破局”之时》 )

但随着银行业务创新需求愈发复杂,传统数据库在技术边界、成本、可控性方面越来越不相匹配;采购数据库的来源单一也让银行陷入非常被动的处境。

而云计算的出现,让Oracle在数据库市场接近垄断的地位有所动摇,各大互联网云厂商杀入战场。

腾讯云副总裁李纲就表示,云化数据库胜在成本低、易扩容两大特点,任意一台X86的PC服务器就可以运行,理论上也有着无限的横向扩展能力,这都是Oracle等传统数据库难以企及的优点。

中国数千家银行由此获得更多选择余地,开始从集中式数据库迁移到分布式数据库,一场事关“大机下移”的漫长征途就此展开。

这场变革已有先行者,例如 张家港行 在2019年就将其核心业务系统放在了腾讯云TDSQL数据库上,传统银行首次为核心系统选用国产分布式数据库;2020年,平安银行信用卡的核心系统也完成切换投产,新核心系统同样采用了国产数据库。

在「银行业AI生态云峰会」上, 腾讯云数据库TDSQL首席架构师张文 就深入分享了张家港行和平安银行这两个典型的数据库迁移转型案例。

以 平安银行 为例,其体量之大,意味着应用改造更具挑战性。张文解释道,为了配合此次改造,应用引入了微服务架构对应用进行了拆分和解耦。对账号的分布进行了单元化划分,以DSU为一个逻辑单元,单个DSU包含200万个客户信息,单个DSU同时处理联机和账务两种业务。

但国产分布式数据库也同样还在成长当中,张文也指出了目前金融级分布式数据库面临一系列挑战点,除了有可伸缩、可扩展的能力,更要解决高可用性、数据强一致性,同时 探索 更具性价比的性能成本,以及为金融机构打造更易上手的、更产品化的成熟解决方案。

中台建设

“中台建设”这个热门关键词,不再是互联网公司的专属。银行也不例外,甚至更需要中台。

银行这样的大型机构,架构极其复杂,还有跨部门多团队的协作,海量数据日积月累之下如同年久失修的危楼,更需要及时、持续的治理。

在看来,银行拥有大量的数据、技术和人才,资源却往往“各行其是”,部门之间没有配合意识、独立造烟囱;技术流于表面,无法链接、深入,这造成了银行资源的大量浪费。

中台 的体系化建设和顺利运转,才能将这庞大体系中的“死结”一一梳开。

建设银行 监事长王永庆就曾指出:中台建设是商业银行数字化经营转型的关键环节,认为商业银行数字化转型的必然归宿是生态化、场景化。

尽管商业银行在多年经营过程中沉淀了一定的竞争优势,形成了各具特色的内部生态系统,但目前仍是封闭的、高冷的,还无法满足数字经济对开放式生态化经营可交互、高黏性、有体感、无边界的要求。

因此,建行也已在数据中台先行一步,其落地上概括为5U(U是统一的意思),包括统一的模型管理、统一的数据服务、统一的数据视图,统一的数据规范以及统一的数据管理。

为求轻松支撑亿级用户,实现高时效、高并发场景化经营, 招商银行 近两年也在中台和技术生态体系的建设上持续发力。去年年底发布的招商银行App 9.0,迭代需求点超过1800项,“10+N”数字化中台建设就占据了相当的比重。

如何构建金融机构需要的数据中台?

在「银行业AI生态云峰会」上, 360数科首席科学家张家兴 就用“三通三快”概括了数据中台的标准:

金融机构面对着海量用户、复杂业务,一个优秀的数据中台,必须是达到多业务打通,内外数据互通和用户关系连通,同时还要做到数据的实时处理快、使用快、需求响应快。

他进一步强调,数据与AI融合得非常紧密,如果数据中台和AI中台各自建设,两者之间将不可避免地存在割裂的现象。

基于此,360数科也推出了自己的数据AI融合中台,将最上层数据平台,到中间数据服务支撑的平台服务,再到整个数据资产的管理,到最下面整个数据技术架构的设计都进行调整,并且将自身沉淀的AI能力嵌入其中。

张家兴也在云峰会的演讲上透露,360数科研发了一项联邦学习技术——分割式神经网络,通过神经网络在高维空间,Embedding不可逆的特性,使得不同参与的数据合作方只需要传递Embedding向量,见不到原始数据,但最终可以使模型产生目标效果。

银行信贷智能风控

而在过去一年里,银行信贷风险管理,仍然是最引人关注的方向之一。

关注度一方面来自于,受疫情影响而剧增的贷款逾期和坏账风险,如何借助技术手段“端稳这碗水”,把握好信贷支持尺度,成为银行、消金公司和风控技术服务商们的开年大考。(详见 《信贷战“疫”:一场给风控的开年大考》 )

而另一方面,2020年下半年起,针对金融 科技 或是互联网金融的监管“红线”逐渐清晰。例如《商业银行互联网贷款管理暂行办法》,其中就明确提出了对商业银行的风险管控要求,和对合作机构的管理规范。

尽管结合AI、大数据的智能风控在银行 科技 应用中不再新鲜,但这并不意味着智能风控已经足够成熟—— 数据资源壁垒、自有数据累积、数据特征提炼、算法模型提升 ,被认为是大数据风控目前所面临四大困境。

某商业银行负责人就曾表示,在模型建设和模型应用过程中普遍存在数据质量问题,包括外部数据的造假(黑产欺诈)和内部数据的滥用等,在模型迭代方面,很多银行只追求迭代的速度和频次,而忽略了最终效果。

前百度金融CRO、融慧金科CEO王劲 进一步指出,数据规范和治理体系不健全,数据质量差且缺失率高,技术能力不足,复合型 科技 人才匮乏等因素都是银行等金融机构无法做好模型的重要原因。

王劲曾在有着“风控黄埔军校”之称的美国运通工作17年,负责过全球各国各类产品相关的700余个模型提供政策制度和独立监控。在云峰会上,他也结合自身二十余年风控经验,剖析了金融风险管理中的那些理念误区。

“很多人并不是特别理解,风险管理永远是一个寻找平衡点的科学。”王劲认为,风险管理平衡有着这样的核心三问:

他也解析了银行等持牌金融机构做好风险管理平衡的核心要素,谈到风险管理最重要的就是对数据的把控,“金融公司成立之初就要思考数据的生命周期。首先要从对业务产品和客户的选择当中,决定需要什么样的数据。”

数据战略是一个相对长期的落地过程,机构首先要立下数据选择的原则和条件:要考虑的不只是数据的合规性、稳定性和覆盖率,更要考虑数据的新鲜度、时效性和时间跨度。

从模型建设的角度出发,王劲指出,一个卓越的风控模型应当具备辨别力、精准度、稳定性、复杂度和可解释性五大要素,“原材料”数据、模型架构和算法的选择,衍生变量的出现,对模型的监控和迭代,以及对y的定义和样本的筛选,无一不影响模型的“锻造”。

在他看来,银行等金融机构如果能在身份识别和控制、数据安全管理、风险模型管理,和自动化监控体系方面,做到高效完善,将会是非常理想的一种状态。

RPA与内部流程优化

还有一个关键词,在各家银行年报中出现频率越来越高,那就是RPA(机器人流程自动化)。此前AI金融评论也曾举办 《RPA+AI系列公开课》 ,邀请到五位头部RPA厂商高管分享RPA与金融碰撞出的火花。

RPA的定义,很容易联想到2012年左右的“流程银行”转型潮。当时的流程银行,意为通过重新构造银行的业务流程、组织流程、管理流程以及文化理念,改造传统的银行模式,形成以流程为核心的全新银行经营管理体系。

如今银行的转型之战,全方位升级为“数字化转型”,内部流程的优化改造在AI和机器人技术的加持下持续推进,RPA也迅速成为银行数字化转型不可缺席的一把“武器”。

达观数据联合创始人纪传俊 在「银行业AI生态云峰会」上指出,RPA+AI为银行带来的价值,最明显的就是减少人工作业、降低人工失误,提升业务流程效率,同时也提高风险的预警和监控能力。

AI金融评论注意到,已有多家国有大行将RPA投产到实际业务中。

以 工商银行 为例,RPA在工行的应用覆盖了前台操作、中台流转和后台支撑等多个业务场景,在同业率先投产企业级机器人流程自动化(RPA)平台并推广应用,全行累计46家总分行机构运用RPA落地实施120个场景。

建设银行 同样也引入了RPA,建立国内首个企业级RPA管理运营平台,敏捷研发业务应用场景 100 个,实现人工环节自动化、风险环节机控化。

农业银行 方面则透露,农行目前还处于技术平台建设阶段,之后将以信用卡业务、财务业务等为试点落地RPA需求。其实施策略,是建设全行统一的RPA技术平台,面向总分行各部门输出RPA服务。

中国银行 在2017年底,旗下公司中银国际就已有RPA的概念验证,团队成功投产20个机器人,分别在不同岗位执行超过30个涉及不同业务流程的自动化处理工作,也与RPA厂商达观数据展开了合作。

纪传俊也在云峰会上分享了目前AI+RPA在银行各大典型场景的落地:

例如智慧信贷,面向的是整个银行最核心的流程——信贷流程,分为贷前、贷中、贷后三大阶段。其中涉及数据查询、数据处理、财务报表、银行流水等专业环节,需要完成基础信息的录入、尽调报告的审核,而这些环节中的大量重复劳动,可以基于AI、OCR、NLP等技术自动化完成。

企业大数据之大数据征信及风控应用

企业大数据之大数据征信及风控应用

互联网人口红利区已经过去,获客成本增大,用户对产品的要求也越发提高,高价值和低成本服务是当前的一种趋势。其中,企业服务致力于为企业在生产,销售和沟通等环节提高效率,降低成本,受到越来越多的资本青睐。

随着人工智能对行业的渗透,以及数据量的剧增,越来越多的企业服务产品正利用人工智能,大数据等相关技术提供更智能服务,大数据作为人工智能模型中的训练"粮食",占据重要位置,如何挖掘和利用企业数据,是做好企业服务的一个重要途径,企业大数据来源主要有以下几个方面:

a.企业内部数据化档案,例如人事资料,纸质化资料等;

b.企业自产数据,例如企业内部OA,ERP和CRM系统所沉淀下来的客户数据,办公数据,生产经营数据,社交数据,电商数据,支付数据,供应链数据等;

c.企业信用数据

政府公开数据-比如工商的企业信用信息公示数据,失信被执行,被执行数据,裁判文书,开庭公告,法院公告,税务数据,动产融资数据,招投标,司法拍卖数据等,专利商标,行政处罚等数据。互联网公开数据-比如新闻数据,招聘网站数据,上市披露数据。

征信概述

1.征信定义

征信一词源于《左传·昭公八年》中的“君子之言,信而有征,故怨远于其身”。其中,“信而有征”即为可验证其言为信实,或征求、验证信用。现代征信是依法收集、整理、保存、加工自然人、法人及其他组织的信用信息,并对外提供信用报告、信用评估、信用信息咨询等服务,帮助客户判断、控制信用风险,进行信用管理的活动。

2.政策/技术/市场环境分析

政策

中国社会由熟人社会慢慢转变为陌生人社会,信用风险和信用危机也随之产生,加快信用体系建设迫在眉睫,然而,行政过程中尚未全面建立起“守信激励、失信惩戒”的机制,《政府信息公开条例》虽然已对政务信息公开作出了具体规定,但执行过程中,政务信息的公开尚不全面,部分信用信息的缺失,削弱了信用信息的完整性,不利于形成准确的信用状况判断.

技术

其次,互联网时代早已成为大家共识,企业和个人在网络上留下的大量数据,为征信带来了数据基础,且随着大数据,云计算,人工智能的发展,为智能化征信提供了技术支撑。

市场

另外,我国市场经济体制建立的时间不长,全社会信用意识和社会信用环境还比较薄弱。为争取经济利益而失信的行为时有发生。这既有信用意识淡薄的原因,也有失信成本过低的原因。征信作为金融的一个重要组成部分,是风险控制的核心,随着互联网金融的快速发展,适应互联网,大数据征信模式也营运而生,也亟需建立完善的征信制度来为征信发展保驾护航。

3.国内外征信模式

我国的征信出于初级阶段,目前国际上的征信模式主要有以下几种

a.市场主导型,美国,Equifa、Experian和TransUnion三大管理局按照市场经济的法则和运作机制,并对外提供服务给贷款授信企业,英国是P2P的发源地,以Zopa为代表网络贷款平台根据风险和利率水平促成借贷双方完成交易、使借贷双方都共同获益,在某种程度上发挥了信用中介职能。

b.政府主导型,德国,中国。以中国为例,主要是以政府主导,授权中国人民银行征信系统创建,收集,维护和整合全国部分企业和个人征信,目前已经覆盖了银行机构,法院,电信,社保,小额贷款等机构数据,目前覆盖个人和企业的数量上一直维持着增长势头,从2015年4月的8.64亿自然人、2068万户企业及其他组织增加到2017年5月的9.26亿自然人、2371万户企业及其他组织,中国大陆将近14亿人,企业及其他组织数量也在不断增加,征信系统覆盖范围还有很大的增长空间,总体上来讲,对企业的数据覆盖度不够,难以满足当前各种创新的金融模式对企业征信的需求。

c.行业协会共享,行业会员制,分享数据,并以行业协会为核心建立信用共享中心,加入协会的组织可以共享数据,并提供一定的数据支撑,以此扩大协会的数据源。

d.混合型,韩国、印度为例,以政府和市场混合,协同发展。

4.征信产品模式

征信行业的产品模式主要有按业务模式划分的企业和个人征信,按服务对象划分为信贷征信、商业征信、雇佣征信以及其他征信,各类不同服务对象的征信业务,有的是由一个机构来完成,有的是在围绕具有数据库征信机构上下游的独立企业内来完成。按征信范围可分为区域征信、国内征信和跨国征信等。

5.征信行业产业链

征信产业链包括上游的数据生产者、中游的征信机构及下游的征信信息的使用者,其中中游的征信机构运行模式主要有采集数据、加工数据及销售产品。数据供应商主要包括银行等金融机构、政府部门、工商企业和个人,几乎涉及人们生活的方方面面。征信机构从数据供应商处获得数据通过一定的模型进行加工处理得到信用评级结果,然后进行服务输出。征信报告使用方主要有房地产商、招聘企业、P2P平台、金融机构等,多数发生在个人购房和购车、个人小额信贷、企业信贷、债券买卖等场景。

6.面临问题

1.征信监管和法律健全亟需提高,政府信息公开有待加强,征信法律法规不够完善;

2.数据处理算法计算能力有待提高,随着大数据与征信的结合,对数据的处理,分析和建模能力提出了更高的要求,才能更好的挖掘出企业信息价值。

3.信用信息安全问题严峻,虽然国家一直在出台政策保护征信数据,但个人,企业的隐私数据安全面临十分严峻的挑战,催生了巨大的黑色产业发展,由此带来了金融诈骗,电信诈骗,网络诈骗,木马病毒窃取隐私数据进行交易获利等违法犯罪活动。

7.大数据征信与传统征信的区别

1.覆盖群体更丰富,随着网络的普及和互联网金融的大力发展,更多的人或企业将会留下数据到相关平台,扩大了征信覆盖的群体。

2.数据来源更广泛,传统征信的数据来源比较单一,但大数据征信会整合互联网公开半公开数据,第三方机构合作数据以及自由数据,数据来源变得更加广泛。

3.数据价值的深入挖掘,随着大数据和人工智能在征信行业的运用,机器学习,NLP,文本抽取等技术对企业数据的挖掘更加深入。

企业信用数据的行业运用

1.信贷风控,金融的核心是风险管理,目前主要由政府信用公示机构,比如国家企业信用查询网,中国失信被执行网,中国被执行信息网,法院网,信用中国等公开查询数据,为信贷金融机构提供贷前,贷中,贷后的信息查询,信用报告和监控等服务。

2.融资租赁,为融资租赁公司提供融前尽调,融后监控服务,提高工作人员效率,并通过集团化账号系统深入各个业务部门,提升工作质量和效率。

3.信用评级,根据企业的工商,法务,新闻,经营,债卷等多维度数据,对企业进行信用评级,常见的是债券评级.

4.供应链金融,围绕核心企业,管理上下游中小企业的资金流和物流,并把单个企业的不可控风险转变为供应链企业整体的可控风险,通过立体获取各类信息,将风险控制在最低的金融服务。

5.其他,比如招聘,商业调研和律所。

企业征信的未来展望

1.数据共享

数据作为征信和风控行业的核心资产,也是构建信用社会的基石,过分孤立或过分共享都不利于行业发展。所以,如何在实现共赢,保护隐私的基础上做到数据共享,打破数据孤岛,打通各个平台的数据通道,让不同的数据汇集在一起,共同打造征信体系,是未来的发展趋势。

2.挖掘数据价值

随着大数据征信技术的不断发展,征信产品将从信息的初次挖掘向深层次挖掘发展。初次挖掘是指围绕企业相关数据,通过自身爬取入库,第三方API接口或数据合作等方法整合并进行数据汇总分类,并以信息报告,图片等方式简单罗列呈现。深层次挖掘是将收集到的数据与征信专业知识相结合,构建风险识别与量化,规则引擎,企业关联图谱,数据可视化等产品,对数据进深度挖掘,从而深化征信产品与服务,提高征信产品的专业性。例如利用企业工商信息,建立企业关联网络,当网络上某一企业出现负面信息时,能够迅速识别风险并预警其他企业,并根据风险情况量化预警等级。

3.提供垂直,细分领域服务

随着征信市场规模的不断扩大,部分征信机构基于自身特点及优势,开始出现专注于某一细分领域或某一业务环节提供具有针对性、定制化的征信产品服务的趋势。例如提供爬虫技术,一站式爬取,清洗,整合和入库;针对新闻的舆情监控服务;提供企业获客服务,为金融机构筛选优势客户,实现精准营销;提供企业金融服务,比如理财,融资,支付和信贷;提供C2B,B2B的股权投资撮合平台等。

中国银行的大数据智能风控平台是什么

中国银行的大数据智能风控平台是一款是一款利用人工智能、大数据、自然语言处理、知识图谱技术构建的综合型在线服务平台。根据查询相关公开信息显示,平台围绕海量异构数据,全面监控海量金融实体多维风险。平台提供智能多维标签、预警信号推送、风险事件跟踪、风险传导关联、综合异构图谱等贯穿多场景全流程风险管理功能,提升金融机构风控能力。目前平台在风控、合规、投研、监管等核心金融场景得到广泛应用。

大数据风控在金融科技中的应用和问题

大数据风控在金融科技中的应用和问题

一、为什么要用大数据风控?

不论是银行还是消费金融公司,互联网小贷公司等其他金融机构,金融机构普遍有风控需求,底层业务逻辑几乎完全相同,只是面对客群,金融产品、风险偏好存在差异。

银行等传统机构本质上是风险经营。一方面,监管层对金融机构的风控能力提出很高要求, 另一方面,风控直接会影响金融机构的利润水平。

因此,大数据风控直接解决金融机构的核心需求,价值度最大。大数据风控能够能够在用户画像,反欺诈,信用评级等方面大大提高金融机构的效率和风控能力,是金融企业发展过程中必须结合的一项科技手段。

二、大数据产业情况介绍

目前大数据行业主要有三类玩家:

以人行征信、鹏元征信、前海征信、银联智策为主的数据机构,他们特点是和传统的银行,公安部,工商局,航空公司,社保局等国家机关合作,提供公民基本身份证信息、银行卡信息、航空出行信息、企业工商信息等,他们的特点是对外提供数据查询,数据丰富有价值,缺点是风控产品偏弱。以蚂蚁金服、腾讯征信、百度金融为主的互联网公司,他们的特点是各自都有一块基于电商、社交、搜索的巨量数据,同时一些外部数据,形成自己的风控产品和数据输出能力,这些互联网公司刚开始只是和自己的战略合作企业合作输出风控,现在也慢慢对外提供2B的风控产品。同盾科技、百融金服、帮盛科技、聚信立、数美科技等创业技术公司,在互联网巨头还没有对外提供风控技术和传统数据机构风控技术还不强的时候,他们的出现弥补了P2P金融和现金贷对风控产品的巨大需求,他们的数据是整合多方数据源,不断的为2B企业提供风控模型和数据,并且获得了一些网贷数据积累。

三、大数据风控的覆盖流程

大数据覆盖信贷领域各个流程,重点是获客、身份验证和授信环节,贷中后环节。

获客环节建立用户画像,跟踪用户完整生命周期;身份验证环节,通过身份验证,活体识别等技术解决申请人是否本人的问题,关联分析则是利用图关联技术,找出欺诈团伙;授信环节汇聚多方数据源,通过建模进行风险定价,金融科技服务商输出信用评分给机构使用;贷中后环节,主要是排查异常客户,及时报警,以及逾期客户失联修复等。

大数据在信贷过程中的应用

四、大数据风控的价值点分析

1.数据

大数据风控中什么是最重要的?

答案是:数据。

数据的大数据风控中的核心中的核心,没有什么比数据直接告诉金融机构某个目标客户是黑名单客户,逾期严重客户更简单和高效的事情了。

数据最好能有海量数据,覆盖足够多的用户;用户数据价值密度高、噪音少,数据清洗容易;用户数据维度多,能够形成丰富的用户画像;自身业务场景能够获取有价值数据 。

2.技术

对于有些金融机构来讲,如果风控标准很严格,其实排查不能准入的客户其实是不难的,但是对于大部分金融机构来讲,风控和业务是互斥的,为了提高业务量,就必须降低准入标准,但是又要防范风险,这就需要借助技术手段,通过反欺诈建模和信用建模方式,对一下白户进行评估,以及评估客户信用水平,以决定是否准入。

技术要求有强大的底层技术架构能力,良好的企业级产品输出能力和大数据清洗和建模能力,未来还需要结合Al等技术,形成智能的风控和反欺诈平台。

3.场景

理财,保险,汽车金融,现金贷等金融服务,对应的场景不同,对建模的要求也不同,建模能力要求对客户的业务场景非常理解,模型才能适合行业特征。需要经验丰富的建模团队和行业专家队伍;服务过行业标杆客户,了解客户的业务场景;深度理解业务需求。

五、大数据风控的在信贷中应用

我们以百融系统为例,介绍大数据风控在信贷过程中的流程:

百融大数据风控应用贷款流程

当前的信贷审批流程主要分为人工审核和自动审核,对于客户资质好,信用好的客户,只要能通过负面信息,欺诈信息,信用评估,那么系统自 动审批通过。对负面信息和欺诈风险没有通过的客户,系统可以自动拒绝或者申请人工复核,对于信用评分不高的客户,需要人工介入审核。

六、常用的大数据行业数据

央行征信报告:一般持牌金融机构有央行征信介入权限,包括个人的执业资格记录、行政奖励和处罚记录、法院诉讼和强制执行记录、欠税记录等。司法信息:最高法以及省市各级法院的最新公布名单,包括执行法院、立案时间、执行案号、执行标的、案件状态、执行依据、执行机构、生效法律文书确定的义务、被执行人的履行情况、失信被执行人的行为等信息。公安信息:覆盖公安系统涉案、在逃和有案底人员信息,包括案发时间、案件详情如诈骗案/生产、销售假药案等信息。信用卡信息:银行储蓄卡/信用卡支出、收入、 逾期等信息。航旅信息:包含过去一年中,每个季度的飞行城市、飞行次数、座位层次等数据。社交信息:包含社交账号匹配类型、社交账号性别、社交账号粉丝数等。运营商信息:核查运营商账户在网时长、在网状态、消费档次等信息。网贷黑名单:根据个人姓名和身份证号码验证是否有网贷逾期,黑名单信息。还有驾驶证状态,租车黑名单,电商消费记录等等。

七、大数据行业存在的问题

目前整个大数据行业面临的问题主要是客户隐私泄露问题,像公安,法院等信息由于信息敏感,其实是游走在法律监管空白地带。

在百行征信成立之前,各家数据机构的数据其实没有打通,数据的有效性会打折扣,预计百行征信数据出来之后,因为结合了各家数据之长,数据连贯性会好一些。

各个大数据公司在数据收集和清洗方式不同,会造成数据污染,这样输出的数据会有一定的不准确性。

目前公民数据主要来自于线下收集和网络行为记录,数据的存在一定的滞后性,单纯线下收集的数据存在一定的延迟性。

大数据还处于发展初期,目前比较大的问题还是数据量不够大,不够全,以及如何协调数据开放和公民隐私之间的矛盾,未来还需要结合人工智能和区块链,物联网等技术,实现数据的不可篡改,数据收集及时等能力,从而更好为金融服务。

如何利用大数据做金融风控

大数据能够进行数据变现的商业模式目前就是两个,一个是精准营销,典型的场景是商品推荐和精准广告投放,另外一个是大数据风控,典型的场景是互联网金融的大数据风控。

金融的本质是风险管理,风控是所有金融业务的核心。典型的金融借贷业务例如抵押贷款、消费贷款、P2P、供应链金融、以及票据融资都需要数据风控识别欺诈用户及评估用户信用等级。

传统金融的风控主要利用了信用属性强大的金融数据,一般采用20个纬度左右的数据,利用评分来识别客户的还款能力和还款意愿。信用相关程度强的数据 纬度为十个左右,包含年龄、职业、收入、学历、工作单位、借贷情况、房产,汽车、单位、还贷记录等,金融企业参考用户提交的数据进行打分,最后得到申请人 的信用评分,依据评分来决定是否贷款以及贷款额度。其他同信用相关的数据还有区域、产品、理财方式、行业、缴款方式、缴款记录、金额、时间、频率等。普惠在线

互联网金融的大数据风控并不是完全改变传统风控,实际是丰富传统风控的数据纬度。互联网风控中,首先还是利用信用属性强的金融数据,判断借款人的还 款能力和还款意愿,然后在利用信用属性较弱的行为数据进行补充,一般是利用数据的关联分析来判断借款人的信用情况,借助数据模型来揭示某些行为特征和信用 风险之间的关系。

互联网金融公司利用大数据进行风控时,都是利用多维度数据来识别借款人风险。同信用相关的数据越多地被用于借款人风险评估,借款人的信用风险就被揭示的更充分,信用评分就会更加客观,接近借款人实际风险。

常用的互联网金融大数据风控方式有以下几种:

验证借款人身份

验证借款人身份的五因素认证是姓名、手机号、身份证号、银行卡号、家庭地址。企业可以借助国政通的数据来验证姓名、身份证号,借助银联数据来验证银行卡号和姓名,利用运营商数据来验证手机号、姓名、身份证号、家庭住址。

如果借款人是欺诈用户,这五个信息都可以买到。这个时候就需要进行人脸识别了,人脸识别等原理是调用国政通/公安局 API接口,将申请人实时拍摄的照片/视频同客户预留在公安的身份证进行识别,通过人脸识别技术验证申请人是否是借款人本人。

其他的验证客户的方式包括让客户出示其他银行的信用卡及刷卡记录,或者验证客户的学历证书和身份认证。

分析提交的信息来识别欺诈

大部分的贷款申请都从线下移到了线上,特别是在互联网金融领域,消费贷和学生贷都是以线上申请为主的。

线上申请时,申请人会按照贷款公司的要求填写多维度信息例如户籍地址,居住地址,工作单位,单位电话,单位名称等。如果是欺诈用户,其填写的信息往 往会出现一些规律,企业可根据异常填写记录来识别欺诈。例如填写不同城市居住小区名字相同、填写的不同城市,不同单位的电话相同、不同单位的地址街道相 同、单位名称相同、甚至居住的楼层和号码都相同。还有一些填写假的小区、地址和单位名称以及电话等。

如果企业发现一些重复的信息和电话号码,申请人欺诈的可能性就会很高。

分析客户线上申请行为来识别欺诈

欺诈用户往往事先准备好用户基本信息,在申请过程中,快速进行填写,批量作业,在多家网站进行申请,通过提高申请量来获得更多的贷款。

企业可以借助于SDK或JS来采集申请人在各个环节的行为,计算客户阅读条款的时间,填写信息的时间,申请贷款的时间等,如果这些申请时间大大小于 正常客户申请时间,例如填写地址信息小于2秒,阅读条款少于3秒钟,申请贷款低于20秒等。用户申请的时间也很关键,一般晚上11点以后申请贷款的申请 人,欺诈比例和违约比例较高。

这些异常申请行为可能揭示申请人具有欺诈倾向,企业可以结合其他的信息来判断客户是否为欺诈用户。

利用黑名单和灰名单识别风险

互联网金融公司面临的主要风险为恶意欺诈,70%左右的信贷损失来源于申请人的恶意欺诈。客户逾期或者违约贷款中至少有30%左右可以收回,另外的一些可以通过催收公司进行催收,M2逾期的回收率在20%左右。

市场上有近百家的公司从事个人征信相关工作,其主要的商业模式是反欺诈识别,灰名单识别,以及客户征信评分。反欺诈识别中,重要的一个参考就是黑名单,市场上领先的大数据风控公司拥有将近1000万左右的黑名单,大部分黑名单是过去十多年积累下来的老赖名单,真正有价值的黑名单在两百万左右。

黑名单来源于民间借贷、线上P2P、信用卡公司、小额借贷等公司的历史违约用户,其中很大一部分不再有借贷行为,参考价值有限。另外一个主要来源是催收公司,催收的成功率一般小于于30%(M3以上的),会产生很多黑名单。

灰名单是逾期但是还没有达到违约的客户(逾期少于3个月的客户),灰名单也还意味着多头借贷,申请人在多个贷款平台进行借贷。总借款数目远远超过其还款能力。

黑名单和灰名单是很好的风控方式,但是各个征信公司所拥有的名单仅仅是市场总量的一部分,很多互联网金融公司不得不接入多个风控公司,来获得更多的 黑名单来提高查得率。央行和上海经信委正在联合多家互联网金融公司建立统一的黑名单平台,但是很多互联网金融公司都不太愿意贡献自家的黑名单,这些黑名单 是用真金白银换来的教训。另外如果让外界知道了自家平台黑名单的数量,会影响其公司声誉,降低公司估值,并令投资者质疑其平台的风控水平。

利用移动设备数据识别欺诈

行为数据中一个比较特殊的就是移动设备数据反欺诈,公司可以利用移动设备的位置信息来验证客户提交的工作地和生活地是否真实,另外来可以根据设备安装的应用活跃来识别多头借贷风险。

欺诈用户一般会使用模拟器进行贷款申请,移动大数据可以识别出贷款人是否使用模拟器。欺诈用户也有一些典型特征,例如很多设备聚集在一个区域,一起 申请贷款。欺诈设备不安装生活和工具用App,仅仅安装和贷款有关的App,可能还安装了一些密码破译软件或者其他的恶意软件。

欺诈用户还有可能不停更换SIM卡和手机,利用SIM卡和手机绑定时间和频次可以识别出部分欺诈用户。另外欺诈用户也会购买一些已经淘汰的手机,其机器上面的操作系统已经过时很久,所安装的App版本都很旧。这些特征可以识别出一些欺诈用户。

利用消费记录来进行评分

大会数据风控除了可以识别出坏人,还可以评估贷款人的还款能力。过去传统金融依据借款人的收入来判断其还款能力,但是有些客户拥有工资以外的收入,例如投资收入、顾问咨询收入等。另外一些客户可能从父母、伴侣、朋友那里获得其他的财政支持,拥有较高的支付能力。

按照传统金融的做法,在家不工作照顾家庭的主妇可能还款能力较弱。无法给其提供贷款,但是其丈夫收入很高,家庭日常支出由其太太做主。这种情况,就需要消费数据来证明其还款能力了。

常用的消费记录由银行卡消费、电商购物、公共事业费记录、大宗商品消费等。还可以参考航空记录、手机话费、特殊会员消费等方式。例如头等舱乘坐次数,物业费高低、高尔夫球俱乐部消费,游艇俱乐部会员费用,奢侈品会员,豪车4S店消费记录等消费数据可以作为其信用评分重要参考。

互联网金融的主要客户是屌丝,其电商消费记录、旅游消费记录、以及加油消费记录都可以作为评估其信用的依据。有的互联金融公司专门从事个人电商消费数据分析,只要客户授权其登陆电商网站,其可以借助于工具将客户历史消费数据全部抓取并进行汇总和评分。

参考社会关系来评估信用情况

物以类聚,人与群分。一般情况下,信用好的人,他的朋友信用也很好。信用不好的人,他的朋友的信用分也很低,

参考借款人常联系的朋友信用评分可以评价借款人的信用情况,一般会采用经常打电话的朋友作为样本,评估经常联系的几个人(不超过6六个人)的信用评分,去掉一个最高分,去掉一个最低分,取其中的平均值来判断借款人的信用。这种方式挑战很大,只是依靠手机号码来判断个人信用可信度不高。一般仅仅用于反欺诈识别,利用其经常通话的手机号在黑名单库里面进行匹配,如果命中,则此申请人的风险较高,需要进一步进行调查。

参考借款人社会属性和行为来评估信用

参考过去互联网金融风控的经验发现,拥有伴侣和子女的借款人,其贷款违约率较低;年龄大的人比年龄低的人贷款违约率要高,其中50岁左右的贷款人违 约率最高,30岁左右的人违约率最低。贷款用于家庭消费和教育的贷款人,其贷款违约率低;声明月收入超过3万的人比声明月收入低于1万5千的人贷款违约率 高;贷款次数多的人,其贷款违约率低于第一次贷款的人。

经常不交公共事业费和物业费的人,其贷款违约率较高。经常换工作,收入不稳定的人贷款违约率较高。经常参加社会公益活动的人,成为各种组织会员的人,其贷款违约率低。经常更换手机号码的人贷款违约率比一直使用一个电话号码的人高很多。

午夜经常上网,很晚发微博,生活不规律,经常在各个城市跑的申请人,其带贷款违约率比其他人高30%。刻意隐瞒自己过去经历和联系方式,填写简单信 息的人,比信息填写丰富的人违约概率高20%。借款时间长的人比借款时间短短人,逾期和违约概率高20%左右。拥有汽车的贷款人比没有汽车的贷款人,贷款 违约率低10%左右。

利用司法信息评估风险

涉毒涉赌以及涉嫌治安处罚的人,其信用情况不是太好,特别是涉赌和涉毒人员,这些人是高风险人群,一旦获得贷款,其贷款用途不可控,贷款有可能不会得到偿还。

寻找这些涉毒涉赌的嫌疑人,可以利用当地的公安数据,但是难度较大。也可以采用移动设备的位置信息来进行一定程度的识别。如果设备经常在半夜出现在 赌博场所或赌博区域例如澳门,其申请人涉赌的风险就较高。另外中国有些特定的地区,当地的有一部分人群从事涉赌或涉赌行业,一旦申请人填写的居住地址或者 移动设备位置信息涉及这些区域,也要引起重视。涉赌和涉毒的人员工作一般也不太稳定或者没有固定工作收入,如果申请人经常换工作或者经常在某一个阶段没有 收入,这种情况需要引起重视。涉赌和涉毒的人活动规律比较特殊,经常半夜在外面活动,另外也经常住本地宾馆,这些信息都可以参考移动大数据进行识别。

总之,互联网金融的大数据风控采用了用户社会行为和社会属性数据,在一定程度上补充了传统风控数据维度不足的缺点,能够更加全面识别出欺诈客户,评价客户的风险水平。互联网金融企业通过分析申请人的社会行为数据来控制信用风险,将资金借给合格贷款人,保证资金的安全。

结语:以上就是首席CTO笔记为大家整理的关于银行风控采用哪个大数据库的全部内容了,感谢您花时间阅读本站内容,希望对您有所帮助,更多关于银行风控采用哪个大数据库的相关内容别忘了在本站进行查找喔。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:/BigData/26784.html