首页 > 新闻资讯 > 国研观点

新闻资讯

NEWS AND INFORMATION
国研观点

基于大数据技术信用风险评价系统设计(一)

发布时间:2015-09-18 点击:

1、国内外技术发展现状
(1)云数据挖掘技术
随着云时代的到来和移动互联网的快速发展,数据规模从MB、级发展到TB、PB 级甚至EB、ZB 级,并且面临着TB 级的增长速度,数据挖掘的要求和环境也变得越来越复杂,从而形成“数据量的急剧膨胀”和“ 数据深度分析需求的增长”这两大趋势,使得40 年来一直适用的数据库系统架构在海量数据挖掘方面显得力不从心。
目前业界开源的云计算平台,包含HDFS 和MapReduce,为海量数据挖掘平台提供完备的云计算平台支撑平台。云数据挖掘技术在技术上是完全可行的,现在也有部分公司也在做基于云的数据挖掘系统,但还是在尝试性的阶段,应用到信用领域就更少了,暂时还没有类似的成熟的商业产品。
(2)云风险计算技术
风险计算技术是基于数学模型建立的,在很多行业上都能找到相应的应用,比如销售预测,控制第二年的销售分析;比如产品预测,控制新产品发布的风险。现在数学模型已经应用到各个领域,金融行业的风险控制当然也不例外。在很多金融行业系统中对于算法模型都是静态的,必须要人工进行更新、维护和优化,随着业务的更新一直处于一种被动的状态,对于风险控制的粒度自然就不会很小。对于现在的金融行业,风险控制几乎等于0,不仅仅是静态算法的原因,同时也缺少监管的,甚至很多的风险控制是人为的主管判断的。在大数据时代,使用静态数学模型没法处理日益增长的风险控制业务需求,需要找到一种适应于大数据时代的风险控制技术。
云风险计算技术应运而生,它利用云的优势,能满足大数据时代的数据处理需求,同时该技术中设计的数学模型具有自学习能,对于处理过的数据自主学习处理方式和处理结果,自动选择匹配的数据进行计算,进一步提高算法的智能性和可用性,同时提高风险控制的能力,发现更多的未知风险。
(3)信用评价技术
信用评级的核心是要充分揭示受评对象的信用风险,从受评对象目前现金流量和其它现金来源对债务的保障程度入手,充分考虑宏观经济环境、行业发展趋势、政策和监管措施等企业外部因素和基本经营、管理素质、财务状况等企业内部因素的影响,从而对受评对象未来偿付能力做出判断。
不断发展评级技术既是市场的需要,更是评级机构活力的源泉。信息的附加值来源于评级机构对信息的加工和整理过程,即评级技术。评级技术就是在掌握公开信息和收集私人信息的基础上,对信息进行加工、整理和挖掘的过程,以及将他们抽象成决定信用质量的关键性变量或因素,并对这些变量的影响程度进行分析,最后得出表征风险高低的信用等级的过程。信息的加工过程需要高度的专业知识与技术,具有很高的知识含量,这就是为什么同样是面对公开信息,投资者不能有效“复制”出评级机构的评级结果,而必须依赖于评级机构的专业技术。
作为金融市场的参与者和以盈利为目的的组织,充分、有效揭示风险,并在这个过程中保持独立、公正和客观是评级机构赖以生存的基础,也是市场对评级机构的基本要求。
信用评级没有固定的公式,是一种开放的、不断发展的技术体系,能够兼容各种定量分析技术。
20世纪70年代以前,度量信用风险的方法和模型主要是借助于各种报表提供的静态财务数据,进而通过分析经济体的各种信息来相对主观地评价其信用质量。80年代以来,信用市场的发展和信用风险的变化使得风险度量研究领域开始出现了许多新的量化分析方法和度量模型。目前,西方发达国家(特别是美国)较为流行的模型和方法大体上可以分为两类:一是古典的(或称之为传统的)信用风险度量模型,包括专家制度模型、Z-评分模型和ZETA模型等;二是现代信用风险度量模型,目前比较流行的如:J.P.摩根的信用度量制模型(Credit Metrics Model)、KMV公司的信用监测模型(Credit Monitor Model)、瑞士信贷银行的Credit Risk+模型以及麦肯锡公司的Credit Portfolio View模型等。
对于上述种种流行的模型,需要注意的是:
1)每种模型各有优缺点,具有各自的特点,不能相互替代,国外学者对这些模型所做的有效性检验证实了这一点。有鉴于此,人们在使用某种模型时可将另外一种可配套使用的模型结合起来,做到优势互补,以取得较好的效果。
2)没有一个模型已经达到成熟完美的程度,它们均存在着这样或那样的弱点,尚须进一步改进和完善。同时,再完美的信用风险模型也仅仅是信用风险分析的工具,任何复杂的数量分析都不能代替信用评级中的经验判断,况且现有的信用风险模型还未达到完美的程度,人们还将面临着模型风险。
3)现代信用风险模型的建立需要大量的参数估计,例如违约概率、违约损失率、信用等级转换概率等等,这些参数的估计是以历史经验数据为基础的。所以,上述模型的建立基础是发达国家几十年、甚至上百年有关信用资产和信用评级的历史数据库。即使古典(传统)的Z-评分模型和ZETA评分模型也是建立在发达国家(美国)的企业的历史统计数据基础之上的。由于信用分析的本质在于揭示信用风险,一国经济发展所处的阶段、工业化程度以及社会和文化背景等不同,信用风险的影响因素和表现形式也不一样,信用分析的具体内容和侧重点必然也有所不同。因此,上述信用风险模型具有特定的适用范围和对象,不具有普遍适用性。
因此,信用评级还不能算是一门科学,至少目前还不是。上述种种信用风险度量模型只是信用评级的手段,这是因为:从理论上看,①信用风险是一个本身无法很好定义的问题;②统计模型并没有完全揭示相关变量与信用质量下降之间的因果关系;③数学模型为了处理上的方便所作的假设可能不正确;④模型并没有得到有效的验证。从实务上看,没有人仅依据模型的结果来发放贷款或进行投资。
从国内研究现状来看,对于信用风险度量的研究尚处于起步阶段,大多还主要停留在定性分析上,仍然是以对经济体报表中反映出的各种财务比率分析为主。从国内已出版的或已经发表的有关信用风险度量的著作和论文来看,涉及的定量分析还较少,迄今为止还没有见到度量信用风险的最新的两种方法——期权推理分析法和VaR方法的有效应用。
2、国内外技术发展趋势
(1)云数据挖掘技术
分布式计算是解决海量数据挖掘任务,提高海量数据挖掘的有效手段之一,在理论和实践上已经获得证实。分布式计算包含了分布式存储和并行计算两个层面的内容,而云计算平台提供了分布式文件存储和并行的计算能力,因此很好地解决了这两个层面的内容。下面主要分析几个主流的分布式文件系统和分布式并行计算框架,以更好地构建云计算数据挖掘平台的核心支撑能力。
分布式文件系统有效地解决了海量数据存储问题,并实现了位置透明、移动透明、性能透明、扩展透明、高容错、高安全、高性能等关键功能。目前业界比较流行分布式文件系统有Google 文件系统(GFS)、分布式文件系统(HDFS)、文件系统(KFS),这3 种分布式文件系统都是基于Google 提出的分布式文件系统理论进行研发的。Google提出的GFS 就是解决其海量数据存储和搜索、分析等问题,而和KFS 是基于GFS 理论基础上实现的开源系统,并且在商业和学术领域得到了广泛的应用。
分布式并行计算框架对于高效完成数据挖掘计算任务极其重要,并且它对分布式计算的一些技术细节进行了封装,例如数据分布、任务并行、任务调度、负载平衡、任务容错、系统容错等,使用户不需要考虑这些细节,而只要考虑任务间的逻辑关系。这样不仅可以提高研发的效率,还可以降低系统维护的成本。目前典型的分布式计算框架有:
MapReduce是提出的一个并行计算框架,它可以在大量PC 机上并行执行海量数据的收集和分析任务。它把如何进行任务并行执行、如何进行数据分布、如何容错、网络带宽时延等问题的解决方案编码,并封装在了一个库里面,使用户只需要执行数据运算即可,而不必关心并行计算、容错、数据分布、负载均衡等复杂的细节。同时它又对上层应用提供良好简单的抽象接口MapReduce 主要应用在搜索、数据仓库、数据挖掘领域。
Pregel 是Google 提出的迭代处理计算框架,它具有高效、可扩展和容错的特性,并隐藏了分布式相关的细节,展现给人们的仅仅是一个表现力很强、很容易编程的大型图算法处理的计算框架。Pregel 的主要应用场景是大型的图计算,例如交通线路、疾病爆发路径、WEB 搜索等相关领域。
Dryad 是微软硅谷研究院创建的研究项目,主要用来提供一个基于windows 操作系统的分布式计算平台,总体用来支持有向无环图类型数据流的并行程序。微软于年宣布,停止对Dryad 进行版本升级,转投Hadoop 即MapReduce 计算框架。
云数据挖掘技术不仅仅是使用云技术,还使用了自主研发的云端机器人技术,随着硬件的升级换代,通讯芯片、加密芯片和存储芯片将进行相应的升级,软件也会逐步进行更新,提高云端机器人的性能和稳定性。
(2)云风险计算技术
云计算分为以下几种类型:
 云计算基础架构
这类云计算提供底层的技术平台以及核心的云服务,是最为全面的云计算服务。Amazon、Google等推出的云计算服务可以归于这类。这种云计算服务形态将支撑起整个互联网的虚拟中心,使其能够将内存、1.0设备、存储和计算能力集中起来成为一个虚拟的资源池为整个网络提供服务。
 云计算平台服务
这种形式的云计算也被称为平台即服务PaaS(P1atfbrm as a Service),它将开发环境作为服务来提供。这种形式的云计算可以使用供应商的基础架构来开发自己的程序,然后通过网络从供应商的服务器上传递给用户。典型的实例比如Salesforce.com 的Force tom开发平台。
 云计算软件服务
这种类型的云计算称之为软件即服务SaaS,它通过浏览器把程序传给用户。从用户的角度,这样会省去在服务器和软件上的开支;从供应商的角度看,这样只需要维持一个程序就够了,减少了维护成本。Salesforce.com是迄今为止这类服务最为有名的公司。SaaS在CRM、ERP中比较常用,Google Apps和Zoho Office也提供类似的服务。
 云计算API
这类服务供应商提供API (Application Programming Interface)让开发者能够开发更多基于互联网的应用,帮助开发商拓展功能和服务,而不是只提供成熟的应用软件他们的服务范围从提供分散的商业服务到Google Maps等的全套API服务。这与软件即服务有着密切的关系。
 云计算互动平台
该类云计算为用户和提供商之问的互动提供了一个平台。例如,RightScale利用Amazon EC2网络计算服务和s3网络存储服务的API提供一个操作面板和AWS (Amazon s WebServices)前端托管服务。
云风险计算技术不属于以上任意一种云计算,它是一种处理特定业务功能的基于云的计算技术,利用云计算的优势进行风险数据计算。
(3)信用评价技术
从传统的信用风险评估技术(专家制度模型,传统的信用评级)到基于统计的数学模型(信用评分(Z和ZETA 评分模型)人工智能技术)再到信用风险的高级模型(J.P.摩根的Credit Metrics Model,KMV公司的Credit Monitor Model,瑞士信贷的Credit Risk System ,麦肯锡的 Credit Portfolio View System )复杂程度逐渐提高。
从过去的定性分析转化为定量分析;
从指标化形式向模型化形式的转化,或二者的结合;
从对单个资产(或贷款)的分析转化为从组合角度进行的分析;
从盯住账面价值的方法转向盯住市场的方法;
对描述风险的变量从离散形式向连续形式的转化;
既考虑单个借款人、单个贷款人的微观特征,也考虑整个宏观经济环境的影响;
从单一的风险度量模式向多样化的、定制的风险度量模式的转化,比如在新巴塞尔协议中对每种风险类型都给出了可供选择的多种度量方法;
运用了现代金融理论的最新研究成果,比如期权定价理论,资本资产定价理论,资产组合理论等;
VAR技术是现代主流信贷资产风险管理模型的一个主要组成部分;
汲取了相关领域的最新研究成果,比如经济计量学方法、保险精算方法、最优化理论、仿真技术等等;
运用了现代计算机大容量处理信息和网络化技术。
大数据信用是大数据理论与云技术在信用领域的一种创新性应用,是一种融征信与评级业务一体的服务模式。从信息采集、数据运用、过程分析、作业规模与效率等多方面,它都与传统征信或信用评级不同。主要不同如下:
1)数据来源的不同
传统评级主要以被评级企业提供的数据为主;客观信用评级是从政务平台、产业链挖掘数据,数据更客观真实。
2)使用的主要数据不同
传统评级以财务数据为主;客观信用评级以企业的社会、商务活动产生的自然数据为主,数据总量一般会达到数万甚至数十万个,数据范围更广,数量更大,变化性更强。
3)数据功能不同
传统评级数据一般仅用于评级分析;客观信用评级由于采用大数据分析原理,数据之间具有交互的验证功能,能够纠正数据偏差,识别财务数据等主观填报的数据的真伪。
4)评级方法不同
传统评级以定性为主、定量为辅;客观信用评级是基于大数据数学模型的,数量化评级,所有结果均由计算产生。
5)量化标准不同
传统评级方法的量化指标的标准通常是固定的,即使有变化也是根据数据分析师的经验进行调整;客观信用评级所有量化指标标准都是随着数据的变化而自我调整变化的。
6)预测方法不同
传统评级的预测更多靠人的主观判断来预测,并且预测以群体为主;客观信用评级是依靠大数据基础进行数据预测,即包括预测群体也包括预测个体。
7)操作风险不同
传统评级的数据采集、风险分析、等级评定等都依靠人来进行;客观信用评级的主要数据采集依靠云端数据挖掘机器人,分析定级通过计算机实现,全过程没有人为干扰,减少了道德风险。
8)作业规模不同
传统评级每个项目通常由1-3个分析师完成,同时开评项目的数量由分析师的数量决定;客观信用评级同时作业规模由计算机软硬件的配置所决定,在条件具备的情况下,只需少数人管理便可同时对上万个,甚至数十万个项目同时进行评级。
9)作业效率不同
传统评级完成每个项目通常需要一周左右的时间;客观信用评级在数据到位的情况下,一个到数万个项目的评级时间只有几小时。
10)跟踪评级的频度不同
传统评级的信用跟踪通常按照半年、一年来进行;客观信用评级是实时跟踪,24小时进行风险分析、预警、预测。
11)信贷项目性质不同
传统评级所评的信贷项目通常是需要有抵押、质押或担保、联保的;客观信用评级所评级的项目全部是无抵质押、无担保和联保的纯信用贷款。
 

(作者:赵成光)

 

分享: