日期:2023-01-24 阅读量:0次 所属栏目:财政金融
一、引言
随着外汇管理数据采集和信息系统不断发展与完善,其数据组织趋向丰富与合理,同时数据量也日趋庞大。大数据时代的到来,亟须数据挖掘的方法获取潜在但未知的规律(模式),为外汇业务监管提供新的技术手段与数据支撑。本文通过数据挖掘中经典的聚类分析算法在外汇统计数据中的实践应用,提出划分分类管理主体对象的一种计算方法。
二、聚类分析简介
聚类分析(cluster analysis)简称聚类(cluster),是指将给定记录的集合划分为若干个“聚簇”,这种划分要使同簇内记录相似度较大而不同簇之间的差异较大。与分类或回归等有监督学习方式不同,聚类的输入对象并没有相关联的目标。不同聚类算法对不同数据集合以及目标的适用性也不同,对某应用而言相对“最优”的聚类是需要多种聚类算法去尝试的,然后根据实际需要去确定最合适的算法。
三、k-means(k-均值)算法
k-means算法是一种基于图形中心的算法。设输入对象数据集D={xi|i=1,2,...,N},xi表示第i个记录或对象。该算法将D划分为k个聚簇,把每个xi都归类到唯一的簇中,聚簇标识相同的xi属于同一个簇。关于k值即簇的数量是依据某些先验知识或者经多次尝试确定,应是以聚类结果的实用性与有效性为依据的。聚类算法是以对象间的相:
由公式可以看出,目标函数要使每个xi与距离其最近的簇中心cj之间欧氏距离的平方和最小,算法简略描述如下[2]:从数据集D中随机选取k个数据点作为初始集合C;将D中每个xi重新划分到与其最近的ci代表簇中,更新其聚簇标识mi(m为聚簇标识向量);更新聚簇均值向量C;直到目标函数Cost值收敛,否则转向第二步。
四、实验结果与分析
分别以2014年6月安徽省跨境收支按银行和地区汇总结果为实验数据对象,使用聚类分析工具为spss clementine。将EXCEL数据导入至clementine,k取值为3。聚类结果如表1和表2所示,其中“距离”列标识该记录数据点距该簇最终均值位置的欧几里得距离。
从聚类结果可以看出表1中,A独立为1簇,另5家业务量较大分行为1簇,其余18家银行为1簇;表2中,A市为1簇,B市、G市外汇业务量较大为1簇,其余13个地市为一簇。所得结论与按业务量经验划分结果基本相符(实验数据来源为真实交易业务发生数据,统计表格隐去真实银行名称、地市名称和交易额数字)。
表1 按银行收支聚类结果
表2 按地区收支聚类结果
当决策者或外汇业务相关主管部门需要根据各地区或各金融机构的外汇业务规模、特性或其他属性为其制定执行不同的政策,首先要做的就是将这些机构或地区进行分类。传统做法是根据须纳入考量的因子加权后进行排序,然后依据直观结果或主观经验判断各类型的边界。此种方式存在三个主要问题,一是如果需要考量的属性或因子太多,无法通过线性计算简单表达,难以确定归类“顺序”。事实上,多维空间问题用简单的线性方法解决本身也是不科学的。二是类与类之间的边界难以划定,如果边界对象与相邻两类较为接近,那么究竟将其划入哪一类呢?三是分类的个数如何确定。如计划执行阶梯型政策时,如何科学的确定阶梯层级数量?聚类分析可以较好的解决以上问题:从前文算法可知聚类中记录xi之间的相似性或距离计算本身就是基于多维空间的;其计算结果是能够精确表达多维空间的数据点之间距离远或近的;可以通过不同k值的尝试获得较“理想”的聚簇,即要使得簇内相似度高而簇间差异大。由此可见聚类分析能够较好的解决以上三个问题。
五、总结
随着大数据时代的到来,数据挖掘技术日益受到社会各行业的重视并逐渐得到广泛应用。经济的连续高速发展和国家开。
参考文献
.清华大学出版社,2013.5,19-20.
[2](美)韩家炜(Han,J.)等著,范明等译著.《数据挖掘:概念与技术》[m].机械工业出版社,2012.7,293.
[3]邢江泽,陆秉炜,刘可,李兴勇.数据挖掘在外汇管理中的应用——基于聚类和关联分析的实践[J].中国外汇苏皖专刊.2009,14-15.
下一篇:互联网金融背景下的征信模式的创新