【衍林讲堂】许伟老师“解码”大数据
现代社会的人们对“大数据”这个词并不陌生。什么叫做大数据?大数据从何而来?有哪些具体应用?能准确回答这些问题的人并不多。2016年12月27日,我校有幸邀请到中国人民大学信息学院经济信息管理系副教授、博士生导师、中国人民大学信息学院信息系统与大数据应用实验室主任许伟老师做客我校第37期“衍林讲堂”,为我校师生们讲诉金融大数据研究前沿与典型应用。我校吉万松副校长,教务科王涵科长,梁振锋副科长与百余名师生共同聆听了讲座。
什么叫做大数据?许老师说,我们对这个问题并不陌生,我们每一次在互联网的搜索,每在电子邮箱发一份邮件,每在朋友圈发一条动态,我们在互联网世界所产生的每一个数据都是最终大数据复合的基础。
正是因为大数据是由各种搜索、社交数据汇合而成,所以大数据的第一个主要来源是搜索引擎中所产生的数据,例如我们的“百度”“goggle”等搜索引擎中的数据。第二个来源是社交应用软件,例如我们的“微信” 、“QQ”、“微博”等社交平台。许伟老师研究方向是金融大数据的应用,他指出,大数据另一个来源也包括我们的金融商务,例如金融交易记录等等。
在金融大数据的具体应用方面,许伟老师和大家分享了三个成功的案例。第一个案例是基于网络搜索数据的失业率预测分析。在这个案例中他首先从传统的失业率统计入手,讲到传统方法要一年统计一次,时间间隔太长,样本采集区域和准确性都比较局限。为了更准确更科学的分析失业率,为整个金融市场提供数据预测支持,他承担了中国人民银行委托他利用大数据对失业率进行分析的项目。项目初期,他们首先分析了网络搜索信息和失业率的数据可得性。相对于传统的跑招聘会,现在人们找工作会先在网络上进行职位的搜索和筛选,所以数据的采集是可得的。在数据提取可得可靠的情况下,就可以分析网络搜索信息与失业率走势相关的特征,然后再利用数学模型对数据进行分析处理,最后在进行模型的验证,通过社会实际失业率和利用大数据预测的失业率模型进行验证,最终再完善和修正模型。
在大数据的支持下,人们可以将凌乱的信息变得有序、有规律。从大的方面来说可以为社会金融市场服务。从小的方面来说,大数据也与我们生活息息相关。许伟老师和大家分享的第二案例——信用卡防盗刷,就是如此。在当前个人信息泄露严重,电信、网络诈骗横行的时期,作为金融行业的主体——银行,有必要通过技术手段对用户的资产进行保护,而信用卡的防盗刷技术就是一个典型的例子。信用卡防盗刷技术实际上是基于用户个人海量交易数据,去刻画一个人的消费特征和习惯,当信用卡的消费习惯出现明显变化的时候就存在盗刷的可能。许老师讲到,一个12点刚在北京消费的信用卡,一个小时后在海口消费,这就存在着时间和空间的矛盾,这就有很大可能是信用卡被盗刷。所以利用大数据进行分析,进而对信用卡预警,达到保护用户财产的机制。最后许老师还与大家分享了如何利用大数据预测众筹成功的可能性等与同学们生活联系紧密的例子,让同学们认识到了大数据为我们的生活提供的各种便捷和可能。
最后,许伟老师与在场的师生针对互联网大数据的发展与个人隐私保护,以及金融大数据未来的发展趋势进行了深入的交流。
文/图 杜攀