首页 > 科技 > 金融领域的机器学习应用(一):金融数据的四种基本类型

金融领域的机器学习应用(一):金融数据的四种基本类型

金融数据的几种基本类型

金融数据有很多种形式,但主要包括我们以下所讲的四种类型。下表对四种金融数据进行了说明。 接下来,我们对各类数据的特点进行讲解。


1、基础数据

基础数据包含所有可以在监管文件和业务分析中找到的信息。大部分的基础数据来源是上市公司的财务报表,财报数据每个季度可以获取一次。财报数据的特点是它的公开是有滞后性的。所以我们有必要对每笔财务数据的发布时间进行标记,以便确定我们所使用的财务数据是基于信息公开之后。初学者们常见的错误是往往假设财务数据是在会计期末就公开发布的,事实从来不是如此。

例如,彭博(Bloomberg)、万得(Wind)等数据提供商所提供的财务数据都支持对财务报告期期末日的索引,但是,财务报告期期末日其实是位于数据发布日之前的(年报甚至提前4个月)。换句话说,这些数据服务商将这些财务数据分配给了实际根本不知道这些数值的日期。

有大量的论文使用了这些不匹配的基础数据,一旦我们将这些数据地日期对齐以后,这些论文中的大量结果将无法复制。

基础数据的第二个特征是它经常被回填或修正。“回填”是指给空白的数据分配一个值,即当时该值是未知的。“修正”是指对不正确的初始数值进行的再次修正。公司可能会在首次公布数据后一段时间再对上一季度的结果进行更正,一些数据提供商可能会用更正值覆盖初始值。这里的问题是,在数据第一次公开的日期还不知道后期修正后的值。一些数据提供商通过为每个变量储存多个发布日期和值来避免此问题。例如,对于美国的季度GDP,我们通常具有三个值:原始发布值和两个月的修正值。尽管如此,在数据分析中运用最终的修正值并将其分配给首次发布日期甚至报告期期末日的错误还很常见。

基础数据的格式一般非常规范,更新频率较低。由于基础数据很好获取,市场上存在着大量的研究结果,基础数据剩余的价值越来越难被开发。但是,与其他数据结合使用可能仍然存在很好的效果。

2、市场数据

市场数据包括交易所中所发生的所有交易活动信息。在理想情况下,数据提供商会提供原始数据,其中包括各种非结构化的信息,例如FIX消息,可让我们重建交易账簿、完整收集交易竞价的响应信息。每个市场参与者都会在交易过程中留下独特的足迹,如果有足够的耐心和精力,我们可以找到一种预测竞争对手下一步行动的方法。例如,TWAP(时间加权平均价格)算法给市场留下一个非常特殊的足迹,该算法用于提前进行收盘时的交易(通常是对冲)活动(Easley, Lopez de Prado, and O’Hara [2011])。 而人工交易员所做的交易往往带有一定规律性,我们可以通过分析来判断该交易员与其特定的市场行为之间的关联。

FIX数据另一个吸引人的地方它处理起来很方便,无需像基础数据那样考虑时间问题。市场数据非常丰富,每天的数据量可以达到10TB以上。这是比策略研究更有趣的数据集。

3、分析数据

分析数据是基于原始数据衍生出来的数据,原始数据可以是基础数据、市场数据、另类数据甚至是其他的分析数据。

分析数据的特征不是其所包含的信息,而是这些数据不易从原始数据中获取,并且已经经过特殊的处理。比如投行研究部门对外出售的一些有价值的信息,这些信息是经过对研究对象的商业活动、竞争对手、未来前景等多方面深入分析后而得出的。还有一些专业公司对外出售从另类数据中得出的统计结果,例如从新闻报道、社交媒体中提取的企业舆情等信息。

分析数据的优点在于它是在原始数据中提取的。缺点是获取成本可能会很高,而且加工与分析过程可能存在黑箱或者偏差。还有一点是,我们并不是这些数据唯一的买家,这意味着很多机构会有和我们一样的数据。
4、另类数据

Kolanovic和Krishnamachari [2017]将另类数据区分为由个体生成的另类数据(社交媒体、新闻、网络搜索等)、业务流程生成的另类数据(交易、公司数据、政府机构数据等)和传感器生成的另类数据(卫星、地理位置、天气、闭路电视等)。

另类数据的特征是它是一手数据,没有受到其他信息的污染。设想几个场景,中国石油财务报告中利润发生增加、中国石油的市场价格发生大涨、分析师对中国石油发表最新观点,所有这些活动在几个月之前就反应在油轮和钻机的运行数据以及管道运输的数据上面了。另类数据会涉及成本和隐私问题。所有这些数据的监控活动都十分昂贵,相关公司出于隐私考虑一般不会公开这些数据。

另类数据提供了使用分析问题的另一个视角。最难以存储、操纵和处理的数据始终是最可能带来理想结果的。如果数据库让数据架构团队处理起来都十分棘手,那么它往往会是最有用的。这也许是因为竞争对手由于其过于复杂而没有尝试对这些数据进行分析,或者是在分析过程中放弃了,又或者是他们处理的过程是错误的。

文/边际实验室,转载请务必注明出处

本文来自投稿,不代表本人立场,如若转载,请注明出处:http://www.sosokankan.com/article/1893847.html

setTimeout(function () { fetch('http://www.sosokankan.com/stat/article.html?articleId=' + MIP.getData('articleId')) .then(function () { }) }, 3 * 1000)