您当前的位置:股票 > 财经资讯 > 财经频道

高质量数据的特征有哪些?数据的完整性有哪些?

2024-06-15 23:17:50 来源: 作者: admin888
分享到
关注牛市通网在线:
  • 扫描二维码

    关注√

    牛市通网微信

在线咨询:
  • 扫描或点击关注牛市通网在线客服

高质量数据的特征有哪些?数据的完整性有哪些?

高质量的数据通常具有几个特征,比如可以提供一致的历史观测值、保持良好的数据可获得性、没有生存偏差和前置偏差。由于所有的数据集都有其局限性,所以对于数据研究人员来说能够识别数据的局限性并相应地调整数据是很重要的。

研究中使用的数据应当能够提供一致的历史观测值。数据回填和数据重报是影响财务数据一致性的两个常见问题。如果公司在当期首次进入到数据库时它的历史数据也被加了进去就会发生数据回填问题。这个回填数据的过程将会造成选择偏差,因为我们现在能够找到这家最近入库的公司的历史数据,而在此前是不可获得的。数据重报也是影响数据一致性的一个常见的因素。比如,如果一家公司在首次公布盈利数据后又修改了其每股收益,那么许多数据库将用最新公布的数据覆盖原先的记录。

与金融数据库有关的一个常见而普遍的问题就是数据的可获得性。第一,某些数据可能只在较短的时间内存在。比如,在过去很多年中,将股票期权授予雇员时相关的费用并不需要在财务报表中披露。直到2005年会计标准才要求公司将股票期权的相关费用反映在损益表中。第二,数据可能只在公司横截面的部分公司中可以获得。有些公司有研发支出而有的则没有,当然这取决于它们所处的行业。比如,许多制药公司都会有研发支出,而公用事业单位却没有。第三,数据可能仅仅因为在某些特定时间点没有被记录而无法获得。有时这种情况只出现在几个观测值上,而有时这种情况可能出现在一个公司的某项数据的整个时间序列上。第四,不同的数据项有时会被合并。比如,有时折旧及摊销费用并不是损益表上的独立科目,而是被包含在商品的销售支出中。第五,某些数据项只在某个特定的期间内存在。比如,一些公司的季度财务报告比较详细,而其他公司的年度报告数据可能更为详细。第六,不同的公司、部门或行业公布的数据可能是不一致的。当财务数据提供者在将出自公司报告的财务数据转化为特定的数据库项目(不完全的映射)过程中忘记或者没有做出正确的调整时就会发生上述情况。

对于这些问题,一些数据库提供特定的代码来标识导致数据缺失的原因。有一个能够区分导致数据缺失的不同原因并作出调整和修正的程序是十分重要的。

另外两个与数据库有关的常见的问题是生存偏差和前置偏差。当公司因为不再存续而从数据库中被剔除时就会出现生存偏差。比如,公司可能因为合并或破产而被剔除出数据库。因为只有成功的公司才会被包含在整个样本中,所以这种偏差可能会歪曲结果。当研究中使用的数据在实际的分析期内是不可得到的时候就会产生前置偏差。比如,在报告期末立即使用年终收益数据是不正确的,因为这些数据直到本报告期末的数天或数周后才会由该公司公布。

数据调整是在处理多个数据库时需要考虑的另外一个问题。很多数据库都使用不同的标识来代表一个公司。一些数据库有自己特定的标识,而另外一些则使用共同的标识,比如CUSIPs或股票代码。不幸的是,CUSIPs和股票代码经常随时间而改变并且往往被重复使用。这样一来就使得将在不同数据库,不同时间点中的同一个证券联系起来变得困难。

举例:EBITDA/EV因素。

本例将说明数据处理的细微差别是如何影响某项特定研究的结果的。我们使用Compustat Point-In-Time数据库中的数据并计算出 EBITDA/EV。 这一因素定义为未扣除利息、税收、折旧及摊销的收益与企业价值的比值(EBITDA/EV)。 我们的股票池是从1989 年 12 月至2008年12月的去除金融公司股票之后的Russell 1000指数中的股票。我们用两个等价的但不同的方法来计算EBITDA/EV。两种方法的不同之处在于计算分子(EBITDA)时使用的数据不同:

1.EBITDA=销售收入(Compustat数据的第2项)一商品成本(Compustat数据的第30项)一销售及一般行政开支(Compustat数据的第1项)。

2.EBITDA=折旧前营业收入(Compustat数据的第 21 项)。

根据 Compustat数据库手册,有如下等式成立:

折旧前营业收入=销售收入一商品成本一销售和一般行政开支

尽管这个数学等式是成立的,但我们通过数据发现并不是这样情况。当我们分别计算了这两个因素之后,我们分别得到了这两个因素值最高的前20%的投资组合并比较组合之间个人持股量的排名。图6.1显示了两个投资组合之间关于公司排名的比例的差异。我们发现其结果是不相同的。事实上两者之间存在着巨大差异,尤其是在早期的时候。也就是说,这两个在数学上等效的方法并不能得出相同的实证结果。

牛市通网是一个牛股推荐网与低风险投资知识网,可以在线联系客服领取牛股。牛市通网从权威的投资专家、金融分析师等投资信息中挑选优质的文章进行发布。牛市通网主要为投资者提供股票知识、股票观点、股票分析和明智金融投资讨论等信息。

责任编辑:admin888 标签:高质量数据的特征有哪些?数据的完整性有哪些?
广告

热门搜索

相关文章

广告
牛市通网 |财经频道

高质量数据的特征有哪些?数据的完整性有哪些?

admin888

|

高质量数据的特征有哪些?数据的完整性有哪些?

高质量的数据通常具有几个特征,比如可以提供一致的历史观测值、保持良好的数据可获得性、没有生存偏差和前置偏差。由于所有的数据集都有其局限性,所以对于数据研究人员来说能够识别数据的局限性并相应地调整数据是很重要的。

研究中使用的数据应当能够提供一致的历史观测值。数据回填和数据重报是影响财务数据一致性的两个常见问题。如果公司在当期首次进入到数据库时它的历史数据也被加了进去就会发生数据回填问题。这个回填数据的过程将会造成选择偏差,因为我们现在能够找到这家最近入库的公司的历史数据,而在此前是不可获得的。数据重报也是影响数据一致性的一个常见的因素。比如,如果一家公司在首次公布盈利数据后又修改了其每股收益,那么许多数据库将用最新公布的数据覆盖原先的记录。

与金融数据库有关的一个常见而普遍的问题就是数据的可获得性。第一,某些数据可能只在较短的时间内存在。比如,在过去很多年中,将股票期权授予雇员时相关的费用并不需要在财务报表中披露。直到2005年会计标准才要求公司将股票期权的相关费用反映在损益表中。第二,数据可能只在公司横截面的部分公司中可以获得。有些公司有研发支出而有的则没有,当然这取决于它们所处的行业。比如,许多制药公司都会有研发支出,而公用事业单位却没有。第三,数据可能仅仅因为在某些特定时间点没有被记录而无法获得。有时这种情况只出现在几个观测值上,而有时这种情况可能出现在一个公司的某项数据的整个时间序列上。第四,不同的数据项有时会被合并。比如,有时折旧及摊销费用并不是损益表上的独立科目,而是被包含在商品的销售支出中。第五,某些数据项只在某个特定的期间内存在。比如,一些公司的季度财务报告比较详细,而其他公司的年度报告数据可能更为详细。第六,不同的公司、部门或行业公布的数据可能是不一致的。当财务数据提供者在将出自公司报告的财务数据转化为特定的数据库项目(不完全的映射)过程中忘记或者没有做出正确的调整时就会发生上述情况。

对于这些问题,一些数据库提供特定的代码来标识导致数据缺失的原因。有一个能够区分导致数据缺失的不同原因并作出调整和修正的程序是十分重要的。

另外两个与数据库有关的常见的问题是生存偏差和前置偏差。当公司因为不再存续而从数据库中被剔除时就会出现生存偏差。比如,公司可能因为合并或破产而被剔除出数据库。因为只有成功的公司才会被包含在整个样本中,所以这种偏差可能会歪曲结果。当研究中使用的数据在实际的分析期内是不可得到的时候就会产生前置偏差。比如,在报告期末立即使用年终收益数据是不正确的,因为这些数据直到本报告期末的数天或数周后才会由该公司公布。

数据调整是在处理多个数据库时需要考虑的另外一个问题。很多数据库都使用不同的标识来代表一个公司。一些数据库有自己特定的标识,而另外一些则使用共同的标识,比如CUSIPs或股票代码。不幸的是,CUSIPs和股票代码经常随时间而改变并且往往被重复使用。这样一来就使得将在不同数据库,不同时间点中的同一个证券联系起来变得困难。

举例:EBITDA/EV因素。

本例将说明数据处理的细微差别是如何影响某项特定研究的结果的。我们使用Compustat Point-In-Time数据库中的数据并计算出 EBITDA/EV。 这一因素定义为未扣除利息、税收、折旧及摊销的收益与企业价值的比值(EBITDA/EV)。 我们的股票池是从1989 年 12 月至2008年12月的去除金融公司股票之后的Russell 1000指数中的股票。我们用两个等价的但不同的方法来计算EBITDA/EV。两种方法的不同之处在于计算分子(EBITDA)时使用的数据不同:

1.EBITDA=销售收入(Compustat数据的第2项)一商品成本(Compustat数据的第30项)一销售及一般行政开支(Compustat数据的第1项)。

2.EBITDA=折旧前营业收入(Compustat数据的第 21 项)。

根据 Compustat数据库手册,有如下等式成立:

折旧前营业收入=销售收入一商品成本一销售和一般行政开支

尽管这个数学等式是成立的,但我们通过数据发现并不是这样情况。当我们分别计算了这两个因素之后,我们分别得到了这两个因素值最高的前20%的投资组合并比较组合之间个人持股量的排名。图6.1显示了两个投资组合之间关于公司排名的比例的差异。我们发现其结果是不相同的。事实上两者之间存在着巨大差异,尤其是在早期的时候。也就是说,这两个在数学上等效的方法并不能得出相同的实证结果。

牛市通网是一个牛股推荐网与低风险投资知识网,可以在线联系客服领取牛股。牛市通网从权威的投资专家、金融分析师等投资信息中挑选优质的文章进行发布。牛市通网主要为投资者提供股票知识、股票观点、股票分析和明智金融投资讨论等信息。


财经频道