离群值的检测方法有哪些?离群值如何管理?
admin888
|离群值的检测方法有哪些?离群值如何管理?
离群值是与数据集中的其他值不一致的观测值。财务数据包含离群值的原因有很多,包括数据错误、测量误差或者异常事件的发生。用包含离群值的数据进行解释可能会产生错误的结果。例如,我们的估计可能是存在偏差的或者歪曲的,从而导致错误的结论。
我们有几种方法可以检测离群值。图形中的盒状图、散点图或直方图对于从视觉上直观地识别离群值是非常有用的。此外还有许多可用的数值方法。一个常见的方法是计算四分间距,然后将此间距之外的观测值确定为离群值。四分间距是对离散程度的测量,它计算的是样本第三个四分位数和第一个四分位数之间的差异。这种方法反映的是样本的中间50%的数据,从而剔除了离群值的影响。
确定了离群值之后,我们需要降低它们对于我们分析的影响。正如我们在第二章中所解释的那样,修整及缩尾方法是实现这一目的的常见的方法。修整舍弃了数据集当中的极端值。这种方法需要研究者确定这种转化的方向(对称的或不对称的)及修整的数据的数量。
缩尾方法是将数据集合中的极端值进行转化的方法。首先,我们需要计算数据的百分位数。其次我们根据某一百分位数排序来定义离群值。比如任何百分位数在2.5~97.5之外的观测值可以被认为是离群值。最后,我们将所有大于或者小于特定百分位数的值调整为某些特定值。在我们的例子中,我们可以将所有大于第97.5百分位数的值调整为第97.5百分位数值,将所有小于第2.5百分位数的值调整为第2.5百分位数值。充分分析使用这些方法的实际影响是十分重要的。在下一章中,我们将应用接下来介绍的因素的统计特征来构建模型并执行我们的交易策略。
牛市通网是一个牛股推荐网与低风险投资知识网,可以在线联系客服领取牛股。牛市通网从权威的投资专家、金融分析师等投资信息中挑选优质的文章进行发布。牛市通网主要为投资者提供股票知识、股票观点、股票分析和明智金融投资讨论等信息。