回归、线性回归和投影三者之间有什么联系？

2024-06-15 23:17:50 admin888

回归、线性回归和投影三者之间有什么联系？

之前我们讨论了作为两变量间线性关系强度度量的协方差和相关系数。在这一节，我们讨论两个或更多随机变量之间的函数关系的表示和估计。我们将首先讨论概率模型的回归，然后讨论回归的估计和数据模型的回归。

先说说函数关系的表示。确定性数据间的函数关系由数值函数来表示。例如，一个用弹性材料做成的弹簧的伸展度和作用于它的力之间存在一个近似的线性关系，称为胡克定律（Hooke＇s law）。尽管它们可能是近似的且存在一些测量误差，但是这种类型的函数关系被认为是一个或多个自变量与一个或多个因变量之间的确定性关系。

然而，在其他情况下，因变量是一个真实的随机变量。例如，不同时刻股票市场市值分布可以用一个时间的随机变量函数来建模。在这种情况下，时间被认为是一个确定性变量，而股票市场市值被认为是一个随机变量。在其他情况下，因变量和自变量也可以都是服从某个概率分布的真实随机变量。例如，股票收益和其交易量之间的关系，如果存在的话，涉及两个随机变量??收益和交易量。当然，有人可能会说，每个样本关系都是随机变量之间的关系，因为总是存在测量误差。

首先分析由确定性变量引导的一个随机变量：Yx＝Y（x）（其中确定性变量一般由小写字母x表示）所构成的一个模型。每个x对应一个随机变量Yx的概率分布和期望值。这个模型是典型的实验情况，其中自变量可以被观察者控制，同时因变量可以随机地假设为不同值。各种各样的观察设定都是可能的。在一些例子中，实验者可以控制一组参数，但是不能控制观察结果。例如，我们可以控制观测一只给定股票的收益的时间，但是不能控制收益本身，我们假设它为随机变量。在另一些例子中，我们可以从主体中随机地选择。例如，在一个质量控制实验中，我们可以控制执行质量控制的时间，并从中随机选择样本的生产批次参数。

在本章的后面,我们将只讨论线性回归。如果我们不对残差项施加限制,则上述关系式只是残差项的定义式,因此总是有效的。这里是残差项的一组标准约束,使得线性回归可实证识别:

现在考虑我们不能控制的随机变量之间的函数关系。例如,我们可能想要了解给定股票的交易量和股票收益之间是否存在关系。两个量都是随机的,因此恰当的统计模型是两个随机变量的函数关系式。

有人可能观察到,自变量是确定性的还是随机的并没有带来任何差别,因为无论哪种情况,我们感兴趣的是不同变量间的函数关系。利用哈维尔莫的表述,可以这样说,不同变量之间的关系不依赖于回归变数是由观察者选择或者“由自然选择”的事实。答案应该是,当变量之间的关系不受样本如何选择影响时,所有变量都是随机的统计模型可以解决自变量为确定性的模型所不能解决的问题。例如,在确定性环境中,自变量和因变量之间的相关系数是一个没有意义的概念。

如同x是确定性变量的情形，变量Y被称为回归变数或因变量，X被称为回归因子或自变量。

总之，线性回归函数是连接回归变数和回归因子的线性函数，它表示给定回归因子条件下回归变数的条件期望。如果回归因子是确定性的，则回归函数就是确定性变量间的确定性关系式；如果回归因子是随机变量，则回归函数就是两个随机变量之间的线性关系式。图2.2展示了确定性的回归函数和随机变量间的回归函数之间的区别。在确定性情况下，变量X和Y的值都是等距间隔的，而在随机变量的情况下，它们是随机间隔的。然而，回归变数和回归因子间的线性关系在两种情况下是一样的。图2.3展示了加入服从正态分布的噪声u的情形。

一个回归变数对于多个回归因子的回归被称为多元回归，不要与多变量回归相混淆，后者是多个回归变数对于多个回归因子的回归。下列假设是回归理论的标准假设∶

因此，令误差平方期望的偏导数等于0得出正交条件，这证明了正交条件和最小二乘原理之间的等价。使用矩阵表示，我们可以将正交条件重写如下：

概括起来，正交条件的假设等价于限定线性回归的回归参量的选择，从而使残差平方的期望最小化。请注意这个最小化期望条件是总体的一般性质，而不是一个估计方程：残差和线性回归的回归因子不相关的假设等价于回归系数满足最小二乘原理的假设。

当bj满足最小二乘正交条件时，随机变量

牛市通网是一个牛股推荐网与低风险投资知识网，可以在线联系客服领取牛股。牛市通网从权威的投资专家、金融分析师等投资信息中挑选优质的文章进行发布。牛市通网主要为投资者提供股票知识、股票观点、股票分析和明智金融投资讨论等信息。