【摘要】 抛开PLS的算法细节,我用个简单的例子来讲讲,权当抛砖引玉。

这里有位教练想了解研究远动员们的项目成绩,手头上的数据可视为自变量的有:身高、体重、体脂率、肌肉量、训练年限、训练方式等等;可视为因变量的数据有:跳高成绩、撑杆跳成绩。

 

这些数据在手,可以用三种视角去分析它们:

 

1.把全部的数据一箩筐扔到回归模型里,多个因变量就建立多个回归方程,采用最小二乘法(OLS)系列方法硬解,所解即所得;

 

2.第一种蛮干的方式需要大量的前提条件和假设,现实数据常常违背假设,于是出现了第二种方案。自变量太多了那我们先“自作主张”地给自变量分组归类(主成分分析,PC):(身高、体重)叫基础数据,(体脂率、肌肉量)叫肌力水平,(训练年限、训练方式)叫训练水平。这样一来缩减了自变量数量,二来多重共线性等问题迎刃而解,之后再和因变量做回归得模型。这就是主成分回归(PCR)分析视角;

 

3.第二种看似不错但会遇到这样一个问题:自变量的分组归类是正确的吗?我的分类对这个问题是最好的分类吗?这点我们完全不知道,主成分分析只能靠统计直觉。那么一个改进方案是我们在“考虑主成分对因变量的贡献”这一前提下对自变量分组归类。—— 这就是偏最小二乘(PLS)分析视角。

 

4.PLS视角下,考虑到(跳高成绩、撑杆跳成绩)实际就是考察运动能力,教练知道运动能力无外乎关系到两个因素:身体素质,运动技巧。(身高、体重、体脂率、肌肉量)这一组更适合描述身体素质,(训练年限、训练方式)这一组则是运动技巧。然后我们建立 运动能力=身体素质+运动技巧 的模型并求解,最后PLS将这个模型反推算出每个因素具体的贡献。

 

总结一下:PLS是主成分分析思想+回归分析的合体,特点是PLS的“主成分分析”要同时考虑对因变量的作用。

 

来源:知乎