模型误差就是模型预测结果与真实值之间的差距。其实很简单,这个误差可以是预测值与实际值之间的绝对差,也可以是相对差,或者基于某种损失函数的值。
先说最重要的,模型误差通常分为几种类型:统计误差、随机误差和系统误差。统计误差是模型在大量数据上表现出的固有偏差,随机误差是由于数据本身的随机性造成的,而系统误差则是模型本身存在的缺陷导致的。
另外一点,比如在机器学习中,去年我们跑的那个项目,大概3000量级的数据,统计误差可能只有0.5%,但随机误差可能高达1%,而系统误差则可能因为模型没有考虑到某些关键因素,导致误差甚至超过了5%。
我一开始也以为误差越小越好,但后来发现不对,过小的误差可能意味着模型过于复杂,泛化能力差。等等,还有个事,用行话说叫雪崩效应,其实就是前面一个小延迟把后面全拖垮了,所以误差过大也是要警惕的。
最后提醒一个容易踩的坑,就是不要只看误差的大小,而忽略了误差的分布。误差分布不均匀,可能意味着模型在某些区域表现很好,而在其他区域却非常糟糕。这个点很多人没注意,我觉得值得试试从不同角度分析误差,比如用箱线图或直方图。
这就是坑,别信模型误差的数学定义,直接用交叉验证结果判断模型好坏。
模型误差就是预测值与真实值之间的差距。
例如:某预测模型预测某股票明天涨跌幅为5%,实际涨跌幅为3%,则误差为2%。
模型误差就是模型预测结果与真实值之间的差距。其实很简单,这就像你用尺子量身高,但因为尺子不准确,量出来的结果和真实身高就有偏差,这偏差就是误差。
先说最重要的,模型误差可以分为几种类型:统计误差、随机误差和系统误差。统计误差通常是由于样本不足或数据分布不均匀导致的,比如去年我们跑的那个项目,样本量大概3000量级,但误差仍然在5%左右。另外一点,随机误差是不可避免的,它来源于数据本身的不确定性,比如天气变化对某些预测模型的影响。还有个细节挺关键的,系统误差则是由于模型本身缺陷或数据预处理不当引起的,这种误差是可预测的,用行话说叫雪崩效应,其实就是前面一个小延迟把后面全拖垮了。
我一开始也以为误差都是随机产生的,后来发现不对,很多情况下是可以通过改进模型或数据预处理来减少的。等等,还有个事,实际应用中,我们更关注的是模型的泛化能力,也就是模型在未知数据上的表现,这直接关系到模型在实际应用中的效果。
所以,要想降低模型误差,我觉得值得试试以下几个方法:首先,优化模型结构;其次,增加数据量;最后,仔细检查数据预处理步骤。你觉得呢?