关于数据拟合的模型的复杂度、可信度、所需样本数、误差有什么关系吗?

比如我y=kx 这样一个数学关系,预测出希格斯波色子,那么这个物理公式是否真的,得看模型为真与否,但是没有测到的情况有很多,怎么就认为这个公式在这个样本内就是真的呢?@方弦 @严酷的魔王 @sqybi @木遥 @Sheldon @解名缰 @钓主 @沐右

推荐  (0) | 9人关注关注
4个答案
38 0

解名缰统计与精算学硕士生,useR

2012-10-12 08:13

作为一个物理盲,我单就数据拟合本身说一些我的看法。
首先,在统计学里面有一句流传甚广的话:"All models are wrong. Some are useful."
模型都是错的,是因为你只能用模型来说明已有的数据,而无法保证外推的结论是正确的。但就算是这样,我们也希望能尽可能好地来拟合已有的数据,这就是所谓的有用的模型。
什么叫拟合得好?不是说越复杂越好,因为复杂的模型很可能过度拟合了已有的数据,而使得外推的效果很差。所以,很多数据拟合的方法都有一些自我验证的机制。
比如你说的y=kx,其中x和y是你收集到的数据,这是统计学中一个经典的回归模型。你可以对这个模型进行F检验,看y和x之间是否存在线性的关系。或者更进一步,进行Box-Cox变换检验,看y与x之间是否存在幂次或者指数的关系。还有一种广泛使用的方法,被称为交叉验证,也就是把数据随机地分成两部分,一份叫训练集,一份叫测试集。你首先在训练集上拟合一个模型,然后将这个模型拿到测试集上进行比对,看其外推效果如何;然后交换训练集和测试集,再次进行验证。
当然了,永远不要过于迷信这些形形色色的检验,因为这些检验都是有其假设前提的,而假设是没有办法得到验证的。你永远不知道模型是不是真的,你能做的就是尽可能好地拟合现有的数据,然后扩大样本量,增加可信度。

20 0

Sheldon理论物理博士,科学松鼠会成员

2012-10-10 12:09

此事说起来很复杂。不过,将大部分物理关系做泰勒展开,总会有线性项出来……所以这个关系在某种程度上来说总会有蒙对的成分。

19 0

yangjiera数学控,不怎么会计算机的计算机硕士

2013-01-05 20:38

提出一个模型说明你对数据有了基本的先验假设。比如当你提出线性模型的时候,就拒绝了其他无数的模型函数。这种拒绝是必须的,否则问题就不可解了。真假在统计里没有绝对的分界线,关键看你对数据的理解,和模型的效果如何了。

当然线性模型也有无数多个。coefficient是什么,feature留多少。哪个好呢。这就要把数据分开成训练集和测试集来拟合模型并且测试了。一般来说模型复杂度不能太高。复杂度高了会low-bias, high-variance, 也就是常说的过拟合(overfitting)。常用的方法就是正则化(regularization)。

0 0

跳开公式连续性,玻色子只是强化主观认知方向的结果吧。

查看更多

添加回答

登录 后回答问题,你也可以用以下帐号直接登录

相关问答

关于我们 加入果壳 媒体报道 帮助中心 果壳活动 家长监控 免责声明 联系我们 移动版 移动应用

©果壳网    京ICP证100430号    京网文[2018] 6282-492号    新出发京零字第朝200003号     京公网安备11010502007133号

违法和不良信息举报邮箱:jubao@guokr.com    举报电话:18612934101    网上有害信息举报专区    儿童色情信息举报专区