大数据时代,统计学方法有多大的作用?
发布时间:2022-12-02 10:45:09 所属栏目:大数据 来源:
导读: 数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现
|
数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。 统计学是通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。其中用到了大量的数学及其它学科的专业知识,它的使用范围几乎覆盖了社会科学和自然科学的各个领域。 当你真的开始接触数据挖掘的算法的时候,你会发现几个瓶颈: 第一是精度和泛化性的问题,这是你不用测试集验证集通过样本内样本外测试是没法达到均衡的。 第二是模型优化及调参问题大数据时代的统计学,你不懂算法原理根本就不知道怎么调,这个时候绝大多数人就放弃了,少部分人开始研读算法,要知道大多数算法只有读国外大牛英文文献才能搞懂的,结果一看,LDA、SVD、SVM、随机森林,神经网络,贝叶斯,最大熵,EM,混合高斯,HMM等等,哪个不是根据严格的凸优化及概率图模型或者信息论严格推导出来的?这些都是实打实的数学概率统计基础。 第三是业内标准的数据挖掘流程中最重要的是数据清洗和缺失填补,怎么洗,怎么填?现有的非监督算法都没办法很好的解决的哦!基础的还得计算每一个特征的显著性统计量,根据分位数,均值方差协方差相关系数进行过滤,填补,这一步是建模的关键哦! 最后,模型因子的显著性评价,在一些算法,虽然指标证明是优秀的,但是如果因子的假设性检验证明不显著的话,无疑是烂模型,稍微学过统计的应该可以理解。所以,要玩数据挖掘还是老老实实地一步一步来吧。 数据挖掘与统计学的共同特征 1.共同的目标。两者都包含了大量的数学模型,都试图通过对数据的描述,建立模型找出数据之间的关系,从而解决商业问题。 2.共用模型。包括线性回归、回归、聚类、时间序列、主成分分析等。 数据挖掘与统计学的不同之处 1.思想不一。数据挖掘偏向计算机学科大数据时代的统计学,所关注的某些领域和统计学家所关注的有很大不同。不一定要有精确的理论支撑,只要是有用的,能够解决问题的方式,都可以用来处理数据。而统计学是一门比较保守的学科,所沿用的模型一定要强调有理论依据(数学原理或经济学理论)。 2.处理数据量不一样。统计学通常使用样本数据,通过对样本数据的估计来估算总体变量。数据挖掘使用的往往是总体数据,这也在过去的年代生产力和技术限制所致。数据挖掘由于采用了数据库原理和计算机技术,它可以处理海量数据。 3.发现的知识方式不一样。数据挖掘的本质是很偶然的发现非预期但很有价值的知识和信息。这说明数据挖掘过程本质上是实验性的。而统计学强调确定性分析。确定性分析着眼于寻找一个最适合的模型——建立一个推荐模型,这个模型也许不能很好的解释观测到的数据。 (编辑:天瑞地安资讯网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
站长推荐

