最终统计数据科学指南
统计数据科学:一眼就标准的指导方针
动机
统计是一种强大的数学领域。我说的“强大”,因为它帮助我们推断人口从样本数据结果。因为它可以推断出人口的结果,它也可以用于大局(像整体影响,未来的预测,等等)。统计的不仅仅是一个组合一些只是孤立的话题。此外,统计发现新的语义在这些主题,有时为新的机会铺平了道路。我们的日常生活中到处都需要统计数据。我在大三面临的主要问题是,我不能将统计知识与现实生活联系起来。我还不知道在哪里使用的技术来找到答案并采取相应行动。新旅程开始当我开始学习数据科学早在2018年。我覆盖了所需的所有基本统计信息主题数据科学与意识到必要的统计的知识! As a lecturer of Artificial Intelligence and Data Science at a University, I conduct statistics classes and try to represent it as a useful tool for our regular usage. I also want to share the knowledge throughout my write-ups. That’s why I have written a series of articles covering all the basic topics of statistics and tried to represent them in the easiest possible way. Though some topics are missed in the series, I will try to integrate them into this article along with my previous works. I hope every walk of people will easily understand these articles on statistics.不需要的先决条件。最后,我想说,“这篇文章涵盖了大部分(但不是全部)的话题,它将提供一个基本统计数据的科学这样你就可以探索如果需要其他先进的主题。”
所以,如果你是一个绝对初学者统计和寻找一个完整的指南,这篇文章是给你的。
表的内容
统计数据乍一看
人口和样本
变量和测量水平
集中趋势(意思是,中位数和模式)
百分位数、四分位数和差
频率分布和可视化
离差的量度(范围、方差、标准差,等等)。
协方差和相关系数
归一化
概率
概率分布(制服、二项式分布、泊松分布、正常和学生的t分布)
中心极限定理
点估计量,估计
标准错误
置信区间和水平
显著性水平
假设检验
方差分析(方差分析)
卡方检验
下一节是本文最重要的部分,本系列的所有文章将与简要的描述。
主题描述与嵌入式链接
统计数据乍一看
根据我的理解,统计数据结合了一些技巧来画一个可靠的结论一大群(人口)实验一小群(样品)和总结数据集。这不是一个正式的定义;这是我工作时实现与统计。
让我们看一个正式定义根据维基百科[1]
统计数据的纪律问题的收集、组织、分析、解释和显示的数据。
有两个类别的统计数据。
- 描述性的统计总结/描述了人口或样本数据集。它涵盖的主题-
类型的数据、变量、数据表示、频率分布、集中趋势,百分位和四分位数,协方差,相关等。
- 推论统计是统计发现可靠的推断人口数据的示例数据。它涵盖了- - - - - -
概率分布,中心极限定理、点估计量,估计标准误差,置信区间和水平,水平的意义,假设检验,方差分析(方差分析)、卡方检验等。
人口和样本
人口由所有成员的一个实验,而样本从人口中选择组的成员代表的人口。
例如,我们想知道大学生平均CGPA。在这里,实验区涵盖了所有的学生。所以,人口将所有的学生的大学。如果我们选择一些学生来计算平均CGPA,这些学生将样本。
跳数据之前,您必须清楚地理解主题。
让你的想法清楚请阅读下面的文章
变量和测量水平
简单的变量是可以改变(持有多个值)。它只是一个数据集的特点。有不同类型的数据,不同的特征存在于真实的世界。我们必须知道测量的水平了解如何处理数据。
如果你有任何困惑的话题,通过这篇文章。
集中趋势
集中趋势是一种发现多数的趋势值。在统计数据,意思是,中位数和模式知道它。
- 的意思是
的概念“的意思是”很简单。我们得到均值除以求和(n)的数量值。
完整的意思是指南-
- 中位数
中位数是另一种集中趋势。中值,我们需要的值按升序排序,取中间值,它随偶数和奇数数量的值。
例如,12日,13日,10、15和7
是一系列的值。首先,我们需要解决的值。排序后,将序列7、10、12、13和15。
值的总数5,这是一个奇数。年代啊,我们将使用以下公式
在我们的例子中,12中位数。
另一个例子是,一些值12日,13日,10日,15日,7和9
。排序后,我们得到的7、9、10、12、13、15
。这一次,值的数量6,它是甚至。所以,我们不会得到中间值使用上面的公式。因为(6 + 1)/ 2 = 3.5不是一个整数。现在,我们需要总结3日和4日值。他们的意思是中值,22/2 = 11。
Python实现,
- 模式
的模式工作分类数据,它是数据集的最高频率。假设你有一些数据包含这样的产品的质量(‘好’、‘坏’、‘正常’,‘好’,‘好’)
。在这里,好最高的频率。所以,它是模式我们的数据。
Python实现,
什么时候使用哪个集中趋势?
在标定数据的情况下,我们使用模式。建议顺序数据的中位数。意思是广泛用于找到比率/区间变量的集中趋势。但均值并不总是正确的选择来确定集中趋势,因为如果数据集包含异常值,平均会非常高或低。在这种情况下,中位数比均值更健壮。我们将使用中值是否大于或小于中位数的意思。否则,意思是最好的选择。
更多详情请点击在这里。
百分位数、四分位数和差
- 百分位
百分比是一个测量指示值用于统计数据低于这个一个给定的比例在一群观察秋天的观察。例如,20百分位值(或分数)低于20%的观察可以发现[2]。
- 四分位数
百分位,整个价值观分为100个不同的部分。四分位值分为四个相等的部分,每个部分持有公司25%的股份。主要的四分位数是第一四分位数(Q1),第二个四分位数(Q2),第三四分位数(Q3)和第四象限(第四季度)。
- 差(国际米兰四分位数比)
位差之间的距离是第一季度和第三季。所以,差= Q1 -第三季。
我们也可以找出离群值位差通过定义一个最低(Q1 -1.5 *差,也称为低围栏)和最大(第三季度+ 1.5 *差,也称为上栅栏)边界值。外的最大和最小值被认为是离群值。
箱线图显示了所有的四分位数和上下栅栏。
频率分布和可视化
频率的测量是一个事件的发生在一个数据集。下面的文章将帮助您了解关于主题的细节。
离差的量度
这个概念离差的量度表明扩散值!范围、方差、标准差。等等,寻找分散的一些技术。
- 范围
范围是最大和最小值的区间。例如,我们有一些示例数据12、14、20、40、99和100
。将范围(100 - 12)= 88。
- 方差
方差措施之间的差异的每个值平均值的数据集。根据Investopedia -
方差衡量每个数字在一组来自平均(平均),因此从每个其他数量设置[5]。
在这里,x̄样本均值和吗n的数量值。
μ是总体均值和N是人口的数量值。
- 标准偏差
标准偏差的平方根方差。
Python实现方差和标准偏差
协方差和相关性
- 协方差
协方差是一种比较两个数值变量之间的方差。下面的公式用来计算它。
在这里,x和y表示两个变量。N是人口的数量。
- 皮尔逊相关性(相关)
找到两个数值变量之间的线性关系。
相关值之间波动1来+ 1。1表明一个完全负相关关系,而+ 1表明一个完全积极的变量之间的关系。和0意味着没有关系。
Python实现,
归一化
正常化的过程是将数据转化为类似的规模和它的一个关键部分的数据预处理。本文整合了所有的技术数据规范化。
概率
概率是一个数学技术,我们可以预测事件的可能的结果。阅读下面的文章,如果你有任何关于概率的混乱。
概率分布
概率分布是一个事件的概率的分布。有两种类型的概率分布。
- 离散型概率分布
离散型概率分布是离散值的概率分布。例如,摇骰子的概率。我们为每个角色找到一个特定的结果,很明显一个离散值。
均匀分布、二项式分布、泊松分布等。,主要是一些离散概率分布。
- 连续概率分布
连续概率分布是连续值的概率分布。例如,24岁的概率样本组。24岁是一个连续的值,我们需要使用连续概率分布。
正态分布、t分布等。,的连续概率分布。
- 离散均匀分布
在均匀分布,所有特定结果的值是相等的。例如,掷骰子有6个人的结果={1,2,3,4,5,6}
。如果是均匀分布,每一个概率值0.16667。
Python实现[6]
- 二项分布
这个名字二项建议两个互斥的试验结果。例如,头或尾巴,好或坏,通过或失败等。
二项式分布,试验必须满足的标准伯努利试验。
的伯努利试验必须有两个独立的结果,高或低。必须不断成功的概率。
在这里,n试验的数量,p的概率是成功,成功的数量吗x。
让我们画一个掷骰子的二项式分布。假设你滚一个死16倍。的概率是什么2出现4次?这里,p = 1/6和n = 16。二项式分布与python代码所示的场景。
[[7]的文章帮助我实现代码。)
红色栏表示2的概率,出现4次。
- 泊松分布
红色栏表示2的概率,出现4次。
- 泊松分布
二项分布发现成功的数量的特定数量的试验。泊松分布决定了成功的数量在一个单位时间间隔。
例如,在一个商店客户8到12点至1点之间。泊松分布的帮助下,我们可以找到的概率到达3人在12点至1点之间。泊松分布可以用下面的公式来解释。
在哪里x是成功的数量,λ是事件的数量单位的时间。ε是欧拉数(2.71828…)。对于上述问题,x = 3,λ= 8/1 = 8。
红色栏显示到达3客户之间的概率12点来下午1点。
- 正态分布
连续概率分布适用于连续变量。正态分布是一种广泛使用的连续概率分布。现实生活中的许多问题可以解决/用正态分布描述。假设我们考虑一个示例70岁学生。范围从18到25岁。这将是正态分布,如果意思是,模式,值在样本中都是平等的。
在正态分布的情况下,左派和右派的概率部分均匀分布意味着它是对称的。总概率等于1。分布遵循下列方程。
在这里,σ标准差和吗μ是一个意思。
正态分布与python -
正态分布是一个标准正态分布的标准偏差1,平均值0。下面是python的标准正态分布的一个例子。
- 学生的t分布
威廉·希利戈塞仍提出了分布。有限制他的工作地点发表研究文章与原来的名字,他用假名,”学生。“分布提出了找出最好的样本从一个小样本[8]。
图像显示了两个分布的比较。学生的t分布有一个胖的尾巴比正态分布。Python实现学生的t分布[9]。
中心极限定理
如果我们随机让巨大的人口和考虑样本平均值,我们会发现,样本值将正态分布总体均值。这是一个方法找出好的示例数据。
估计量,估计
估计是我们估计的统计的人口[10]的一些基本情况。有些估计样本均值、标准差、方差等。
估计量的值被称为估计。
假设一个样本的方差是5。在这里,方差的估计量,称为方差估计的价值。
标准错误
标准偏差显示的值是多少人口的意思是,和标准错误显示多远样本均值来自总体均值。它是计算如下
在这里,σ是总体标准偏差,n是样本容量。
置信水平和区间
- 置信水平
置信水平是百分比值;在这个参数的真值将保持价值。假设我们已经解决了的问题95%置信水平;这意味着95%的时间,我们将从我们的解决问题得到准确的结果。
- 置信区间
置信区间是一个范围内,我们会得到真值的置信水平。
显著性水平
的显著性水平事件(如统计测试)的概率是事件可能是偶然因素。如果水平很低,也就是说,偶然发生的概率是非常小的,我们说的事件重要[11]。
显著性水平是用α的象征。
假设检验
假设检验是一种统计技术,我们可以测试和验证一个假设。在假设检验,我们考虑一个零假设,这被认为是真的,另一种假说如果零假设失败,这是可以接受的。更多细节假设检验在下面这篇文章。
方差分析(方差分析)
假设检验的文章中,我提到过一些测试- t, t检验,等等,但这些只测试两组之间的比较。没有人可以用于多个组。方差分析是一个统计的测试用于比较两个或两个以上的团体之间的差异。在下面这篇文章提供了详细的解释。
卡方检验
卡方检验是另一个统计测试寻找分类变量的依赖关系。通过下面的文章。
结论
统计数据科学的一个组成部分。每个主题的统计数据不能覆盖,因为字段是巨大的。然而,我试图掩盖了重要科学知识所需的统计数据。与这篇文章中,我将总结我的系列写统计数据的科学。如果你有任何问题,随时告知我在评论部分。
谢谢你!
引用
- 统计数据——维基百科
- 百分位。IAHPC Pallipedia。https://pallipedia.org/percentile/。2022年10月16日通过。
- 所有基本的频率分布对数据科学|
- https://towardsdatascience.com/compare-multiple-frequency-distributions-to-extract-valuable-information-from-a-dataset-10cba801f07b
- 统计数据差异是什么?定义、公式和例子(investopedia.com)
- https://pyshark.com/continuous-and-discrete-uniform-distribution-in-python/
- Python GeeksforGeeks——二项分布
- Dunnett, c W。,& Sobel, M. (1954). A bivariate generalization of Student’s t-distribution, with tables for certain special cases.生物统计学,41(1 - 2),153 - 169。
- Python GeeksforGeeks——学生的t分布统计信息
- 估计量:简单的定义和例子-统计数据如何
- https://www.sciencedirect.com/topics/mathematics/significance-level-alpha