本杰明·o·Tayo形象

数据科学,数学

数据科学的数学我需要多少钱?

数学技能数据科学和机器学习中至关重要

发表在
4分钟阅读 2020年6月1日

- - -

我的介绍。

如果你是一个数据科学上进,你毫无疑问有以下问题:

我能成为一个数据科学家很少或根本没有数学的背景吗?

数据科学基本数学技能是重要的?

那里有很多很好的包,可用于构建预测模型或生产数据可视化。一些最常见的包描述和预测分析包括:

  • Ggplot2
  • Matplotlib
  • Seaborn
  • Scikit-learn
  • 脱字符号
  • TensorFlow
  • PyTorch
  • Keras

由于这些包,任何人都可以建立一个模型或产生一个数据可视化。然而,非常坚实的数学背景知识是必要的微调您的模型与最佳性能产生可靠的模型。是一回事,建立一个模型,这是另一件事解释模型和有意义的结论可用于数据驱动决策。很重要的一点是,在使用这些包之前,您有一个了解的数学基础,这样你不使用这些包仅仅是黑盒的工具。

二世。案例研究:建立多元回归模型

假设我们要构建一个多元回归模型。在这样做之前,我们需要问自己以下问题:

我的数据集有多大?

我的特征变量和目标变量是什么?

最与目标预测特性关联什么变量?

重要的特性是什么?

我应该规模特征吗?

我的数据应如何划分为训练集和测试集吗?

主成分分析(PCA)是什么?

我应该使用PCA对消除冗余特征吗?

我怎么评价我的模型?我应该使用R2得分、MSE或美吗?

我怎么能提高模型的预测能力?

我应该用正规化回归模型吗?

回归系数是什么?

拦截是什么?

我应该使用非参数回归模型如KNeighbors回归和支持向量回归?

hyperparameters是什么在我的模型,如何才能调整来获得模型与最佳性能?

没有一个良好的数学背景,你无法解决上面提出的问题。底线是,在数据科学和机器学习,数学技能一样重要的编程技能。数据科学上进,因此必要的投资时间学习数据的理论和数学基础科学和机器学习。你构建可靠的能力和有效的模型,可以应用于实际问题取决于你的数学能力有多好。如何应用数学技能在机器学习建立一个回归模型,请看到这篇文章:机器学习过程教程。

现在让我们讨论一些基本的数学技能需要在数据科学和机器学习。

三世。基本数学技能数据科学和机器学习

1。统计和概率

统计和概率用于可视化功能,数据预处理,特征变换,数据归责、降维、功能工程、模型评价等。

以下是你需要熟悉的话题:意思是,中位数,模式,标准偏差/方差、相关系数和协方差矩阵,概率分布(二项式分布、泊松分布、正常),假定值,Baye定理(精度,还记得,阳性预测值,阴性预测值,混淆矩阵,ROC曲线),中心极限定理,R_2得分,均方误差(MSE), A / B测试,蒙特卡罗模拟

2。多变量微积分

大多数机器学习模型是建立数据集有几个特性或预测。因此,熟悉多变量微积分构建机器学习模型是非常重要的。

以下是你需要熟悉的话题:函数的几个变量;衍生品和梯度;阶跃函数,乙状结肠函数,分对数函数,ReLU(修正线性单元)功能;成本函数;绘图功能;函数的最小值和最大值

3所示。线性代数

线性代数是机器学习中最重要的数学技能。一个数据集表示为一个矩阵。线性代数是用于数据预处理、数据转换、降维、评估模型。

以下是你需要熟悉的话题:向量;一个向量的规范;矩阵;一个矩阵的转置;一个矩阵的逆矩阵;一个矩阵的行列式;跟踪矩阵的;点积;特征值;特征向量

4所示。优化方法

大多数机器学习算法进行预测建模通过最小化目标函数,从而学习权重,必须应用到测试数据为了获得预测标签。

以下是你需要熟悉的话题:成本函数/目标函数;似然函数;误差函数;梯度下降算法和它的变体(如随机梯度下降算法)

四、总结和结论

总之,我们已经讨论了基本的数学和理论技能,需要在数据科学和机器学习。有几个免费的在线课程将教你必要的数学技能,你需要在数据科学和机器学习。作为数据科学的,重要的是要记住,数据科学的理论基础是非常重要的为构建高效、可靠的模型。因此,你应该花足够的时间来研究每台机器学习算法背后的数学理论。

诉引用

线性回归基础为绝对的初学者。

主成分分析的数学与R代码实现。

机器学习过程教程。

- - -

- - -

物理学家,数据科学教育家,作家。利益:数据科学、机器学习、人工智能,Python & R,个人理财分析,材料科学,生物物理学

Baidu