数据科学
时间表数据科学能力
时间表数据科学能力取决于水平:基本、中级、高级
我的介绍。
对于任何跳入数据科学领域感兴趣,最重要的一个问题是:需要多长时间来获得数据科学能力?
本文将讨论典型的时间表数据科学能力。在数据科学获得能力所需的时间取决于能力的水平。在第二节,我们将讨论数据科学的三个层次。在第三节,我们将讨论所需的时间获得数据科学能力基于兴趣的水平。一个简短的总结完成这篇文章。
这里提供的意见是我的意见和科学数据是基于我自己的旅程。
二世。《科学3级别的数据
在讨论时间表数据科学能力之前,让我们首先考虑数据科学的三个层次。本节将讨论我认为数据科学能力的三个层次,即:1级(基层);2级(中级);和l埃维尔•3小(先进水平)。从1到3级能力增加。我们将使用Python作为默认语言,即使其他平台如R、SAS和MATLAB可以作为编程语言对数据的科学。
1。基本的层面上
在一级,数据科学上进应该能够处理数据集通常以逗号分隔值(CSV)文件格式。他们应该有能力在数据基础;数据可视化;和线性回归。
1.1数据基础
能够操作、清洁、结构、规模、和工程师数据。他们应该熟练使用熊猫和NumPy库。应该有以下能力:
- 知道如何存储在CSV文件格式导入和导出数据
- 可以清洁,争论,为进一步分析或模型构建和组织数据
- 能够处理缺失值的数据集
- 理解并能够应用数据归责技术如平均或中位数归责
- 能够处理分类数据
- 知道如何分区数据集分成训练集和测试集
- 可以使用扩展规模数据规范化和标准化等技术
- 能够通过压缩数据降维技术,如主成分分析(PC)
1.2。数据可视化
能够理解好数据可视化的基本组件。可以使用数据可视化工具,包括Python的matplotlib seaborn包;和R的ggplot2包。应该理解好数据可视化的基本要素:
- 数据组件在决定如何想象:一个重要的第一步是知道什么类型的数据,例如,分类数据,离散数据,连续数据、时间序列数据,等等。
- 几何组件:这就是你决定什么样的可视化是适合您的数据,例如,散点图,线图,酒吧图,直方图,qq情节,光滑的密度,箱线图,对情节,热图,等等。
- 映射组件:在这里,您需要决定使用什么样的变量作为你的变量x作为你的y变量。这很重要,尤其当你是多维数据集与几个特性。
- 规模组件:在这里,您决定使用什么样的尺度,例如,线性范围,对数尺度等。
- 标签组件:这包括诸如轴标签、标题、传说、字体大小,等等。
- 道德的组件:在这里,你要确保你的可视化讲述真实的故事。清洗时你需要注意你的行动,总结,操纵,生产数据可视化和确保你不使用可视化误导或操纵你的听众。
1.3监督学习(预测连续目标变量)
熟悉线性回归和其他先进的回归方法。使用包如scikit-learn和主管在插入符号建立线性回归模型。有以下能力:
- 能够进行简单的回归分析使用NumPy或Pylab
- 能够与scikit-learn进行多元回归分析
- 理解正规化回归方法如套索,脊,弹性网
- 理解KNeighbors回归等非参数回归方法(KNR)和支持向量回归(SVR)
- 理解各种指标评价回归模型如MSE(均方误差)、美(平均绝对误差)和R2得分
- 能够比较不同的回归模型
2。中级水平
我除了技能和能力水平,应该在以下能力:
2.1监督学习(预测离散目标变量)
熟悉二元分类算法如:
- 感知器分类器
- 逻辑回归分类器
- 支持向量机(SVM)
- 可以使用内核支持向量机解决非线性分类问题
- 决策树分类器
- 再分类器
- 朴素贝叶斯分类器
- 理解几个指标用于访问质量的分类算法如精度、精度、灵敏度、特异性,记得,f-l得分,混淆矩阵,ROC曲线。
- 可以使用scikit-learn建立模型
2.2模型评价和Hyperparameter调优
- 能够结合变压器和估计管道
- 可以使用k-fold交叉验证评估模型的性能
- 知道如何调试分类算法学习和验证曲线
- 能够诊断偏差和方差问题与学习曲线
- 能够解决过度拟合和underfitting验证曲线
- 知道如何调整机器学习模型通过网格搜索
- 了解如何调整hyperparameters通过网格搜索
- 能够阅读和解释一个混淆矩阵
- 情节和解释一个接受者操作特征(ROC)曲线
2.3对集成学习结合不同的模型
- 可以使用集成方法有不同的分类
- 可以结合不同的分类算法
- 知道如何评估和优化集成分类器
3所示。先进水平
能够使用先进的数据集,如文本、图像、声音和视频。除了基本的和中级技能,应该有以下能力:
- 聚类算法(无监督学习)
- k - means
- 深度学习
- 神经网络
- Keras
- TensorFlow
- Theano
- Azure云系统(AWS)
三世。时间表数据科学能力
1级能力可以实现在6到12个月。2级能力可以实现在7到18个月。3级在18岁到48个月内可以实现能力。
我们这里的话,这些只是近似值。所需的时间来获得一定程度的能力取决于你的背景和多少时间你愿意投资你的数据科学研究。通常,个人背景的一个分析学科如物理、数学、科学、工程、会计、或计算机科学需要更少的时间相比,个人背景不是互补的科学数据。
四、总结
总之,我们已经讨论了科学3级别的数据。1级能力可以实现在6到12个月。2级能力可以实现在7到18个月。3级在18岁到48个月内可以实现能力。这一切都取决于投入的努力和每个人的背景。
额外的数据科学/机器学习资源
问题和询问,请给我发邮件:benjaminobi@gmail.com