12月4日 嵌套的交叉验证对过度拟合 在机器学习任务中,我们检查我们的模型验证,他们不overfit。事实上,我们使用交叉验证的方法,确保这个验证集是不断变化的,为了不选择最好的模型通过间接过度拟合固定验证设置… 数据科学 3分钟阅读 数据科学 3分钟阅读
11月27日 加快I / O:拼花和羽毛 我们的一些问题包括数据从本地存储读取。Read-process-write操作可以舒服的在相对较小的数据集,但这些行动为我们大型. csv文件很麻烦。他们可以非常苛刻的时间和资源。我将介绍两种类型… 数据科学 2分钟阅读 数据科学 2分钟阅读
11月15日 F-Beta:权重精确度和召回 我们使用一些标准指标/评估函数来得到一个了解我们的分类器模型的鲁棒性和可靠性。最著名的有:准确度民国——AUC精密召回F1与准确性和ROC-AUC你总是可以去如果你不上课不平衡在你的… 数据科学 5分钟读 数据科学 5分钟读
10月30日 敌对的验证:完整性检查器和一个剥削者 理想情况下,我们希望我们的培训和测试数据来自相似的分布。然而,相反的可能发生在现实生活中的一些问题(特别是那些异常的概念)。这种训练与测试集之间的差异被称为协变量转变或协变量漂移。协变量变化会导致什么?它是关于的变化… 数据科学 4分钟阅读 数据科学 4分钟阅读
10月23日 分层回归问题 这就跟你问声好!在本文中,我将试图让一个例子如何生成分裂保存分配比例的回归问题。让我们从最基本的开始。你也可以检查我Kaggle笔记本上的工作示例:笔记本分层抽样是什么?分层抽样采取样本… 数据科学 4分钟阅读 数据科学 4分钟阅读