如何为时间序列做EDA

拍摄者Aron视觉效果Unplash

数据科学开发周期的早期步骤之一是了解和探索要解决的问题的数据。EDA是更好的数据科学工作流程的关键步骤,而PANDAS PROPILING是我的首选选择,可以快速完成一系列代码,同时为我提供输出,以更好地了解数据并揭示有意义的见解。

您可能一直在使用PANDAS PROPILING用于结构化表格数据,这通常是我们学会探索的第一种数据类型,现在我们所有人的Iris数据集对吗?但是,在现实世界中,我们通常可以在日常使用的另一种类型的数据结构:从交通到我们的日常轨迹,甚至我们的电力和用水,它们都有一个共同点 - 时间 - 时间依赖性。

时间序列或顺序数据已成为一个越来越多的数据驱动的世界中最有价值的商品之一,这使得需要执行EDA和地雷时间序列数据是数据科学从业者的急需技能。

由于时间序列数据的性质以及探索数据集的性质,分析的类型与数据集记录被认为都是独立的。分析的复杂性随着同一数据集中的多个实体的添加而增长。

在此博客文章中,我将在分析数据集的分析中探索一些关键步骤,并在利用Pandas Proforing的时间序列功能时。探索数据集是指美国的空气质量可以从EPA网站。*

完整的代码和示例可以在GitHub存储库因此,您可以遵循教程。

分析时间序列数据集中的多个实体

数据说明说,这是美国,波多黎各和美国维尔京群岛的户外监视器收集的空气质量数据。有了这些信息,我们了解这是一个多元时间序列数据,它具有几个实体,我们需要考虑这些实体。

知道这一点,我有一些后续问题:污染物措施的涉及哪些位置有多少位?所有传感器是否在同一时间播放过程中收集相同数量的数据?收集的措施如何分配时间和位置?

有些问题可以通过热图轻松回答,将所有测量和位置与时间进行比较,如《代码摘要》和下图:

代码以生成时间的热图,并用大熊猫填充
美国空气质量数据集热图(作者图像)

上面的图显示了每个实体随时间的数据点。我们看到并非所有站点都开始同时收集数据,并且基于热图的强度,我们可以意识到,在给定时间段内,某些电台的数据点比其他站点更多。

这意味着,在对时间序列进行建模时,具有动态时间戳进行培训和测试数据集可能比拥有预定的时间戳更好。我们还必须进一步调查缺失的记录和归档记录的范围。

有了对我们实体时间分布的外观的基本理解,我们可以开始深入研究数据分析以获得更多见解。由于有多个时间序列,让我们看看每个实体行为。

潜入时间序列指标

如果您已经在使用Pandas profering,那么您可能知道如何生成个人资料报告

可以通过传递参数来启用对时间序列的支持tsmode=真的,库将自动确定具有自相关的特征的存在(稍后再详细介绍)。对于分析正常工作,需要按实体列和时间对数据框进行排序,否则您始终可以利用排序方式范围。

为此,代码很简单:

以下是输出报告使用时间序列模式的样子:

PANDAS分析报告的屏幕截图(作者屏幕截图)

季节性和非平稳警报

特定于时间序列分析,我们可以发现2个新警告 -non_stationary季节性。快速掌握时间序列的最简单的原因是查看警告部分。对于此特定用例,每个配置文件报告将描述每个美国位置的特定行为,以涉及污染物测量。

这是我们报告中的警告方式:

分析的警报。(作者屏幕截图)

当时间序列在观察到序列的时间内不会改变其统计属性(例如平均值和方差)时,时间序列是固定的。相反,当时间序列依赖时间时,时间序列是非平稳的。例如,具有趋势和季节性的时间序列(稍后再详细介绍)不是固定的 - 这些现象会影响不同时间的时间序列的价值。

由于时间和变量之间存在静态关系,因此静止过程相对容易分析。实际上,对于大多数时间序列分析,静止已成为一个普遍的假设。

非平稳时间序列的模型,大多数ML算法确实期望输入功能与输出之间存在静态关系。当时间序列不静止时,从数据模型建模的模型的精度将在不同的点变化。这意味着建模选择受时间序列的固定/非平稳性影响,并且在您想要时适用不同的数据准备步骤转换时间序列变成固定的。

因此,此警报将帮助您相应地识别此类列和预处理。

时间序列中的季节性是一个方案,数据在定义周期中会经历常规和可预测的变化。这种季节性可能会掩盖我们希望在时间序列建模时建模的信号,甚至更糟糕的是,它可能为模型提供强烈的信号。此警报可以帮助您识别此类列,并提醒您修复季节性。

有关时间相关功能的更多信息

您会注意到的第一个区别是,线图将替换被确定为时间依赖的列的直方图。使用线图,我们可以更好地理解所选列的轨迹和性质。对于NO2平均线图,我们看到轨迹的下降趋势,具有连续的季节性变化,并且在该系列的初始阶段记录了最大值。

列的特征详细信息(作者的图像)

接下来,当我们切换列的更多详细信息时(如上图所示)时,我们将看到一个带有自相关和部分自动相关图的新选项卡。

对于时间序列,自相关显示了时间序列在其现值的关系如何与其先前的值相关。部分自相关是删除前期滞后效果后时间序列的自相关。这意味着这些图对于提供有关该系列的自相关程度以及移动平均程度的信息至关重要。

上述ACF和PACF图有点模棱两可。在整个警告中,我们可以看到No2的含义是一个非平稳时间变量,可消除这些图的解释性。然而,ACF图对于确认我们已经怀疑的东西很有用 -No2的含义是非平稳的 - 因为ACF图值非常缓慢地降低,而不是像固定串联的情况下快速下降至零。

从数据分析,时间序列的性质以及非平稳和季节性等警报中收集的信息为您带来了了解您手头上的时间序列数据的前进。这并不意味着您已经完成了探索性数据分析 - 目标是将这些见解作为起点,并致力于进一步的深入数据分析和进一步的数据准备步骤。

从分析空气质量数据集,我们可以看到几列是恒定的,它们在建模时可能不会增加太多价值。从缺失值图表中,我们看到SO2和CO2空气质量指数缺少数据 - 我们应该进一步探讨该列的影响以及插入或完全删除这些列的范围。发现了几个列有非平稳和季节性警报,下一步将是使它们静止不动,或者确保我们使用的模型可以处理非平稳数据点。

您可以理解这个想法 - 作为数据科学家,重要的是使用分析工具快速获取数据的整体视图(在我们的案例时间序列中),并进一步检查并就数据预处理和建模阶段做出明智的决定。

结论

大熊猫分析的座右铭一直是相同的:“阅读数据?暂停。生成熊猫分析报告,并检查数据。现在开始清洁并重新探索数据。”

尽管结构化表格数据在提供第一步数据科学时仍然是最常见的数据,但时间序列数据被广泛使用,并且用于开发许多业务和高级数据驱动解决方案的核心。由于时间序列的性质以及记录如何取决于时间和影响未来的发生,因此在探索性数据分析阶段,数据科学家们寻求各种见解。

因此,PANDAS分析库合并的功能是启用时间序列分析模式以发现这些见解的时间问题。从用户获得的更改以获取特定时间序列的分析报告 - 到新警报的输出,这些新警报促使数据,线图和相关图中特定于时间序列分析的图表 - 我们证明了此处的所有内容文章。

但是,今天探索的指标和分析仅仅是开始!还有更多问题要回答。对于您来说,分析时间序列数据时,您的通常方法是什么?使用顺序数据集时,您最想念什么?

引用:

“ EPA美国环境保护署”(公共领域)http://www.ics.uci.edu/~mlearn/mlrepository.html

Fabiana Clemente是CDOYDATA

通过改进的数据加速AI。

获取中型应用betway娱乐官网

一个说“在应用商店上下载”的按钮,如果单击,它将带您到iOS App Store
一个说“获取它,Google Play”的按钮,如果单击它,它将带您到Google Play商店
Fabiana Clemente

热衷于数据。在@ydata解释数据科学家的新数据源的同时,为开发数据隐私解决方案而蓬勃发展

Baidu