6你应该自动化数据功能

图片由库恩莱尼Unsplash

任何优秀的解决方案或数据架构师应该有各种问题表在任何给定的时间点上。这是正常的。是什么ab正常的是,同样的问题发现回到那张桌子。这是一个可重复的模式你想摆脱。

解决方案在概念上正确的位置应该是架构师的现状。虽然这是总是期望,时间压力会让我们做愚蠢的事情。然而,当你的解决方案是建立在可重复的模式有点力量你的手。

是很不舒服的修复解决方案如果他们被一个自动生成的过程。你会让敌人通过创建这些孤立的解决方案。

通过使用可重复的模式,您将被迫缩小,看看整体的问题。例如,您将被迫看逻辑数据模型和识别潜在的缺点,而不是简单地调整一些SQL代码加载数据到目标对象。它将突出你的模式并不完美,从而迫使你使它更健壮。

你总是可以代码自己棘手的情况,但这是不可持续的定制编码模式在你的生态系统。

我不是一个没有代码平台的拥护者。我与大量的代码平台非常好,只要我不需要编写代码或者我做的,只有一次。但我将会严重限制,如果我不允许查看代码,如果需要调整模式。

自动化的主题,它太虚伪我不分享这张图片每次我谈论它。这是一个事实,一个应该想起它。

图片来源:xkcd.com

仅仅因为是痛苦的,并不意味着它不是正确的做法。设置这些最初的模板和模式是困难,但它会胜过手册。

下面是我的一些明显的可重复的模式,应考虑自动化。

加载

不管你的加载模式,无论是批量加载,疾控中心的方法或消息驱动流。你摄取的方式到你想要的平台或存储数据应该把阳光和可重复的。它应该是一个点击设置加载的过程。

我是一个英语教学的支持者——让你的数据加载和转换目标。这样可以更容易模块化装货,然后目标平台可以优化查询计划的努力目标转换。

数据转换

T在ETL /外语教学不需要纯粹的定制。

将不同的功能是一个很好的模块化原则在许多行业尤其是软件开发。模块化的功能经常重复。这是数据清理模式的一些示例业务规则等数据类型。

概念上(有这个词再一次)在同一个地方做同样的事情。不清理和转换1步。通过这种方式你可以模块化重复性任务,带他们从非重复性的。

T也是风格的依赖。例如数据金库造型风格高度面向自动化,因此是一个无需用脑的事有一个沉重的关注可重复的模式,但即使3 nf和金博造型风格在本质上是高度重复的。

选择一个造型风格和坚持下去,这也将迫使你的手在正确的地方做正确的事情。不选择一个特定的建模技术你也选择——使决策的每一个工程师。这将导致意大利面条un-repeatable代码。

数据质量

模块化和重复质量检查在数据采集过程中,但确保它土地的右手。

没有质量检查需要回流将阻止坏数据的人。是否你的产品负责人或指定数据管家,他们需要积极摆脱数据质量问题。

一个简单的流程可以是这个样子,“坏”数据是隐藏的地方。数据可以被标记的数据集,如果他们没有质量检查。他们可以排除在加载过程中或通过视图或隐藏的行/列级安全性。

图片作者

但是你决定标签,隐藏或排除失败的数据可以作为DDL语句在运往你的自动化过程。

分销渠道策略

MPP平台数据的分布是一个至关重要的部分的生命周期和可持续性数据平台。

取决于你的造型模式可以是高度自动化或自动化,但是不应该没有自动化的机会。

不管你的平台,你应该如何存储数据是基于几个因素,如查询模式的数据量,以及是否应该优化阅读或写作的对象。查询模式高度依赖数据建模您正在使用的风格。很多在设计时这些因素是已知的,因此可以分布在初始分配创建DDL。一些需要改进随着时间的推移,你的数据大小和查询模式改变。这仍然可以自动连续做健康检查您的数据。

因为数据的重复性和标准化库作为一种造型风格,有好机会应用适当的分配标准,没有干预。在设计时,这可以被覆盖应该需要改变。

标准化的DV查询模式允许容易自动化——作者形象

通常,不同的平台(如突触、红移和雪花和三角洲湖等等)有良好的文档上可用什么策略遵循关于分区,分布和集群。他们也通常有文档来告诉你如何做健康检查数据是否已成为倾斜。你可以把这个大社区的经验,烤成可重复的模式来定期运行,让您的数据“自我修复”。

数据安全

数据安全占用一个健康的通话时间每当我与客户交谈。一直是很重要但它变得更加微妙。大多数公司都搬到云,“作为服务”解决方案。加之周围复杂的个人信息是一个复杂的任务来充实你的大脑。不仅每一个国家都有它自己的立法,立法的每个公司都有自己的解释。

免责声明——自动化无法解决这些细微差别。

自动化并允许迭代和测试您的安全策略要快得多。让合规团队。只有律师才能使用规则在纸上,我们需要看到行动。

你不应该需要手动安全策略适用于用户或角色基地。定义政策前期,理想情况下,你想要这些部署在设计时(不是可悲)。

根据你的数据建模风格您可以很容易地将敏感数据部署到不同的正常化表在安全模式(如数据库),或者你可以把它在一起但应用列或行级策略表的DDL生成。你是否掩盖了数据,加密或简单安全的用户,大多数目标平台满足一些或所有这些特性。设计保持均匀,部署你裁缝根据目标平台部署。

测试

已经有很多关于这个,我建议您阅读测试数据运维¹在别人。

这是一个广泛的话题,我只会强调,我看到的是被忽视的一个方面:策划输入,策划的输出。创建辅助数据集,可以测试疼痛和荣耀所在。

会议邀请下降

好吧,这是一个奖金,但人们都缩小。好的架构解决方案是与执行计划。都需要不间断的集中精力的时候。

总之,可能有更多的地区可以自动化,但我发现这六个方面扮演着关键角色在你建筑的可持续性。这些将迫使你不断改进模式构建好架构解决方案和停止的循环来解决相同的问题。

只是不断问自己哪里可重复的模式存在,他们能得到改善,提高了模式,清洗和重复的方法。

[1]——DataKitchen。2022年。博客——添加DataOps测试部署有信心| DataKitchen。(在线)可以在:< https://datakitchen.io/add-dataops-tests-to-deploy-with-confidence/ >

- - -

- - -

得到了媒介的应用betway娱乐官网

一个按钮“App Store下载”说,如果点击它会使你的iOS应用程序商店
说一个按钮上,谷歌玩,如果点击它会使你的谷歌商店
科恩波特

我的经验跨越数据分析和BI工程。我纯粹的数据爱好者和有点不过知道实用性仍王。

Baidu