出版于迈向数据科学 ·固定 只有会员 我如何组织雪花数据仓库 您应该存储数据的数据库,模式和表格 - 您的数据仓库是现代数据堆栈的枢纽。数据通过诸如Airbyte之类的数据摄入工具流入其中,确保可以使用原始数据。使用SQL和现代数据转换工具(如DBT)进行了数据转换。然后,数据将其流向业务用户… 雪花 10分钟阅读 雪花 10分钟阅读
出版于迈向数据科学 ·固定 只有会员 组织DBT模型的最有效方法 命名约定,YML文件和文件夹结构 - DBT是分析世界中的热门工具,它只会继续变得越来越流行。分析师和分析工程师都使用它以更快,更可靠的方式运行模块化代码。组织是在…中使用DBT的关键组成部分 DBT 7分钟阅读 DBT 7分钟阅读
出版于迈向数据科学 ·固定 只有会员 厌倦了气流?试试这个。 一个新工具可以做到气流的功能,但要做得更好 - 当我第一次加入当前公司时,我的第一个主要项目是决定要用于分析的数据堆。我研究了摄入,仓储,转型和编排的最佳解决方案。其他所有人都很简单,但编排部分使我感到困惑。当然,气流可能是… 空气流动 4分钟阅读 空气流动 4分钟阅读
出版于迈向数据科学 ·固定 只有会员 DBT是分析的未来吗? 该工具如何更改数据分析师的工作方式 - 如果您听说过分析工程师或了解数据建模,那么您可能会熟悉DBT(如果您不熟悉,请阅读此处的内容)。这是现在的热门工具,因为它使数据团队的生活更加轻松!那不是我们所有人想要的…… DBT 6分钟阅读 DBT 6分钟阅读
出版于迈向数据科学 ·12月22日 只有会员 如何正确测试数据模型 在您的桌子和列中测试的位置以及什么 - 测试是工程界最重要的实践之一。在软件工程中,测试可防止虫子被运送到生产。在数据工程中,测试可确保捕获数据并正确移动。在分析工程中,它可以确保您的数据高质量并准备使用…… 测试 9分钟阅读 测试 9分钟阅读
出版于迈向数据科学 ·12月20日 只有会员 如何创建数据质量框架 有关识别关键领域的分步说明 - 当数据到达的时间比预期的晚时会发生什么?还是应该填充的列中的值全部为空?这样的数据质量问题通常是数据管道中出现问题的指标。… 数据质量 6分钟阅读 数据质量 6分钟阅读
出版于迈向数据科学 ·12月15日 只有会员 如何生成免费数据质量报告 使用最新的开源工具RE_CLOUD - 这是有原因经常讨论数据质量的原因 - 很重要!如果您没有高质量的数据,那么您也没有数据。数据的质量直接决定了您对业务的见解的质量。通过实施数据质量计划,您应该始终… 数据质量 8分钟阅读 数据质量 8分钟阅读
出版于极客文化 ·12月13日 只有会员 分析工程是2023年的热门新职业吗? 为什么公司可能会转向这个角色,而不是数据工程 - 每隔几年就有工程领域的“ IT”职业。几年前是数据科学,然后是机器学习,那么在未来几年里会怎样?我坚信这只是分析工程的开始。… 技术 4分钟阅读 技术 4分钟阅读
11月30日 只有会员 省长2.0 + fivetran =完美的对 当我第一次成为分析工程师时,这两个工具如何集成到无缝的数据管道中,我的任务是从头开始创建现代数据堆栈。我的团队需要将从我们的电子商务网站收集的数据合并,并使用来自Facebook,Bing Ads,Google…的外部来源的数据。 长官 8分钟阅读 长官 8分钟阅读
出版于迈向数据科学 ·11月16日 只有会员 如何使数据模型模块化 通过这些步骤避免使用高度耦合的系统和意外的生产错误 - 发现生产中的某些东西破裂是每个工程师最糟糕的噩梦。更糟糕的是,这是一个简单的变化,破坏了一切。当这种情况发生时,您的系统很可能会高度交织在一起,并且这里进行的一项调整可能会导致多米诺骨牌效应。没有更改是安全的… 数据建模 6分钟阅读 数据建模 6分钟阅读