出版于开发天才 ·3天前 Pyspark UDF Apache Spark中的表达式和可重复使用的功能用户定义的功能可以通过添加自定义逻辑来扩展Spark和Spark SQL的功能。这些类似于SQL中的功能。我们在功能中定义了一些逻辑,并将它们存储在数据库中,并将其用于查询。UDFS就是… 火花 4分钟阅读 火花 4分钟阅读
出版于开发天才 ·3天前 数据工程的预先数据结构 - 第一部分 在数据工程领域使用的工具中使用的一些数据结构是特定类型的图形。它可以看作是因果效应的图形表示,即DAG中的节点是其前身节点的动作/关系的结果… 数据 4分钟阅读 数据 4分钟阅读
出版于开发天才 ·4天前 数据工程师的Python软件包 在Python担任数据工程师Python时,使用的普通软件包是一种多功能语言。它的模块化方法使我们能够具有特定的代码库处理特定类型的工作。我曾在最后5日担任数据工程师 Python 3分钟阅读 Python 3分钟阅读
出版于开发天才 ·4天前 经验丰富的Python开发人员的25个迹象 使用虚拟环境使良好的Python开发人员的实践:这表明您隔离环境以避免依赖性和软件包版本的问题。另外,如果我们坚持要求和约束文件,它表明我们关心应该如何在另一个地方运行该应用程序。pip… Python 4分钟阅读 Python 4分钟阅读
出版于开发天才 ·5天前 Spark SQL查询计划 挖掘查询计划Spark在分布式模式下运行命令,该命令将代码发送给执行者(靠近数据)。这弄清楚了如何将SQL语句转换为代码并发送给执行者的问题。在此博客中,我们将看到Spark如何执行SQL。在里面… 火花 3分钟阅读 火花 3分钟阅读
出版于开发天才 ·6天前 运行tpc-ds的基准测试 SPARK版本之间的文档性能增益TPC-DS是OLAP系统的领先基准。它的数据被建模为数据仓库。交易处理绩效委员会 - 决策支持TPC-DS模式是雪花架构。它由多个维度和事实表组成。每个维度都有一个单列代理… 火花 7分钟阅读 火花 7分钟阅读
出版于开发天才 ·1月27日 Hive Metastore 文件和裸露的表Hive Metastore服务之间的桥梁负责管理和持续存在元数据,这有助于我们创建文件的表格表示。HMS使用关系数据库存储这些元数据。在嵌入式模式下,它使用德比数据库存储元数据。… Apache Spark 4分钟阅读 Apache Spark 4分钟阅读
出版于开发天才 ·1月19日 datahub - 简介 最受信任的开源数据目录现代数据团队具有更多的数据和角色。数据格局很复杂。在工具周围如此之多的数据和复杂性时,很难找到正确的数据。相信这一发现甚至更难。这创造了有一个… 数据 7分钟阅读 数据 7分钟阅读
出版于开发天才 ·1月15日 数据构建工具(DBT) 现代数据堆栈DBT中的转换是一个开发框架,可帮助我们使用简单的选择查询将原始数据转换为有意义的数据对象,例如数据库表,视图等。使用DBT,我们可以开发,测试,文档和部署整个数据转换管道作为代码。… 开源 7分钟阅读 开源 7分钟阅读
出版于开发天才 ·1月14日 Apache Superset - 简介 通过可视化Apache Superset讲述数据的故事是一个开源数据探索和可视化平台,旨在视觉,直观和交互式。它使用户能够使用其SQL编辑器分析数据,并轻松构建图表和仪表板。超集团允许我们执行以下数据可视化数据探索数据分析特征开源,轻量级… 开源 3分钟阅读 开源 3分钟阅读