托尼•希尔 ·3小时前 拥抱复杂性——总结 “我还没有发现任何问题,无论多么复杂,只要用正确的方法看待,就不会变得更加复杂。这是关于拥抱复杂性的系列(介绍、数据、云和人工智能)的最后一篇文章。它已经被…… 大数据 8分钟阅读
荣 ·10小时前 在M1上安装Ubuntu中的Python和PySpark 注意:本设置教程是基于“Apple M1 pro芯片”。这就是我在星火之旅中的学习笔记!第一步:安装UTM虚拟机和Ubuntu在Mac上的安装非常简单!下载Ubuntu 64位Arm版本的。iso文件:https://cdimage.ubuntu.com/jammy/daily-live/current/ 大数据 3分钟阅读
Data@Telenet ·3小时前 调整我们自动化的(过时的)Apache Pig脚本 在Telenet以娱乐为中心的部门中,我们的分析团队使用的一个更基本的数据集是关于在我们的数字盒子上观看会话的信息。数据——或者至少是信息——是由终端用户大量生成的(例如,观看了什么节目…… 大数据 5分钟读
阿米特·辛格拉索尔教授 在 Dev天才 ·1天前 是什么让卡夫卡如此出色? 在本博客中,我们将讨论Kafka在低延迟的情况下实现高吞吐量的设计选择。顺序I/O磁盘中的顺序访问比内存中的随机访问快。卡夫卡利用了上述事实和…… 大数据 4分钟阅读
Sharikrishna26 ·1小时前 BIGDATA 大数据基础#1根据IBM大数据被分为3V,有很多v。1)数据规模2.5万亿(过渡系统无法处理这种数据)2)多种不同形式的数据结构化RDBMS数据库(Oracle & MySQL)半结构化CSV、XML、JSON非结构化数据音频、视频、图像、日志文件。3)速度数据的速度facebook上的9亿张照片推特上的6亿条推特等等4)准确性数据的不确定性差的质量… 大数据 4分钟阅读
Saurabh拉 在 Dev天才 ·1天前 Spark-Radiant 1.0.4有什么新功能? Spark- radiant是Apache Spark性能和成本优化器。该产品Spark- radiant将有助于优化性能和成本,考虑到催化剂优化器规则、Spark中的增强自动缩放、收集与Spark作业相关的重要指标、Spark中的BloomFilter索引等。我在之前的博客中介绍过这个项目,Spark Radiant。1.0.4 Spark-Radiant…… 大数据 4分钟阅读
Apache SeaTunnel(孵化) ·1天前 Apache SeaTunnel在Shopee中的实践 在Apache SeaTunnel(孵化)& Shopee Meetup期间,汪洋讨论了Shopee数据基础设施团队为什么选择Apache SeaTunnel作为他们新的数据集成框架,以及SeaTunnel是如何集成到…… 大数据 21分钟阅读
Vikash Bajaj ·1天前 在Elasticsearch和OpenSearch之间移动数据的主指南 Elasticsearch是最常用的全索引分布式数据库之一。有些公司使用它来保存基础设施中的日志/指标,而有些公司则使用它来提供搜索/分析功能。自从亚马逊AWS和Elasticsearch发生龃龉以来,亚马逊推出了Elasticsearch的分叉版本,并将其命名为OpenSearch…… 大数据 5分钟读
管理与数据科学 ·1天前 2022年最佳球员——人工智能邀请自己进入金球奖名单 科学文章《如何用人工智能来决定金球奖的授予?》由教授兼研究员RUTAMBUKA DAVID撰写,讲述了一个非常有争议的话题。金球奖。近年来,关于金奖评选的丑闻层出不穷。 大数据 2分钟阅读
Brocoders 在 Brocoders团队 ·2个小时前 零方数据-收集,定义,例子,策略 多年来,大数据一直是商界不可或缺的一部分。到目前为止,全球大数据和分析市场价值700亿美元,预计到2027年将增长到1030亿美元,帮助全球95%的企业应对同样的问题——需要管理…… 大数据 11分钟阅读