大数据

47 k

故事

23 k

作家

开始写

托尼•希尔

·3小时前

拥抱复杂性——总结

“我还没有发现任何问题，无论多么复杂，只要用正确的方法看待，就不会变得更加复杂。这是关于拥抱复杂性的系列(介绍、数据、云和人工智能)的最后一篇文章。它已经被……

大数据

8分钟阅读

荣

·10小时前

在M1上安装Ubuntu中的Python和PySpark

注意:本设置教程是基于“Apple M1 pro芯片”。这就是我在星火之旅中的学习笔记!第一步:安装UTM虚拟机和Ubuntu在Mac上的安装非常简单!下载Ubuntu 64位Arm版本的。iso文件:https://cdimage.ubuntu.com/jammy/daily-live/current/

大数据

3分钟阅读

Data@Telenet

·3小时前

调整我们自动化的(过时的)Apache Pig脚本

在Telenet以娱乐为中心的部门中，我们的分析团队使用的一个更基本的数据集是关于在我们的数字盒子上观看会话的信息。数据——或者至少是信息——是由终端用户大量生成的(例如，观看了什么节目……

大数据

5分钟读

阿米特·辛格拉索尔教授

在

Dev天才

·1天前

是什么让卡夫卡如此出色?

在本博客中，我们将讨论Kafka在低延迟的情况下实现高吞吐量的设计选择。顺序I/O磁盘中的顺序访问比内存中的随机访问快。卡夫卡利用了上述事实和……

大数据

4分钟阅读

Sharikrishna26

·1小时前

BIGDATA

大数据基础#1根据IBM大数据被分为3V，有很多v。1)数据规模2.5万亿(过渡系统无法处理这种数据)2)多种不同形式的数据结构化RDBMS数据库(Oracle & MySQL)半结构化CSV、XML、JSON非结构化数据音频、视频、图像、日志文件。3)速度数据的速度facebook上的9亿张照片推特上的6亿条推特等等4)准确性数据的不确定性差的质量…

大数据

4分钟阅读

Spark-Radiant 1.0.4有什么新功能?

Spark- radiant是Apache Spark性能和成本优化器。该产品Spark- radiant将有助于优化性能和成本，考虑到催化剂优化器规则、Spark中的增强自动缩放、收集与Spark作业相关的重要指标、Spark中的BloomFilter索引等。我在之前的博客中介绍过这个项目，Spark Radiant。1.0.4 Spark-Radiant……

大数据

4分钟阅读