Hive架构深度

Jayvardhan Reddy

发布于

数据科学管道

4分钟读取 2019年2月5日

义工

acheshive系统ETL数据仓工具建建在Hadeop上方,用于开源Hadeop平台大数据系统汇总、分析查询Hive表相似关系数据库表,数据单元可分解和Bucketing帮助从大到粒子单元整理

作为博客的一部分,我将解释架构如何执行蜂窝查询细节如执行查询、格式、位置和Metestore内阵列表模式等

iv架构有4大构件

hadoop核心组件
元存储器
驱动程序
hive客户端

开始逐个分解

hadoop核心组件

HDFS:当我们把数据装入蜂巢表时,它内部存储HDFS路径数据,即蜂窝仓库目录默认数据

hive默认仓库定位

可创建蜂巢表并按下图显示向内加载数据

二. MapReduce当我们运行下查询时,它会运行地图递减作业,将查询转换或编译成java类文件,建罐并执行该jar文件

二叉mastore:为表命名空间关键部分对蜂巢相关元数据信息都显示为它的一部分,例如表、列、分区和位置细节通常Metestore可用作为关系数据库的一部分,eg: MySql

数据库配置可通过hive-site.xml检查

Metestore细节如下表显示

元表总51表描述与表有关的各种属性,但51表中,3表提供大部分信息,转动帮助推理阵列属性执行表阵列命令

TBLS存储所有表信息(表名、所有者、表类型

二)DBS数据库信息(数据库地址、数据库名称、所有者)

三)COLUMNS_V2列名和数据类型

注:实时访问元商店仅限于管理员和特定用户

3级驱动程序 : 组件剖析查询,对不同的查询块和查询表达式进行语义分析并最终生成执行计划编译程序创建执行计划

批量文件组成蜂窝包帮助HiveQL查询转换成等效MapReduce作业(java)并用MapReduce执行

检查蜂巢能否与适当的集群对话i.-ive与现有集群交互、查询或执行核址xml下查细节

也可以从蜂巢验证相同

4级hive客户端:它是一个接口,我们可以通过它提交hive查询iveCLI,Beeline是终端界面中的一部分,我们也可以使用We-Interface像Hue和Ambari

通过CLI或WebInterface连接Hive时,它也连接Metostore

相关命令查询GIT系统存储库

读得愉快的话,你可以点击下文的心QQQ并通知他人如有问题需要补充,请自由留言

Jayvardhan Reddy

写由 Jayvardhan Reddy

314跟踪器

Writer for

数据科学管道

数据工程师大数据架构工具技术搭建大数据管道