1.5.1Դ?源码???ʲô??˼
2.大数据笔试真题集锦---第五章:Hive面试题
5.1Դ????ʲô??˼
å å¼ï¼å¦æä½ ä¸æ³å软件å¼åçè¯ï¼å ¶å®ä½ ä¸ç¨çº ç»è¿äºä¸è¥¿ï¼ç®åç»ä½ ä»ç»ä¸ä¸ï¼QTæ¯ä¸ä¸ªå¼æºï¼ä¹å°±æ¯opensourceï¼ä»»ä½äººé½å¯ä»¥è·åå®çæºä»£ç ãï¼çå¾å½¢ç¨æ·çé¢åºç¨ç¨åºæ¡æ¶ï¼å¯ä»¥ç¨å®æ¥å¼ååç§ç¨åºç交äºçé¢ï¼SDKæ¯è½¯ä»¶å¼åå·¥å ·å çç®åï¼æ¯æè¾ å©å¼åæä¸ç±»è½¯ä»¶çç¸å ³ææ¡£ãèä¾åå·¥å ·çéåï¼Qtcreatoræ¯QTçéæå¼åç¯å¢ï¼qt5.1æ¯qtççæ¬å·ï¼MinGWæ¯ä¸ä¸ªGNUå·¥å ·éï¼å¦ï¼ç¼è¯å¨GCCãG++ï¼è°è¯å¨GDBçç¨åºï¼å¯¼å ¥åºçéåï¼å¯ä»¥ç¨è¿äºèªç±è½¯ä»¶å¨windowsä¸ä½¿ç¨CæC++æ¥å¼åç¨åºï¼qmakeæ¯QTæä¾çä¸ä¸ªMakefileæ件èªå¨çæå·¥å ·ï¼libraryæ¯ä¸ç»ç¹å®åè½çç¨åºéåãQTå°±æ¯ä¸ä¸ªå¤§çlibraryã
大数据笔试真题集锦---第五章:Hive面试题
我会不间断地更新维护,希望对正在寻找大数据工作的什意思朋友们有所帮助。 第五章目录 第五章 Hive 5.1 Hive 运行原理(源码级) 1.1 reduce端join 在reduce端,源码对两个表的什意思数据分别标记tag,发送数据。源码根据分区分组规则获取相同key的什意思庄现指标源码数据,再根据tag进行join操作,源码完成实际连接。什意思 1.2 map端join 将小表复制到每个map task的源码内存中,仅扫描大表,什意思对大表中key在小表中存在时进行join操作。源码使用DistributedCache.addCacheFile设置小表,什意思通过标准IO获取数据。源码 1.3 semi join 先将参与join的什意思表1的key复制到表3中,复制多份到各map task,源码过滤不在新表3的表2数据,最后进行reduce。 5.2 Hive 建表5.3.1 传统方式建表
定义数据类型,如:TINYINT, STRING, TIMESTAMP, DECIMAL。 使用ARRAY, MAP, STRUCT结构。5.3.2 CTAS查询建表
创建表时指定表名、underscore.js 源码存储格式、数据来源查询语句。 缺点:默认数据类型范围限制。5.3.3 Like建表
通过复制已有表的结构来创建新表。5.4 存储格式和压缩格式
选择ORC+bzip/gzip作为源存储,ORC+Snappy作为中间存储。 分区表单文件不大采用gzip压缩,桶表使用bzip或lzo支持分片压缩。 设置压缩参数,如"orc.compress"="gzip"。网页不能查看源码5.5 内部表和外部表
外部表使用external关键字和指定HDFS目录创建。 内部表在创建时生成对应目录的文件夹,外部表以指定文件夹为数据源。 内部表删除时删除整个文件夹,外部表仅删除元数据。5.6 分区表和分桶表
分区表按分区字段拆分存储,避免全表查询,提高效率。 动态分区通过设置参数开启,根据字段值决定分区。宏杰代理源码 分桶表依据分桶字段hash值分组拆分数据。5.7 行转列和列转行
行转列使用split、explode、laterview,列转行使用concat_ws、collect_list/set。5.8 Hive时间函数
from_unixtime、unix_timestamp、to_date、month、APP登录HTML源码weekofyear、quarter、trunc、current_date、date_add、date_sub、datediff。 时间戳支持转换和截断,标准格式为'yyyy-MM-dd HH:mm:ss'。 month函数基于标准格式截断,识别时截取前7位。5.9 Hive 排名函数
row_number、dense_rank、rank。5. Hive 分析函数:Ntile
效果:排序并分桶。 ntile(3) over(partition by A order by B)效果,可用于取前%数据统计。5. Hive 拉链表更新
实现方式和优化策略。5. Hive 排序
order by、order by limit、sort by、sort by limit的原理和应用场景。5. Hive 调优
减少distinct、优化map任务数量、并行度优化、小文件问题解决、存储格式和压缩格式设置。5. Hive和Hbase区别
Hive和Hbase的区别,Hive面向分析、高延迟、结构化,Hbase面向编程、低延迟、非结构化。5. 其他
用过的开窗函数、表join转换原理、sort by和order by的区别、交易表查询示例、登录用户数量查询、动态分区与静态分区的区别。