1.【入门】Kylin 基本原理及概念
2.数据智能和大数据分析名词解读
3.低聚岩藻聚糖硫酸酯命名的标源历史渊源
4.阿帕奇-麒麟(Kylin)-cube优化
5.大厂的OLAP架构啥样的?
6.DBT 收购 Transform,指标平台已成现代数据栈关键拼图
【入门】Kylin 基本原理及概念
Kylin版本:2.5.1 前言
作为由国人主导并贡献到Apache基金会的源码开源项目,Kylin被誉为大数据分析界的分析“神兽”。这篇文章将带你深入了解Kylin的标源基本原理、优势、源码架构以及核心概念,分析智慧水厂源码帮助你理解为什么Kylin能够成为大数据分析的标源强大工具。
一、源码Kylin简介
Kylin的分析出现是为了满足大数据系统中TB级别数据的分析需求。它提供了一种在Hadoop/Spark之上的标源SQL查询接口和多维分析(OLAP)能力,能够以亚秒级的源码速度查询巨大的Hive表。其核心在于预计算,分析计算结果存储在HBase中,标源实现了高效的源码数据处理和查询。
二、分析Kylin优势
Kylin的优势主要体现在以下几个方面:高性能、低延迟、易于集成、可扩展性等。这些优势使得Kylin能够满足企业级的大数据分析需求,被广泛应用于各种业务场景中。
三、基本原理
Kylin的核心思想是预计算。它通过离线计算数据源(如Hive)中的数据,按照指定的维度和指标,生成所有可能的查询结果(即Cube),并将这些结果存储在HBase中。当需要查询时,可以快速访问预先计算好的数据,从而实现高效响应。
四、架构
Kylin架构包括四个主要部分:数据源、构建Cube的计算引擎、存储引擎、对外查询接口。它依赖于HDFS、MapReduce/Spark、Hive/Kafka、HBase等服务,提供了一套完整的解决方案。
五、基本概念
在Kylin中,Table(表)、Model(模型)、Cube(立方体)、Cube Segments(立方体段)等概念至关重要。它们共同构成了Kylin的数据模型,帮助用户从不同角度理解和分析数据。网络加速器程序源码
六、总结
通过本文的学习,你将对Kylin的原理、架构以及核心概念有全面的了解。Kylin作为大数据分析的强大工具,能够满足各种复杂的数据分析需求。想要深入了解Kylin的读者,可以访问其官方网站获取更多详细信息。
数据智能和大数据分析名词解读
在大数据与数据智能的世界中,术语犹如繁星点点,照亮了数据处理与分析的广阔天空。让我们逐一探索这些关键概念,以便更好地理解和利用它们。
即席查询,如同数据仓库中的灵活勇士,用户可以随心所欲地定制查询,其核心功能与SQL相似,但缺乏预优化,直接反映数据仓库的效率。它专为海量清单查询而生,条件设置自由,且能迅速响应,比如Presto、Kylin和Impala等工具就是它的得力助手。
透视分析则是数据分析师的速写本,交互式报表的魔法棒。它能快速合并和切片数据,实现自动统计分析,让Excel般的易用性与大数据的秒级响应无缝对接,数据透视表就是其中的明星代表。
数据的魔法变幻中,原子指标与虚拟指标扮演着重要角色。它们是业务动作与统计口径的结合体,通过派生定义统计范围,细分事务型和存量型,例如交易金额的完成值和占比,为决策提供有力支撑。
经典的关系数据库管理系统(RDBMS)则是数据的秩序守护者,它负责逻辑组织和数据存取,确保信息的精确和一致性。
而当面对海量数据的挑战时,Hadoop如曙光降临。作为Apache基金会的分布式计算框架,Hadoop的核心组件HDFS是一个高容错、成本低且吞吐量惊人的文件系统,它支持流式访问,HDFS负责存储,业务发布软件网站源码MapReduce则在计算层面发挥威力,共同构建了大数据处理的基础框架。
在数据收集与分析的旅程中,埋点技术如同一双无形的眼睛,追踪用户行为,为决策提供实时数据支持。ABI平台,即分析与商业智能,它区别于AI+BI,以指标为核心,通过数据集市和指标中台,以需求为导向,实现轻量级和敏捷的商业洞察。
最后,ETL——数据的生命线。它涉及数据的抽取、转换和加载,是构建商业智能的基础,项目的成败往往与其紧密相关。ETL工具、SQL以及两者结合的手段,共同编织了数据世界的经纬。
以上概念犹如数据处理的拼图,每一部分都不可或缺,共同构建了我们理解和驾驭大数据的坚实基础。理解并熟练运用它们,将使我们在数据智能的浪潮中游刃有余。
低聚岩藻聚糖硫酸酯命名的历史渊源
在年,Kylin首次从褐藻类的掌状海带(Laminaria digitata)中,通过稀酸提取并水解后,利用苯腙分离出了一种名为L-fucose(L-岩藻糖)的多糖,将其命名为"Fucoidan",即岩藻聚糖。这一发现开启了人们对褐藻类多糖硫酸酯研究的大门。后续研究中,科学家在诸如墨角藻、泡叶藻、裙带菜、羊栖菜、海蕴、厚叶解曼藻和海带等众多褐藻中也发现了岩藻糖成分,因此,这类物质被统称为"褐藻多糖硫酸酯"。然而,不同褐藻提取的多糖硫酸酯成分存在差异,这导致了命名上的混淆。 要明确这些化合物的微信小程序例子源码命名,首先需要对藻类生物的知识有所了解,掌握海藻多糖与褐藻多糖的区别,以及褐藻多糖硫酸酯与岩藻聚糖硫酸酯的特性和分类。岩藻聚糖硫酸酯作为一种天然健康食品和药物原料,因其带有硫酸根,具备阴离子高分子化合物的特性。它具有多种生理活性,如抗凝血、降血脂、抗慢性肾衰、抗肿瘤、抗病毒等,还能促进组织再生和抑制胃溃疡,增强免疫功能。此外,它作为免疫调节剂直接影响巨噬细胞和T细胞,具有抗凝血和促纤溶作用,能诱导癌细胞凋亡,且能促进细胞生长和修复组织,特别适用于血粘度过高和预防血栓的病人。 然而,关于其药理作用,mg/Kg和mg/Kg剂量对麻醉犬血压和心**响不明显,而mg/Kg和mg/Kg对小鼠神经系统无明显影响。急性毒性实验中,小鼠静脉注射的LD为.3±.8mg/Kg,灌胃给药的LD则大于4g/Kg,大鼠的相应值也相同。长期毒性测试表明,每日给予大鼠2.5g/Kg、0.9g/Kg或0.3g/Kg连续6个月,恢复期一个月,除了凝血时间有所延长,其他血液学指标和脏器系数均无明显变化,病理组织学检查也未见显著异常。在比格狗的口服给药安全性研究中,mg/Kg的剂量被认为是安全无毒的。 最后,岩藻聚糖硫酸酯在鼠伤寒沙门氏菌回复突变试验(Ames试验)中未表现出基因致突变作用,这表明其在遗传安全性方面具有良好的表现。扩展资料
低聚岩藻聚糖硫酸酯,是岩藻聚糖硫酸酯的高级产品。岩藻聚糖硫酸酯,英文名称Fucoidan,也称为褐藻糖胶、褐藻多糖硫酸酯、岩藻聚糖等,豪迪qq群发源码主要由含硫酸基岩藻糖(Fucose)组成,其次还伴有少量的半乳糖、甘露糖、木糖、阿拉伯糖、糖醛酸等,是一种水溶性的杂聚多糖,其主要有效成份是α-L-岩藻糖-4-硫酸酯。阿帕奇-麒麟(Kylin)-cube优化
阿帕奇-麒麟(Kylin) cube优化是数据仓库领域中提高查询性能的重要技术。cube概念代表所有维度的组合,而cuboid是指特定维度分析组合。lookup-table包含事实表某些列的扩充说明,而dimension是由fact table与lookup table逻辑抽象出的包含多个相关列的表,cardinality表示dimension值的数量。在Kylin_sales_cube中,LSTG_FORMAT_NAME被单独抽离为一个dimension,可与其他维度组合分析数据。
在Kylin的Aggregation Groups Cube中,维度可以划分到多个聚合组中。默认情况下,所有维度放在一个聚合组,并通过“Mandatory Dimensions”,“Hierarchy Dimensions”和“Joint Dimensions”优化维度组合。设置这些维度类型的主要目的就是为了剪枝,减少计算的cuboid数量。
理解normal和derived dimension的差异在于计算资源的使用。normal维度数据存储在storage端,节省资源,适用于不需要聚合或在storage端分布式聚合的情况。而derived维度则需读取回Kylin server进行聚合,通过主键映射找到所需维度。Mandatory(固定)dimension是所有cuboid必须包含的维度,避免计算未包含强制维度的cuboid。这在查询时确定使用的维度上特别有效,可以将维度组合减少一半。
Hierarchy(层级)dimension指的是事实表中的维度满足层级关系时定义的维度,如年、月、日或国家、省份、城市等。这些具有层次关系的维度在OLAP操作如上卷、下钻时尤其有用,能大幅减少cuboid的数量。
联合维度(join dimension)则是将几个维度视为一个维度,适用于查询时一定会同时使用的维度,基数很小的维度或很少使用的维度。通过这种方式,可以将N个维度组合成的cuboid个数从2的N次方减少到1。
Derived(衍生)dimension指的是类维度,通过在Kylin内部使用统一主键替换多对一关系的维度表列,以降低维度组合的数据量,但可能在一定程度上影响查询效率。设置measure的目的在于指定需要预计算的指标,以提高查询性能。
大厂的OLAP架构啥样的?
引入OLAP引擎Kylin 在Kylin之上引入指标平台: 应用层统一通过指标API来获取数据,不直接使用SQL访问Kylin。 基于前面思考,就有基于Kylin的OLAP平台架构。从底向上分3层:指标平台
1. 指标定义 每个指标通过很多维度去描述,上图展示一个指标包含基本信息及血缘。 基本信息包含指标名称,如带看量_集团?若是房产相关公司,就是卖房租房都要带客去看,所以这是重要指标。 关注指标的支持维度,即允许业务方从哪些维度去看数据,如:支持从组织架构的不同层级查看集团带看量。
也可以查看区域的带看量,可以看某个具体人的带看量,可以看到多个维度的带看量。另外比较关键的信息,指标的口径描述了指标计算方式。通过这个指标定义,方便了解指标信息及直观定义。
指标是指是对维度建模(星型或雪花模型)的抽象,指标包括维度和度量,分别对应维度建模中的度量和维度。 许多使用指标时需要了解的重要信息,如指标的口径描述了指标计算方式。指标类型
指标平台实现指标的统一定义和口径管理。 所有的指标的定义和口径都是在指标平台进行管理的。各个业务方都主要通过在OLAP平台上定义和使用指标,来实现多维数据分析的。指标查询
指标平台对外提供统一的API来获取指标数据,上图就是一个指标调用参数示例,参数传到指标平台,指标平台会根据调用参数自动转换为Kylin查询SQL,对Kylin发起查询,获得数据,并根据需求进一步处理。 左边的指标调用参数,JSON直观。如startDatae为开始日期,endDate为截止日期,描述需查询哪个时间范围的指标数据;filter表示过滤条件,如city_code等于,表示要查看北京的带看量。Json中还可以配置是否分页,是否需要计算同环比。Json查询参数传送到指标平台,指标平台负责将调用参数转换成对底层OLAP查询引擎Kylin的查询语句。从生成的Kylin SQL中可以看到,startDate及endDate被转换成了一个SQL中的过滤条件,dim描述的city_code转换为groupby聚合语句。参数与SQL的这类转换映射关系,在指标开发的时候,通过在Kylin的Cube模型里面定义的,调用人员就不需要显示指定。为提高查询性能,Kylin也会做一些维度补全的工作,如示例中的sun_dt及month这类层级维度。指标API应用
指标完成开发之后,就可在内部可视化平台利用指标配置各种报表,也可以自己开发数据应用产品,在产品里调用指标API获取数据。 上图展示利用指标在可视化平台中配置报表的救命,通过在数据源中选择一个指标,指标对应的维度和度量呈现出来。通过拖拽维度、度量便能快速完成报表。内部也有大量的数据产品通过调用指标API来获取指标数据。Kylin选型及简介
为什么选择Kylin?根据第一阶段的问题,需求是:通过选型测试Kylin正好满足。
Kylin架构
核心思想就是预计算,对多维分析可能用到度量进行预计算,把预计算结果存在Cube,供后续查询。Kylin整体架构如上。解决维度爆炸
预计算一个最大问题“维度爆炸”,维度组合太多,计算量过大。Kylin咋优化呢?只是Kylin基于大数据平台实现这套,使它可支持海量数据,而之前基于这种预计算方式的引擎支持的数据量很有限。建立标准的指标开发流程
有在Kylin中操作的部分,也有在指标平台操作的部分。所以是围绕Kylin来构建的OLAP平台。指标(Kylin)使用统计
经过两三年推广,基于Kylin的OLAP平台在公司得到了较广泛的应用,支撑整个公司指标体系的建立,覆盖所有业务线。目前,平台上有:滑动查看Kyligenc...
在Kylin使用过程中,为了保障Kylin的稳定性及提升Kylin构建和查询性能,围绕Kylin做的工作: Kylin在公司内应用现状: 引入其他引擎如Druid、Clickhouse、Doris,中间增加查询引擎层,其中标红的是Cube管理负责管理Kylin中迁移过来的指标。统一指标API屏蔽了底层接口,保证兼容性,应用层保持不变。统一Cube定义与管理
将Cube定义和管理从Kylin中解耦到指标平台:查询引擎会根据传入的指标调用参数自动生成不同引擎的查询语句,指标平台不用再承担这部分工作。
标准化指标开发流程
这样一来,指标开发流程变得更加通用,虽各节点不变,但所有工作都在指标平台实现,不用强依赖Kylin。整个开发流程语义有变,如: 具体而言,Druid引擎构建Cube,就转换为根据Cube中的Join关系生成宽表,指标平台会把对指标的查询转换照宽表查询。针对Doris引擎,支持较好的关系关联Join查询,就不用转换为宽表,直接把几个维表和事实表都导入,直接执行Join查询。因此,不同引擎有不同语义。指标开发工具
为更好实现指标开发,我们开发了一站式指标开发工具VILI,整个指标开发过程,包括数仓规划和建模,Cube建模,指标定义、指标加工,复合指标加工等都在该工具上实现。类似于实现阿里的OneData体系。 现在 OLAP 平台能够灵活地支持不同的 OLAP 引擎,该选啥 OLAP 引擎?OLAP平台架构演化历程
引入其他引擎如Druid、Clickhouse、Doris,中间增加查询引擎层,其中标红的是Cube管理负责管理Kylin中迁移过来的指标。统一指标API屏蔽了底层接口,保证兼容性,应用层保持不变。引入其他OLAP引擎
引入其他OLAP引擎如Druid、Clickhouse、Doris,增加了平台的灵活性和效率。OLAP技术选型
在选择OLAP引擎时,需要考虑数据量、查询性能和灵活性。目前没有一种引擎能同时满足所有需求,需要根据具体业务场景进行权衡。OLAP引擎对比
Druid、Clickhouse和Doris等引擎在数据量和查询性能方面表现良好,适合TB级数据处理。灵活性方面,关注SQL支持、实时数据导入、实时更新和在线Schema变更等特性。案例介绍
以Druid为例,展示其与Kylin在数据导入时间与数据膨胀率方面的对比。Druid在构建时间上通常比Kylin快,且数据膨胀率较低,更适用于实时指标查询。规划与展望
关注指标定义、查询优化与API集成,持续提升OLAP平台的性能与稳定性。同时,随着业务需求的不断变化,灵活引入和整合新的OLAP引擎,以适应不同场景的分析需求。DBT 收购 Transform,指标平台已成现代数据栈关键拼图
DBT 宣布完成对 Transform 的并购,补强了现代数据栈的关键组件。DBT 是数据转换处理的专家,而 Transform 则聚焦于指标平台,两者合并后,DBT 的 Semantic Layer 能够更好地融合 Transform 的指标特性,为提供更全面的数据分析能力铺平道路。这次并购体现了从数据驱动到指标驱动的转变,即通过简洁、统一的方式定义和管理指标,以指标为核心,提供高效的数据分析应用。
语义层作为实现载体,旨在统一业务逻辑,使业务人员无需关注底层技术细节,即可轻松进行数据分析。通过以指标或指标体系为中心,企业能够实现业务驱动的指标体系,加速数字化建设。Salesforce 预测显示,指标在数据价值传递中扮演高效衔接角色,支撑业务决策。
来自中国的 Kyligence 是领先的大数据分析和指标平台供应商,提供企业级 OLAP 平台和一站式指标平台。Kyligence Zen 作为 Kyligence 的核心产品,通过集成业务模型、指标管理和数据服务等功能,帮助企业构建数字化管理体系,驱动指标驱动的管理与决策。Kyligence Zen 的指标目录构建统一指标体系,降低使用门槛,提升业务团队的数据解读和运用能力,同时通过 AI 增强技术,自动化生成指标目录,降低开发成本。
DBT 和 Transform 的合并及 Kyligence Zen 的应用,共同推动了从数据驱动到指标驱动的转变,为企业提供更高效的数据分析和决策支持。通过整合技术与产品,实现指标驱动的管理与决策,提升企业数字化管理水平。
要了解更多关于 Kyligence Zen 的核心能力与应用场景,请访问 Kyligence Zen 官网。关于 Kyligence,它由 Apache Kylin 创始团队于 年创建,致力于提供企业级 OLAP 平台产品和一站式指标平台,服务全球多个行业,包括银行、证券、保险、制造、零售、医疗等,与多家知名企业及全球合作伙伴达成合作,获得多次机构投资。