【kubernates 源码】【源码输出无声音】【数据监控系统源码】thrift源码分析-皮皮网

【kubernates 源码】【源码输出无声音】【数据监控系统源码】thrift源码分析

时间：2025-01-31 01:43:06 来源：java 小型项目源码

1.Apache Ranger整合Hadoop、源码Hive、分析Spark实现权限管理
2.Thrift入门 | Thrift框架分析（源码角度）

thrift源码分析

Apache Ranger整合Hadoop、源码Hive、分析Spark实现权限管理

在先前的源码文章《说说PB级生产上重要的Spark 3.x性能优化方向》中，提到了业务人员在处理数据时可能因误操作而造成数据损坏的分析kubernates 源码问题。在许多场景中，源码数仓需要直接开放给业务分析人员使用，分析他们经常执行SQL进行场景分析和验证。源码为此，分析可以提供一个WebUI供他们使用，源码如Hue。分析然而，源码由于数仓数据庞大，分析不可能全部开放给业务人员，源码因此对外供数时必须提供权限控制。

权限控制方面，CDH上提供的Sentry是一个不错的选择，它基于RBAC进行授权，可以针对库、表等设置不同用户权限。CM的加入使得Sentry的配置变得简单，但Sentry在用户管理方面较为繁琐，且项目已进入Apache Attic，因此选择Sentry并非明智之举。源码输出无声音

实际上，许多公司的生产环境都是外网隔离的，特别是涉及敏感数据的小猴公司。开发、运维人员进入生产环境需要经过严格的校验，接入公司的生产专用网络，并通过堡垒机，任何人都无法导出数据，且每个操作都有审计跟踪。尽管如此，业务人员仍需开放访问，尽管他们通过专门的跳板机访问，但依然存在风险。

Apache Ranger只要有大数据集群的地方就都需要。本文解决了Ranger不支持Spark SQL的问题，实现了库、表、行、列级别的细粒度权限控制。由于官方文档和百度文档有限，本文将分享相关信息，希望能帮助到大家。

Apache Ranger是一个用于Hadoop平台上的权限框架，旨在服务于整个大数据生态圈。数据监控系统源码随着Hadoop在数据湖领域方案的成熟，对数据权限控制的要求也日益提高。Ranger现在提供了更多对大数据生态组件的支持。

Hadoop中的数据访问多样化，如存储在HDFS的数据可以被Hive、Spark或Presto访问。这么多组件访问数据，若不进行集中权限控制，数据安全性将面临严重问题。因此，大数据平台通常需要一个集中管理权限的组件或框架，Ranger正是这样的组件。

当前Ranger版本为2.1，官方提供的版本为2.1。编译测试基于Ranger 2.1版本。官方未提供安装包，需要手动下载Ranger源码包进行编译。编译环境要求提前安装，具体可参考官方网站。

编译成功后，将tar.gz包拷贝到本地。部署Ranger Admin的安装方式与Ranger类似：安装Ranger admin、创建ranger用户并设置密码、上传解压安装包、vue vux商城源码拷贝MySQL JDBC库、在MySQL中创建ranger库和用户、初始化配置、初始化Ranger admin。若显示成功，则表示初始化成功。在MySQL中可以看到ranger数据库中已创建大量表。

配置Ranger设置数据库密码、配置环境变量、启动Ranger admin访问web UI。登录后，主界面显示如下。点击右上角的“Swith to latest UI”可以切换到最新的UI展示。若安装过程中出现问题，请检查日志。

安装Ranger usersync配置admin认证模式。Ranger中admin的认证方式有三种：Unix、Active Directory、Kerberos。此处使用Unix方式进行认证，意味着后续Ranger admin登录会按照Linux中的认证同步。上传解压Ranger usersync组件、修改初始化配置、初始化配置、盒伙人源码配置Linux系统用户组同步配置环境变量、启动usersync服务、修改Ranger admin的认证方式、重新启动Ranger admin。在ranger-admin中可以看到所有Linux中的所有用户。

安装Ranger HDFS插件。注意，HDFS插件需要安装在NameNode对应的节点中，YARN插件需要安装在ResourceManager对应的节点上。解压HDFS插件、初始化配置、启用hdfs插件。Ranger HDFS插件会将当前的配置文件保存备份。可以查看ranger对这些配置文件的更改。

在PM中添加HDFS服务、配置HDFS服务权限策略、默认策略、策略配置、测试用户访问权限、在ranger中添加组合用户、基于角色授权、测试。我们发现，只要Ranger中的权限已更新，hdfs客户端就可以实现更新。

按照之前的配置，审计日志信息保存在指定目录。找到一条审计日志，查看其中的内容。审计日志中包含操作时间、路径、资源类型、对应Ranger中的策略等信息。一旦出现安全类问题，通过审计日志可以检查到进行了哪些操作。

部署Ranger HDFS HA。在HDFS的HA集群上，NameNode可能会发生failover，因此非常有必要在每个HDFS的NameNode上部署一个HDFS插件，以确保在HA切换时能够正常控制权限。部署hdfs plugin到每个NameNode节点、初始化NameNode、测试NameNode节点权限。测试lisi用户在/tmp目录的写入权限，发现当前lisi没有写入权限。在Ranger中启用sales角色的用户具备/tmp目录可写权限。重新执行写入操作，NameNode接入Ranger权限控制成功。

部署Ranger框架整合Hive、上传解压Hive插件、初始化配置、启动Hive插件。Ranger会对Hive的配置文件进行处理，生成hiveserver2-site.xml、ranger-hive-audit.xml、ranger-hive-security.xml等文件。重新启动Hive、beeline登录到hive、在PM中添加Hive服务、添加Hive Service、查看权限策略、查看默认hive导入的权限、使用hive查看数据、给hadoop组用户授权、检查spark用户操作权限、授权hadoop组、对某个库、表、列设置细粒度权限、测试数据打码处理、测试Ranger Admin crash对Hive的影响、部署Ranger Spark SQL、编译Apache submarine spark-security模块、配置、配置Spark SQL、测试Thrift Server、测试Spark SQL SHELL、到此Ranger整合Spark SQL完成、查看spark sql审计日志、报错信息处理、找不到AllocationFileLoaderService$Listener、异常信息、解决办法、参考文献。

Thrift入门 | Thrift框架分析（源码角度）

深入理解Thrift框架，首先需要掌握其基本概念。Thrift是一个用于跨语言通信的框架，其设计初衷是提高开发效率和简化多语言环境下的服务调用。以下是Thrift框架的核心组成部分及其功能概述。

Thrift框架主要包括两个层：Protocol层和Transport层。Protocol层主要负责数据的序列化和反序列化，而Transport层则负责数据流的传输。Protocol层中包含多种序列化协议，常见的有Compact、Binary、JSON等，它们都继承自TProtocol基类，提供读写抽象操作。

以TBinaryProtocol为例，它是一种基于二进制的序列化协议。序列化过程主要包括以下几个关键步骤：

writeMessageBegin：用于序列化message的开始部分，包括thrift版本、message名称和seqid等信息。

writeFieldStop：在所有字段序列化完成后，写入T_STOP标识符，表示序列化结束。

writeI、writeString、writeBinary：分别用于序列化整型、字符串和二进制数据。

在读取操作中，这些write操作的逆操作被执行，以实现反序列化。Protocol层的实现细节主要体现在读写函数的调用和抽象上。

Transport层负责数据的实际传输，它提供了一系列抽象方法，如isOpen、open、close、read和write等，用于管理底层连接的打开、关闭和数据读写。常见的Transport层协议包括TFramedTransport和TSocket。TFramedTransport通过缓冲区管理，实现了数据的分帧传输，而TSocket则基于原始的socket实现网络通信。

为了进一步提高性能，Transport层可能包含缓存和压缩等功能，以优化数据传输效率。Thrift中，TSocket作为底层传输层，负责与原始socket交互，而TFramedTransport等上层Transport则在TSocket的基础上进行扩展，实现数据的高效传输。

总结，Thrift框架通过其Protocol层和Transport层，实现了跨语言、高效的数据传输。深入理解这些组件及其工作原理，对于开发和优化基于Thrift的分布式系统具有重要意义。

更多内容请点击【综合】专栏

【kubernates 源码】【源码输出无声音】【数据监控系统源码】thrift源码分析

热门资讯

精彩推荐