1.CDH/HDP迁移之路
2.客户数据中台是什么意思?
3.什么是CDP?
4.浅析Selenium-WebDriver
5.浏览器/浏览器插件的资源嗅探是怎么做到的?
CDH/HDP迁移之路
哪些用户需要迁移
原社区版用户
随着Cloudera的产品策略调整,社区版用户将面临无法获取新功能与性能提升的困境。从年1月日起,所有Cloudera软件都需要有效的订阅,这不仅提高了成本,还对用户使用体验构成了挑战。源码编辑器训练超声蝠对于寻求最新功能与技术支持的用户,迁移是必要的选择。
原企业版用户
Cloudera与Hortonworks的合并后,推出了新的大数据平台CDP,CDH 6和HDP 3成为了企业版产品的最后一代。这些产品将不再提供新的功能和性能提升,至年3月份,CDH/HDP产品线将全部进入结束服务状态(EoS),用户将无法获得必要的售后支持。
迁移方向
CDP
作为合并后的产物,CDP融合了CDH与HDP的能力,并添加了新功能和Bug修复,支持云部署。然而,CDP存在与国产软硬件生态不兼容的问题,技术自主可控性受限,并受到外国法律约束。例如,近期的python merge 源码俄罗斯事件揭示了这方面的风险。
国内封装的Hadoop商业版
通过封装开源组件,提供安装部署运维方面的增强。但封装过程仍受制于外国法律与国际形势,与CDP面临相似的风险。此外,封装的厂商无法获取最新的开源组件源代码,自主可控性有限。
国内自主研发大数据产品TDH
Transwarp Data Hub(TDH)是星环科技自主研发的解决方案,支持多模型大数据基础平台,具备领先的技术架构与全面的功能覆盖。与CDP相比,TDH在兼容性、技术领先性、性能、易用性、稳定性、灾备与可靠性、安全性、自主可控、国产生态、解决方案与售后服务等方面具有明显优势。
迁移到不同平台后获得的能力
迁移至国产自主研发大数据产品TDH
TDH提供多模架构支持多种数据模型,一站式解决各类大数据业务场景。TDH拥有高性能分布式计算与存储引擎,飞机跑道源码整体性能显著优于CDP。TDH支持SQL标准与存储过程,兼容多种SQL方言,提供统一的SQL接口处理。TDH具备易用性工具,如开发工具、ETL工具、数据调度工作流等,简化应用设计与运维。
TDH在稳定性、灾备与可靠性、安全性、自主可控、国产生态、解决方案与售后服务等方面表现出色,提供全面的数据管理与分析能力。
迁移到CDP
尽管CDP提供了一些新功能,但在技术自主可控性、与国产软硬件生态的兼容性、以及风险方面,它与国产自主研发的大数据产品如TDH相比,存在一定的劣势。
对比分析
在兼容性、技术领先性、grafana 源码修改性能、易用性、稳定性、灾备与可靠性、安全性、自主可控、国产生态、解决方案与售后服务等方面,TDH与CDP及国内封装的Hadoop商业版相比,展现出显著优势,成为用户迁移的理想选择。
客户数据中台是什么意思?
客户数据中台(Customer Data Platform,简称CDP)指的就是跨平台收集和整合客户数据的公共数据平台,CDP可以收集实时数据,并且将其构建成单独的,集中的客户档案。 其目标是汇集所有客户数据并将数据存储在统一的、可多部门访问的数据平台中,让企业各个部门都可以轻松使用。三大特征:
数据能收进来(Link)
CDP可以快速连接来自市场、销售、客服等各部门的各类数据源中存储的客户数据。不管是实名客户,还是金针探底源码匿名客户,都可以在CDP中根据业务定义得到合并。为企业提供了完整的、不断更新的客户画像,而不是流于表面的统计数据。
数据能流出去(Flow)
CDP有能力快速对接企业内外部的各种数据源,包括广告投放、CRM、客服系统、网站、微信、App、大数据分析与BI等等。只有数据流动起来,CDP才能产生更大的价值。
业务驱动
CDP是为业务人员驱动建立的,而不是IT人员。业务人员可以自行决定需要什么数据源、如何对用户打标签、把数据传递到哪些平台等等。CDP应该有极其简单的界面,业务团队可以直接在CDP上进行操作,而不是依赖于IT部门。
什么是CDP?
CDP是一个集成数据整合、存储、管理和分析功能的平台,旨在帮助企业将散落在各处的数据整合到统一的数据仓库中,并实现基于数据的深度分析和洞察,为业务的开展赋能。
它的作用,简单点来说,就是帮助企业整个分散在各个平台的用户数据,再对数据进行加工,梳理出完整的用户画像,再赋能企业的营销开展,让企业可以基于精确的用户画像来做业务规划。只不过,CDP的投入成本很高,这一点阻碍了很多中小企业。不过现在有开源CDP产品,中小企业可以以很小的投入成本来做CDP了。开源CDP突破了许多限制。其中开源CDP的核心是其开放源代码的本质,这意味着企业可以自由访问、使用和修改平台的源代码,以满足其独特的需求。
从功能方面来看,相较市面上现有的CDP产品,开源CDP可根据企业自身需求来定制,使其真正与其业务流程相匹配。这种个性化定制有助于提高效率和适应变化。企业不再被迫适应标准解决方案,而是能够塑造一个符合其独特需求的数据管理平台。-----创略科技
从成本端来看,CDP之所以受众面相对较窄,其高实施成本是最主要原因。但开源可以解决企业实施CDP的顾虑,比起传统的CDP产品,开源CDP的实施成本往往要低得多,不仅如此,开源CDP的市场拓展也极大概率要比传统的CDP产品拓展更为迅速。
从运营角度来看,CDP不管是在技术还是运营上,都高度依赖使用者的专业性,这也意味着普通用户从接触到熟悉需要大量的专业性支持,否则即便企业有预算去做CDP,但负责人员可能由于缺乏专业性知识而导致产品收效不高。
这一点在开源CDP上就可以得到很好的解决,在开源模式中,开源社区的建立,为企业和个人提供了开发和维护开源软件、工具、库、框架和其他开放技术资源。通过开源社区,不仅可以吸引更多优秀技术人才,为CDP方面提供更专业的技术指导和研发支持,也能实现共同开发和维护技术项目,使得技术更加完善和发展,同时社区还可以为其他开发者提供技术文档、示例代码和解答问题的咨询服务,但最终基于社区的加持将推动CDP技术和行业的创新和变革。
浅析Selenium-WebDriver
年,当时在ThoughtWorks工作的Jason Huggins开发了Selenium(Selenium RC)的第一版。年,Google工程师基于Selenium开发了WebDriver。年,Selenium和WebDriver合并,形成了Selenium2(Selenium WebDriver)。目前,Selenium WebDriver的模式已经升级到Selenium4,并有一个支线项目Selenium-Grid,能够与Selenium配合进行多任务运行(主要针对分布式执行,对于当前业务现状,使用到的可能性很小,本文不展开讲解)。
使用现状:虽然无法直接统计出每个公司的使用现状,但我们可以通过搜索趋势来侧面验证。通过Google Trends查询的结果显示,Selenium WebDriver主导的方案占据主流地位,而Selenium RC的方案正在逐步被淘汰。
Selenium RC:
组成部分:Selenium RC主要由客户端和服务器两部分组成。
工作原理:Selenium RC通过发送HTTP请求与服务器进行通信,服务器再将请求转发给浏览器执行。
缺点:Selenium RC的执行速度较慢,且需要各个浏览器厂商提供支持。
Selenium WebDriver:
组成部分:WebDriver主要由WebDriver接口和对应的浏览器驱动程序组成。
Web Driver:WebDriver提供了另一种与浏览器交互的方式,即利用浏览器原生的API,封装成一套面向对象的Selenium WebDriver API,直接操作浏览器页面里的元素,甚至操作浏览器本身(截屏、窗口大小、启动、关闭、安装插件、配置证书等)。由于使用的是浏览器的原生API,速度大大提高,但缺点是需要各个浏览器厂商各自提供。
各种编程语言编写的客户端:向remote server发起请求。
工作原理:底层通信包含以下两个过程:
Selenium -> ChromeDriver server:这个通信过程是基于HTTP协议。
例如,我们要打开一个浏览器页面,并访问www.google.com,先看下Selenium源码是怎么实现这个过程的。
首次建立连接的过程:
选择一个空闲的端口启动chromedriver。
具体发请求的接口:
最终的收口就是_request,发起一个blogs.com/uncleyong/p...
[8] cloud.tencent.com/devel...
[9] einverne.gitbook.io/sel...
浏览器/浏览器插件的资源嗅探是怎么做到的?
网络请求在浏览器中通过NetWrok模块处理,例如HTTP等。
浏览器通常提供获取请求的接口,这些接口被整合到浏览器插件API中,供上层应用获取。
例如,Chrome扩展中的chrome.devtools.network和chrome.webRequest相关API。
开发者可以通过这些API感知到请求信息。
此外,Chrome DevTools Protocol(CDP)中的Network和Fetch事件也提供类似功能。
具体实现细节可查阅浏览器源码,以Chromium为例,Network.requestWillBeSent事件在何时触发可见于源代码。