1.ESModule规范详解
2.Elasticsearch7.8.0集成IK分词器改源码实现MySql5.7.2实现动态词库实时更新
3.es lucene搜索及聚合流程源码分析
ESModule规范详解
在介绍ESModule规范之前,文件我们先了解下AMD和CMD两种规范。源码源码AMD规范
AMD规范采用非同步加载模块,解析允许指定回调函数
node模块通常位于本地,文件加载速度快,源码源码所以适用于同步加载
浏览器环境下,解析spark下载源码模块需要远程请求获取,文件所以适用于异步
require.js是源码源码AMD的一个具体实现库
CMD规范
CMD整合了Commonjs和AMD的优点,模块加载是解析异步的
CMD专门用于浏览器端,sea.js是文件CMD规范的实现
AMD和CMD最大的问题是没有通过语法升级来解决模块化的问题。它们去定义模块化还是源码源码调用js方法的方式去生成一个模块,如果当项目模块达到成百上千个,解析这种方式无法进行模块规模化的文件应用。要想模块规模化应用则需要一种标准的源码源码语法规范,这是解析AMD和CMD都没有实现的。
ESModule规范
ESModule设计理念是希望在编译时就确定模块依赖关系即输入输出
Commonjs和AMD必须在运行时才能确定依赖和输入、输出
ESModule通过import加载模块,通过export输出模块
下面我们来详细介绍ESModule。
ESModule使用export正常导出,import导入所有通过export导出的属性,在import中可以通过结构的方式,解构出来。
export导出
constname='dog'constauthor='xiaoming'export{ name,author}exportconstsay=function(){ console.log('hello,world')}import导入
//name,author,say对应a.js中的name,author,sayimport{ name,author,say}from'./a.js'默认导出exportdefaultconstname='dog'constauthor='xiaoming'constsay=function(){ console.log('hello,world')}exportdefault{ name,author,say}导入
importmesfrom'./a.js'console.log(mes)//{ name:'dog',...}exportdefaultanything?默认导出。?书法源码anything?可以是函数,属性方法,或者对象。
对于引入默认导出的模块,importanyNamefrom'module',anyName可以是自定义名称。
混合导入|导出exportconstname='dog'exportconstauthor='xiaoming'exportdefaultfunctionsay(){ console.log('hello,world')}导入有两种方式,第一种是:
importtheSay,{ name,authorasbookAuthor}from'./a.js'console.log(theSay,//?say(){ console.log('hello,world')}name,//'dog'bookAuthor//'xiaoming')第二种:
importtheSay,*asmesfrom'./a'console.log(theSay,//?say(){ console.log('hello,world')}mesmes对象如下,可以看到把导出的所有属性都收敛到了一个对象里面,其中exportdefault导出值的key为default。
{ name:'dog',author:'xiaoming',default:?say(){ console.log('hello,world')}}ESModule特点静态语法ESModule的设计理念是希望在编译时就确定模块依赖关系即输入输出,那如何在编译时就能确定依赖关系呢?
在传统编译语言的流程中,程序中的一段源代码在执行之前都需要经过"编译"。对于JavaScript这样的解释型语言来说,也是需要编译的,只不过编译过程发生在代码执行前的几微秒(甚至更短)的时间内。
要想在编译阶段就能确定依赖关系,那必须要把import进行类似于变量提升。我们来看一下JavaScript中的变量提升。
functiontest(){ console.log(a)console.log(foo())vara=1functionfoo(){ return2}}test()在编译阶段发生了变量提升,经过预编译,执行顺序就变成了这样:
functiontest(){ functionfoo(){ return2}varaconsole.log(a)console.log(foo())a=1}test()所以打印结果是:
//name,author,say对应a.js中的name,author,sayimport{ name,author,say}from'./a.js'0import提升其实JavaScript代码在编译阶段发现有import也会像var一样进行提升。为了验证这一点,看一下如下demo。源码外泄
main.js
//name,author,say对应a.js中的name,author,sayimport{ name,author,say}from'./a.js'1a.js
//name,author,say对应a.js中的name,author,sayimport{ name,author,say}from'./a.js'2b.js
//name,author,say对应a.js中的name,author,sayimport{ name,author,say}from'./a.js'3执行顺序如下:
//name,author,say对应a.js中的name,author,sayimport{ name,author,say}from'./a.js'4当执行main.js,可以看到先答应"b模块加载",但是main.js第一行代码是console.log('main.js开始执行'),但是并没有执行。这是因为在编译阶段把import进行了提升,类似于var的变量提升,所以会首先执行import语句。
也就是在编译阶段去加载模块,然后在执行阶段就去执行文件,这跟var变量的执行顺序是一样的,即首先会把vara=undefined提升,然后在执行阶段去赋值。
因为这种静态语法,所以import?,?export?不能放在块级作用域或条件语句中。
//name,author,say对应a.js中的name,author,sayimport{ name,author,say}from'./a.js'5在编译过程中确定了导入和导出的关系,所以更方便去查找依赖,更方便去treeshaking(摇树),这也是ESModule支持tree-shaking操作的原因。同时,还可以使用各种lint工具对模块依赖进行检查,比如:eslint。
导出绑定:不能修改import导入的属性//name,author,say对应a.js中的name,author,sayimport{ name,author,say}from'./a.js'6当执行main.js的时候会报错:UncaughtTypeError:Assignmenttoconstantvariable。通过import导入的worldpress源码值可以看出是一个const常量,不能修改。
引用传递Common.js是值的拷贝,ESModule是引用传递。
Common.js
//name,author,say对应a.js中的name,author,sayimport{ name,author,say}from'./a.js'7当第一次打印导入的变量a的值是1,然后执行plus方法,再次打印a发现值仍然是1。当我们通过get方法获取模块内的变量a的时候,发现值为2。所以,在Commonjs规范下,导入的变量只是值的拷贝而已,具体细节可以参考上一篇文章#CommonJS规范详解。
ESModule
//name,author,say对应a.js中的name,author,sayimport{ name,author,say}from'./a.js'8当第一次打印导入的变量a的值是1,然后执行plus方法,再次打印a发现值是2。也就是,使用import导入的变量是与原变量是引用关系,而不是拷贝。
import()动态引入import()?返回一个?Promise?对象,返回的?Promise?的then成功回调中,可以获取模块的加载成功信息。我们来简单看一下?import()?是如何使用的。
//name,源码提取author,say对应a.js中的name,author,sayimport{ name,author,say}from'./a.js'9打印结果如下:
CommonjsVSESModule通过上面的介绍,我们来总结下Commonjs和ESModule的区别:
Commonjs的输出是值的拷贝,ESModule的输出是值的引用。
Commonjs是运行时加载,只有在运行结束后才能确定输入和输出,ESModule在编译的时候就能明确的知道输入和输出,它是一个确定的结果。
像这段代码在仅仅被parse成AST(抽象语法树)时,很难分析出究竟依赖了哪些模块。
constname='dog'constauthor='xiaoming'constsay=function(){ console.log('hello,world')}exportdefault{ name,author,say}0同样,Commonjs在做模块导出时也无法静态识别:
constname='dog'constauthor='xiaoming'constsay=function(){ console.log('hello,world')}exportdefault{ name,author,say}1但是在ESModule中,import/exports一目了然,对于没有被import的部分,也很自然的容易区分出来,并进行tree-shaking。
总之,就是通过限定语法,让本来需要运行代码才能确定的依赖,可以在AST阶段就能确定下来。
Commonjs为同步加载,ESModule支持异步加载,可以通过import().then()来实现。
原文;/post/Elasticsearch7.8.0集成IK分词器改源码实现MySql5.7.2实现动态词库实时更新
本文旨在探讨 Elasticsearch 7.8.0 集成 IK 分词器的改源码实现,配合 MySQl 5.7.2 实现动态词库实时更新的方法。
IK 分词器源码通过 URL 请求文件或接口实现热更新,无需重启 ES 实例。然而,这种方式并不稳定,因此,采用更为推荐的方案,即修改源码实现轮询查询数据库,以实现实时更新。
在进行配置时,需下载 IK 分词器源码,并确保 maven 依赖与 ES 版本号相匹配。引入 MySQl 驱动后,开始对源码进行修改。
首先,创建一个名为 HotDictReloadThread 的新类,用于执行远程词库热更新。接着,修改 Dictionary 类的 initial 方法,以创建并启动 HotDictReloadThread 实例,执行字典热更新操作。
在 Dictionary 类中,找到 reLoadMainDict 方法,针对扩展词库维护的逻辑,新增代码加载 MySQl 词库。为此,需预先在数据库中创建一张表,用于维护扩展词和停用词。同时,在项目根路径的 config 目录下创建 jdbc-reload.properties 配置文件,用于数据库连接配置。
通过 jdbc-reload.properties 文件加载数据库连接,执行扩展词 SQL,将结果集添加到扩展词库中。类似地,实现同步 MySQl 停用词的逻辑,确保代码的清晰性和可维护性。
完成基础配置后,打包插件并将 MySQl 驱动 mysql-connector-java.jar 与插件一同发布。将插件置于 ES 的 plugins 目录下,并确保有相应的目录结构。启动 ES,查看日志输出,以验证词库更新功能的运行状态。
在此过程中,可能遇到如 Column 'word' not found、Could not create connection to database server、no suitable driver found for jdbc:mysql://...、AccessControlException: access denied 等异常。通过调整 SQL 字段别名、确认驱动版本匹配、确保正确配置环境以及修改 Java 政策文件,这些问题均可得到解决。
本文通过具体步骤和代码示例,详细介绍了 Elasticsearch 7.8.0 集成 IK 分词器,配合 MySQl 5.7.2 实现动态词库实时更新的完整流程。读者可根据本文指南,完成相关配置和代码修改,以实现高效且稳定的词库管理。
es lucene搜索及聚合流程源码分析
本文通过深入分析 TermQuery 和 GlobalOrdinalsStringTermsAggregator,旨在揭示 Elasticsearch 和 Lucene 的搜索及聚合流程。从协调节点接收到请求后,将搜索任务分配给相关索引的各个分片(shard)开始。 协调节点将请求转发至数据节点,数据节点负责查询与聚合单个分片的数据。 在数据节点中,根据请求构建 SearchContext,该上下文包含了查询(Query)和聚合(Aggregator)等关键信息。查询由请求创建,例如 TermQuery 用于文本和关键词字段,其索引结构为倒排索引;PointRangeQuery 用于数字、日期、IP 和点字段,其索引结构为 k-d tree。 构建 Aggregator 时,根据 SearchContext 创建具体聚合器,如 GlobalOrdinalsStringTermsAggregator 用于关键词字段的全局排序术语聚合。 在处理全局排序术语聚合时,如果缓存中不存在全局排序,将创建并缓存全局排序,当分片下的数据发生变化时,需要清空缓存。 全局排序将所有分段中的指定字段的所有术语排序并合并成一个全局排序,同时创建一个 OrdinalMap,用于在收集时从分段 ord 获取全局 ord。 docCounts 用于记录 ord 对应的文档计数。 对于稀疏情况下的数据收集,使用 bucketOrds 来缩减 docCounts 的大小,并通过 LongHash 将全局 ord 与 id 映射起来,收集时在 id 处累加计数。 处理聚合数据时,根据请求创建具体的权重,用于查询分片并创建评分器。查询流程涉及从 FST(Finite State Transducer,有限状态传感器)中查找术语,读取相关文件并获取文档标识符集合。 评分及收集过程中,TopScoreDocCollector 用于为文档评分并获取顶级文档。聚合流程中,GlobalOrdinalsStringTermsAggregator 统计各术语的文档计数。 协调节点最终收集各个分片的返回结果,进行聚合处理,并获取数据,数据节点从存储字段中检索结果。在整个流程中,FetchPhase 使用查询 ID 获取搜索上下文,以防止合并后旧分段被删除。 本文提供了一个基于 Elasticsearch 和 Lucene 的搜索及聚合流程的深入分析,揭示了从请求接收、分片查询、聚合处理到数据收集和结果整合的全过程。通过理解这些关键组件和流程,开发者可以更深入地掌握 Elasticsearch 和 Lucene 的工作原理,优化搜索和聚合性能。