1.PostgreSQL历史
2.openGauss数据库源码解析系列文章——事务机制源码解析(一)
3.toydb源码阅读02-MVCC
4.BoltDB源码解析(二)事务
PostgreSQL历史
PostgreSQL的源码历史可以追溯到早期的POSTGRES,现在通常称为PostgreSQL,源码发音为"Post-gress-cue-ell"。源码它起源于伯克利的源码POSTGRES软件包,并在发展过程中逐渐演变成世界上最先进的源码开源数据库系统。这个系统以其多版本并发控制、源码仿百度文库源码对SQL组件的源码全面支持,如子查询、源码事务和用户自定义类型和函数,源码以及广泛的源码编程语言绑定(包括C、C++、源码Java、源码Perl、源码Tcl和Python)而闻名。源码 在年,源码Andrew Yu和Jolly Chen对POSTGRES进行了重大改进,加入了SQL语言解释器,从而形成了Postgres。他们将源代码公开,使之成为开放源码项目,成为伯克利POSTGRES原始代码的继承者。Postgres的源代码全部采用ANSI C编写,并通过内部修改提高了性能和代码的维护性。在性能测试中,Postgres的1.0.x版本相比POSTGRES v4.2快了-%。 年,为了明确区分最初的POSTGRES和使用SQL的版本,"Postgres"改名为PostgreSQL,同时版本号也从6.0重新开始,springbootlayui源码分享遵循最初伯克利POSTGRES项目的发展顺序。在Postgres版本的基础上,开发工作重点转到了理解并优化现有后端代码,同时在争议性特性和功能上也展开了深入研究,确保各个方面的进步同步进行。扩展资料
PostgreSQL是以加州大学伯克利分校计算机系开发的 POSTGRES,现在已经更名为POSTGRES,版本 4.2为基础的对象关系型数据库管理系统(ORDBMS)。PostgreSQL支持大部分 SQL标准并且提供了许多其他现代特性:复杂查询、外键、触发器、视图、事务完整性、MVCC。同样,PostgreSQL 可以用许多方法扩展,比如, 通过增加新的数据类型、函数、操作符、聚集函数、索引方法、过程语言。并且,因为许可证的灵活,任何人都可以以任何目的免费使用、修改、和分发 PostgreSQL,原码和源码不管是私用、商用、还是学术研究使用。openGauss数据库源码解析系列文章——事务机制源码解析(一)
事务是数据库操作的核心单位,必须满足原子性、一致性、隔离性、持久性(ACID)四大属性,确保数据操作的可靠性与一致性。以下是openGauss数据库中事务机制的详细解析:
### 事务整体架构与代码概览
在openGauss中,事务的实现与存储引擎紧密关联,主要集中在源代码的`gausskernel/storage/access/transam`与`gausskernel/storage/lmgr`目录下。事务系统包含关键组件:
1. **事务管理器**:事务系统的中枢,基于有限循环状态机,接收外部命令并根据当前事务状态决定下一步执行。
2. **日志管理器**:记录事务执行状态及数据变化过程,包括事务提交日志(CLOG)、事务提交序列日志(CSNLOG)与事务日志(XLOG)。
3. **线程管理机制**:通过内存区域记录所有线程的事务信息,支持跨线程事务状态查询。
4. **MVCC机制**:采用多版本并发控制(MVCC)实现读写隔离,结合事务提交的CSN序列号,确保数据读取的正确性。
5. **锁管理器**:实现写并发控制,通过锁机制保证事务执行的隔离性。
### 事务并发控制
事务并发控制机制保障并发执行下的数据库ACID属性,主要由以下部分构成:
- **事务状态机**:分上层与底层两个层次,上层状态机通过分层设计,网络首页源码支持灵活处理客户端事务执行语句(BEGIN/START TRANSACTION/COMMIT/ROLLBACK/END),底层状态机记录事务具体状态,包括事务的开启、执行、结束等状态变化。
#### 事务状态机分解
- **事务块状态**:支持多条查询语句的事务块,包含默认、已开始、事务开始、运行中、结束状态。
- **底层事务状态**:状态包括TRANS_DEFAULT、TRANS_START、TRANS_INPROGRESS、TRANS_COMMIT、TRANS_ABORT、TRANS_DEFAULT,分别对应事务的初始、开启、运行、提交、回滚及结束状态。
#### 事务状态转换与实例
通过状态机实例展示事务执行流程,包括BEGIN、SELECT、END语句的执行过程,以及相应的状态转换。
- **BEGIN**:开始一个事务,波段幅度源码状态从默认转为已开始,之后根据语句执行逻辑状态转换。
- **SELECT**:查询语句执行,状态保持为已开始或运行中,事务状态不发生变化。
- **END**:结束事务,状态从运行中或已开始转换为默认状态。
#### 事务ID分配与日志
事务ID(xid)以uint单调递增序列分配,用于标识每个事务,CLOG与CSNLOG分别记录事务的提交状态与序列号,采用SLRU机制管理日志,确保资源高效利用。
### 总结
事务机制在openGauss数据库中起着核心作用,通过详细的架构设计与状态管理,确保了数据操作的ACID属性,支持高并发环境下的高效、一致的数据处理。MVCC与事务ID的合理使用,进一步提升了数据库的性能与数据一致性。未来,将深入探讨事务并发控制的MVCC可见性判断机制与进程内的多线程管理机制,敬请期待。
toydb源码阅读-MVCC
实现MVCC(多版本并发控制)的DBMS内部维持着单个逻辑数据的多个物理版本,当事务修改数据时,就创建新的版本。事务读取时,根据事务的开始时间,读取事务开始时刻之前的最新版本。MVCC的核心概念是,只读事务无需加锁即可读取数据库某一时刻的快照,保留数据的所有历史版本,DBMS甚至能支持读取任意历史版本的数据。在toydb中,这种特性被实现,即不实现垃圾回收(GC),保留所有版本,开发者特别强调这是功能而非错误。
并发控制方面,MVCC主要解决读写(R-W)冲突,但对于写入(W-W)冲突,仅靠MVCC本身无法解决,需要引入其他并发协议。toydb实例中,事务的时间或版本基于事务的开始决定。例如,事务T2读取的物理时间可能落后于T5,但T2事务开始早于T5,因此T2能读取到的数据版本早于T5。记录真正可见是根据提交的时刻决定的,事务未提交前,其写入的数据对自身可见,但对其他事务不可见。理解这一概念需要结合具体的并发控制协议。
在Miniob中,MVCC的实现相对简洁。版本基于tid(事务标识),每条记录会生成两个sys_field,分别存储事务的开始时间(begin)和结束时间(end),标识事务的可见性。Miniob中的隔离级别为快照隔离,未提交事务的begin值小于0,因此无法读取到新写入的记录,避免了幻读情况。判断记录是否可见的逻辑在visit_record函数中提供。
toydb的MVCC实现集中在src/storage/mvcc.rs文件中,文件结构清晰,辅助支持如debug.rs、keycode.rs提供额外功能,但核心在于Transaction和MVCC结构体的实现。TransactionState结构体用于安全地传递事务状态,有助于简化事务管理,但并未在MVCC实现中体现。在TransactionState中,提供了一个函数来判断给定版本是否对当前事务可见,基于事务的状态和版本信息进行判断。
toydb中,事务和存储引擎之间通过KV存储引擎交互,实现MVCC功能。对于只读事务和读写事务,toydb提供了不同的开始函数。在写入和删除操作中,toydb通过write_version函数实现,首先检查冲突,然后写入TrnWrite和Version。MVCC的实现包括begin、commit、rollback等关键操作,保证了事务的原子性、可重复读和时间一致性。active_set机制帮助解决了事务提交或回滚时更改的可见性问题,确保了原子性提交和可重复读的实现。
toydb的MVCC模块设计简洁,功能强大,仅余行代码就实现了关键的并发控制逻辑。复合类型Key的支持使得复合数据结构的实现更加直观,同时KV存储引擎不仅用于数据存储,还用于事务日志记录,实现了功能整合。此外,toydb提供了完善的测试和调试支持,简化了功能验证和性能优化的过程。总体来说,toydb的MVCC实现是高效、灵活且易于维护的。
BoltDB源码解析(二)事务
最近几天一直在研究BoltDB的代码,现在对它有了更深入的了解。这篇主要介绍BoltDB的事务处理。
BoltDB的事务主要分为两类:一类是只读事务,另一类是读写事务。只读事务仅允许读取操作,而读写事务则可以同时进行读取和写入操作。在并发控制方面,BoltDB允许任意多个只读事务同时进行,但读写事务只能有一个。
BoltDB支持一定程度的多版本并发控制(MVCC),这意味着读事务不会阻塞写事务,反之亦然。在程序运行过程中,你可能会发现多个读事务和一个写事务在同时进行。
只读事务是通过db.View方法执行的,具体代码如下:
Bolt的注释非常清晰,每一步都标明了具体操作。db.begin是新建一个transaction,而fn参数是用户传递的事务主体函数。
注意,只读事务不会调用transaction的commit函数,除非发生error,此时需要调用t.Rollback()进行清理工作。
读写事务是通过db.update执行的,整体上和View的代码类似,但是会创建一个读写事务。
读写事务如果没有发生错误,最后会调用Commit方法,将事务进行的修改持久化到DB文件里,实现事务ACID特性里的“D"。
BoltDB使用B-tree作为磁盘数据结构,在事务commit时,所有在内存中的修改都要持久化到磁盘上。在事务commit时,所有修改都需要持久化到多个新page里。
读事务实现得比较简单,就是在基于mmap的B-tree上搜索到具体的key,返回对应的value。为了提升性能,BoltDB全程尽量避免copy。
写事务比读事务要复杂,BoltDB如果需要修改一个page上的数据,首先会通过B-tree搜索定位到具体的key所在的leaf page,但它不会直接在这个page上修改,而是把这个page的数据copy到一个叫node的内存结构体里,修改是在node结构体里做的。
在写事务中,所有的修改都暂存在内存里,在事务commit之前不会持久化。在事务commit的时候,所有的修改都要持久化。
因此,BoltDB的使用建议是,一个事务做的事情不要太多,这样不必耗费太多内存保存中间状态,commit也不至于耗时太多。