【带图集源码】【jtopo源码】【想学源码】prometheus源码调试

时间:2024-12-26 11:24:25 来源:庄主指标源码 分类:百科

1.Opentelemetry和Prometheus的源码remote-write-receiver的实验
2.部署Kafka监控
3.2020-08-25
4.基于Prometheus + Grafana搭建IT监控报警最佳实践(2)
5.从指标到洞察力的普罗米修斯
6.通过transmittable-thread-local源码理解线程池线程本地变量传递的原理

prometheus源码调试

Opentelemetry和Prometheus的remote-write-receiver的实验

       实验目标:探索并实践Opentelemetry和Prometheus的集成,利用Prometheus的调试远程写功能与Opentelemetry的collector相结合,实现指标的源码主动推送,并通过Prometheus进行可视化管理。调试

       实验环境:需要准备一个运行的源码Prometheus实例,以及一个Opentelemetry的调试带图集源码collector。具体配置和部署步骤需参照实验环境部分。源码

       实验过程:首先,调试配置Prometheus以抓取本地指标,源码通过修改Prometheus配置文件并启动windows_exporter实现本地指标的调试生成与输出。接着,源码配置和启动Opentelemetry的调试collector,确保其支持与Prometheus的源码远程写功能。在这一阶段,调试需要根据源代码(例如:wuqingtao/opentelemetry_demo/otel-collector-config.yaml)进行相应的源码调整。最后,通过执行指标生成命令(源代码来自:wuqingtao/opentelemetry_demo/app),确保指标能够被正确生成并主动推送至Prometheus。

       可视化面板:在Prometheus中设置抓取目标,通常为运行的jtopo源码Prometheus实例。配置完成后,访问Prometheus控制面板,通过采集器面板查看并管理指标。同时,利用Prometheus的可视化功能,对主动写入的指标进行分析与监控。

       实验结果:借助Prometheus的远程写功能和Opentelemetry的collector,实现了指标的主动推送至Prometheus。这一集成使得实时监控和分析数据成为可能,进一步强化了监控系统的能力,提升了数据处理效率。

部署Kafka监控

       在Kafka部署过程中,监控系统的设置至关重要。本文将简述搭建Kafka监控的实践经验,包括所选工具和环境配置步骤。

       首先,确保Kafka实例在本地部署了三个实例,未使用Docker。监控方案选择了kafka_exporter、想学源码Prometheus和Grafana组合,详细选择理由可自行查阅网络资源。kafka_exporter在本地编译部署,因遇到go环境不匹配问题,最终选择源码编译,通过git克隆v1.7.0版本,设置goproxy以获取依赖库。编译过程中,对`go mod vendor`指令进行了修改,成功编译出kafka_exporter可执行文件,并针对多个Kafka实例制定了启动命令。

       同时,为了监控系统负载,部署了node-exporter在Docker中,确保其固定IP以方便Prometheus的配置。node-exporter的IP设为..0.2,端口为。

       接下来是Prometheus的部署。首先通过Docker拉取prom/prometheus镜像,hdparm 源码配置文件中包含了Prometheus自身、node-exporter(.网段)和kafka_exporter(..0.1)的采集项。使用命令`docker run`启动Prometheus,监听端口,与node-exporter和kafka_exporter通信。

       Grafana的安装则在另一个目录B中进行,设置了读写权限后通过Docker拉取grafana/grafana镜像。部署时,Grafana容器的IP设为..0.4,监听端口。登录Grafana后,首先添加DataSource,指向Prometheus实例,然后导入官网提供的Linux系统模板(如、),Kafka监控模板(如),以及Prometheus模板()以设置Dashboard。

       总结,通过这些步骤,layeredskin 源码成功搭建了Kafka的监控系统,包括本地部署的kafka_exporter、Docker中的node-exporter和Prometheus,以及Grafana用于可视化监控数据。

--

       Prometheus 实现邮件告警(Prometheus+Alertmanager+QQ邮箱或者网易邮箱,目前测试过这两种邮箱都可以发送告警邮件)

        Prometheus实现邮件告警原理如下:

        Prometheus官方有一个附带的中间件:alertmanager,通过设置rules规则和路由转发可以实现邮件告警,前提是你需要有一个可以发送邮件的邮件服务端(可以自建或者使用互联网公司提供的免费邮箱)

        告警原理图

       Prometheus完整架构图

        我之前得出的错误结论如下:

        推荐直接在虚拟机操作系统上直接安装Prometheus和Alertmanager,不推荐其中任何一方在容器中运行,因为测试过在容器中运行Prometheus和alertmanager,结果出现如下错误情况

        第一种情况是:我的node-exporter掉线跌机了(手动关机,模拟突然掉线跌机),Prometheus却提示节点依然在线?有时候却能够正常显示节点掉线跌机,生成告警发送邮件

        第二种情况是:我的node-exporter掉线跌机了(手动关机,模拟突然掉线跌机),Prometheus提示节点掉线,告警生成,但是没有发送邮件,我手动恢复node-exporter后,告警解除,邮件能正常发送邮件提示告警已经解除。。。。

        第三种情况是:我的node-exporter掉线跌机了(手动关机,模拟突然掉线跌机),Prometheus提示节点掉线,告警生成,正常成功发送邮件,我手动恢复node-exporter后,告警解除,邮件没有发送出来。。。。

        以上三种情况之前经常出现,当时第一步以为是自己设置的scrape_interval不合理导致的,结果调试几次,问题没有解决,第二步以为是自己的服务器时间没有做到精确同步,然后我去设置和阿里云的ntp服务器同步,结果问题依然没有解决,第三步,换个方向,把alertmanager迁移到虚拟机操作系统上安装运行,问题解决!

       åŒ—京时间是GMT+8小时,有些同志的时间可能是UTC的,但是如果是在要求不太十分精确的情况下,UTC时间是刚刚好等于GMT时间

        为了避免时区的混乱,prometheus所有的组件内部都强制使用Unix时间,对外展示使用GMT时间。

        要改时区有两个办法

        1 .修改源码,重新编译。

       2. 使用 docker 运行 Prometheus,挂载本地时区文件

        docker run --restart always -e TZ=Asia/Shanghai --hostname prometheus --name prometheus-server -d -p : -v /data/prometheus/server/data:/prometheus -v /data/prometheus/server/conf/prometheus.yml:/etc/prometheus/prometheus.yml -u root prom/prometheus:v2.5.0

        正文开始

        安装alertmanager

        容器安装方式:

        docker run -d --name alertmanager -p : -v /usr/local/Prometheus/alertmanager/alertmanager.yml:/etc/alertmanager/alertmanager.yml prom/alertmanager:latest

        先在宿主机/usr/local/Prometheus下创建一个文件夹alertmanager,然后在文件夹里创建alertmanager.yml配置文件,待会才能映射到alertmanager容器里的/etc/alertmanager目录下

       global:全局配置

           resolve_timeout: 问题解决的超时时间

           smtp_from: 发送告警邮件的邮箱账号

           smtp_smarthost: é‚®ç®± SMTP 服务地址,这里是以QQ邮箱为例,也可以用网易邮箱,这个和我之前设置zabbix邮件告警时的配置一样

           smtp_auth_username: 如果没有设置邮箱别名,那就是账户名

           smtp_auth_password:  邮箱的授权码,不是 账户密码,你可以在QQ邮箱或者网易邮箱网页端设置,开启 POP3/SMTP æœåŠ¡æ—¶ä¼šæç¤ºï¼Œå’Œé…ç½®zabbix邮件告警的时候几乎一样

           smtp_require_tls: 是否使用 tls,根据环境不同,来选择开启和关闭。如果提示报错 email.loginAuth failed: Must issue a STARTTLS command first,那么就需要设置为 true。着重说明一下,如果开启了 tls,提示报错 starttls failed: x: certificate signed by unknown authority,需要在 email_configs 下配置 insecure_skip_verify: true 来跳过 tls 验证。

       templates: 告警模板目录,可以不编写模板,有默认模板

            Subject: '{ { template "email.default.subject" . }}'

            html: '{ { template "email.default.html" . }}'

       route:报警的分发设置

            group_by:分组

            group_wait: 分组等待时间

            group_interval: 5m 每组时间间隔

            repeat_interval: m 重复间隔

            receiver: 接收方式,请注意!这里的名字要对应下面receivers中的任何一个名字,不然会报错,这里其实就是选择方式,有邮箱,企业微信,wehook,victorops等等

       receivers:接受方式汇总,即告警方式汇总

        例子:

        receivers:

        - name:'default-receiver' 

        email_configs:

        - to:'whiiip@.com'    

          html: '{ { template "alert.html" . }}'    

          headers: { Subject: "[WARN] 报警邮件test"}

       inhibit_rules:   æŠ‘制规则

        当存在与另一组匹配的警报(源)时,抑制规则将禁用与一组匹配的警报(目标)。

        包括源匹配和目标匹配

        alertmanager官方是这样说的

        Inhibition

        Inhibition is a concept of suppressing notifications for certain alerts if certain other alerts are already firing.

        Example:  An alert is firing that informs that an entire cluster is not reachable. Alertmanager can be configured to mute all other alerts concerning this cluster if that particular alert is firing. This prevents notifications for hundreds or thousands of firing alerts that are unrelated to the actual issue.

        Inhibitions are configured through the Alertmanager's configuration file.

        当存在与另一组匹配器匹配的警报(源)时,禁止规则会使与一组匹配器匹配的警报(目标)静音。目标警报和源警报的equal列表中的标签名称都必须具有相同的标签值。

        在语义上,缺少标签和带有空值的标签是同一件事。因此,如果equal源警报和目标警报都缺少列出的所有标签名称,则将应用禁止规则。

        为了防止警报禁止自身,与规则的目标和源端 都 匹配的警报不能被警报(包括其本身)为真来禁止。但是,我们建议选择目标匹配器和源匹配器,以使警报永远不会同时匹配双方。这很容易进行推理,并且不会触发此特殊情况。

        接着是规则rules

       ä¸è§£é‡Šäº†ï¼Œè‡ªå·±ç ”究官方文档

       alertmanager的非容器安装方式是

         wget /prometheus/alertmanager/releases/download/v0..0/alertmanager-0..0.linux-amd.tar.gz

        tar xf alertmanager-0..0.linux-amd.tar.gz

       mv alertmanager-0..0.linux-amd /usr/local/alertmanager

       vim /usr/lib/systemd/system/alertmanager.service

       [Unit]

       Description=alertmanager

        Documentation=/prometheus/alertmanager

        After=network.target

        [Service]

        Type=simple

        User=root

        ExecStart=/usr/local/alertmanager/alertmanager --config.file=/usr/local/alertmanager/alertmanager.yml

        Restart=on-failure

        [Install]

        WantedBy=multi-user.target

        Alertmanager 安装目录下默认有 alertmanager.yml 配置文件,可以创建新的配置文件,在启动时指定即可。

        其余方式和上面一样

        接着是Prometheus,我之前的博客里有写了容器安装和非容器安装的方法,自己去翻阅

        然后是在prometheus.yml里修改相关配置

        首先去掉alertmanager的注释,改成IP加你设置的端口号,默认是

       æŽ¥ç€åœ¨rule_files: 下面写下规则文件的绝对路径,可以是具体文件名,也可以是*,也可以分几级文件,*默认是全部匹配

       æŽ¥ç€æ˜¯è¢«ç›‘控项的设置,这里设置完成可以在Prometheus网页里的targets里看得到

        请注意,这里设置的参数名字要和rule规则中设置的参数名字一模一样,否则你的prometheus服务会无法启动,然后报错

        如果不在特定的job下设置scrape_interval(优先级高于全局),则默认采用gobal下的scrape_interval

       æœ€åŽæ¨¡æ‹ŸèŠ‚点掉线,手动关闭node-exporter或者Cadvisor

        docker stop node-exporter 或者容器ID

        docker stop cadvisor æˆ–者容器ID

        或者把up{ { job='prometheus'}} == 1 设置成1,反向设置,不用关掉服务,就可以看看告警成不成功

       è¯´æ˜Žä¸€ä¸‹ Prometheus Alert 告警状态有三种状态:Inactive、Pending、Firing。

        Inactive:非活动状态,表示正在监控,但是还未有任何警报触发。

        Pending:表示这个警报必须被触发。由于警报可以被分组、压抑/抑制或静默/静音,所以等待验证,一旦所有的验证都通过,则将转到 Firing 状态。

        Firing:将警报发送到 AlertManager,它将按照配置将警报的发送给所有接收者。一旦警报解除,则将状态转到 Inactive,如此循环。

       æ²¡æœ‰é…ç½®å‘Šè­¦æ¨¡æ¿æ—¶çš„默认告警格式是这样的

       èŠ‚点恢复后邮件告知是这样的

       å†™äº†æ¨¡æ¿åŽæ˜¯è¿™æ ·çš„

       è¿˜è¦é‡æ–°æ˜ å°„模板文件夹路径到alertmanager容器里的相对路径,然后重启alertmanager,当然,如果目录下没有模板文件,则不显示

       å‘Šè­¦æ¨¡æ¿

       åœ¨alertmanager.yml中修改相关设置

        重启alertmanager

        docker restart alertmanager

        最终效果不是很好

基于Prometheus + Grafana搭建IT监控报警最佳实践(2)

       见字如面,大家好,我是小斐。延续前文,本文将深入探讨Prometheus和Grafana的监控体系。

       首先,我们需要打开Prometheus和Grafana进行操作,访问地址分别为:...:/ 和 ...:/。

       以node_exporter数据采集器为例,先确保其已安装于需要监控的主机。若要获取...主机的状态数据,需在该主机安装node_exporter采集器。

       在prometheus.yml中添加需要抓取的目标源信息,具体操作为:在scrape_configs下添加job_name,指定静态目标,添加...:目标。

       配置文件配置完成后,由于是静态的,需要重新加载配置文件,重启Prometheus以生效。

       在targets中查看是否已抓取到目标,根据上图可见,...的主机节点数据已抓取到。在Prometheus中验证数据正确性,点击/starsliao/Te... #consulmanager项目地址

       consulmanager 是一个开源的项目,现在已经更名为tensuns,有兴趣的可以自行研究

       要想安装consulmanager,必须先安装下面三个 docker ,docker-compase, consul

       1.1 安装consul

       1.1.1 安装consul-基于centos7

       1.1.2 生成uuid

       1.1.3 配置文件设置

       1.1.4 启动consul

       访问方式 ip:

       1.2 安装docker和docker-compase

       1.2.1 安装docker

       1.2.2 安装docker-compase

       二 安装 ConsulManager

       2.1 下载源码

       下载地址 github.com/starsliao/Co...

       目录结构如下:

       2.2 docker-compose.yml 内容

       2.3 启动并访问

       三 配置consulmanager

       3.1 云主机管理

       3.1.1 同步云主机

       云主机管理就是可以自动同步云服务器到consulmanager这个上面

       前提是需要你在云账号里面创建access key 和secret key,这个账号还需要有访问主机的权限

       新增云资源

       创建完成之后,你可以手动同步,也可以自动同步,然后去云主机列表查看,是否同步过来了

       3.1.2 批量云主机监控

       前提是每天主机需要安装好node-exporter

       选定好指定的组,选择好系统,点击生成配置,然后把这个配置,粘贴到prometheus的配置文件中

       进行重启prometheus

       然后进去到prometheus-target里进行查看

       当然如果你的node-exporter的端口不是,怎么办,打开cousul的web页面,可以自定义设置

       3.1.3 导入对应的模版

       导入ID:

       详细URL: grafana.com/grafana/das...

       3.1.4 设置告警规则

       3.2 blackbox站点监控设置

       3.2.1. 配置Blackbox_Exporter

       在Web页面点击

       Blackbox 站点监控/Blackbox 配置,点击

       复制配置,如下所示:

       复制配置到 blackbox.yml,清空已有的配置,把复制的内容粘贴进去,重启blackbox_exporter

       3.2.2 配置Prometheus

       在Web页面点击 Blackbox 站点监控/Prometheus 配置,点击复制配置。编辑Prometheus的

       prometheus.yml,把复制的内容追加到最后,reload或重启Prometheus

       3.2.3. 配置Prometheus告警规则

       在Web页面点击

       Blackbox 站点监控/告警规则,点击复制配置。

       编辑Prometheus的配置文件,添加 rules.yml,然后把复制的内容粘贴到rules.yml里面,reload或重启Prometheus。

       然后去prometheus查看告警规则是否生成

       3.2.4. 查看Prometheus

       在Prometheus的Web页面中,点击Status-Targets,能看到新增的Job即表示数据同步到Prometheus。

       3.2.5 新增tcp或者/grafana/das...

       最终在grafana访问的效果如下:

       四 总结

       到这里基本的监控项和报警规则都已经设定好了,接下来会介绍告警的方式和具体实现

Prometheus TSDB源码解析,Index索引存储格式分析

       Prometheus TSDB的Index索引存储格式详解

       Prometheus在数据存储过程中,当Head中的时间范围达到一定阈值时,会将数据归档到Block中,以保持高效查询性能。这个过程涉及Compact操作,具体实现见tsdb/db.go的Compact方法。整个系统结构包括多个文件,如G2KPG4ZND4WA3GZYB和ULID标识的Block,其中包含时间范围内的样本数据,chunk和index文件组织了这些数据。

       Index文件是关键,它详细记录了Series的索引信息。首先,TOC(目录)部分包含文件中Symbol Table、Series、Label Indices等的索引位置,固定长度字节,便于快速定位。Symbol Table存储Series中的标签值对,按照升序排序,包含每个标签值的长度、索引以及CRC校验。

       Series部分描述了每个Series对Chunk的引用,包括系列长度、标签对数量、标签值索引引用、chunk位置信息以及元数据,采用差分编码节省空间。Label Indices记录每个标签名下的所有值,同样按照索引存储,便于快速查找。Postings则记录每个标签值对对应的所有系列引用。

       Label Offset Table用于记录标签值在Label Index中的位置,而Postings Offset Table则记录每个键值对对应的Postings索引。这些结构共同构成了Prometheus查询的核心索引,理解它们对于理解查询流程至关重要。

       本文深入剖析了Prometheus的源码和文档,揭示了Index文件的详细结构,接下来将深入讲解查询流程和Block中Chunk的格式。后续内容将更加详细地揭示Prometheus如何利用这些结构实现高效的数据检索。