zabbix主动、被动检测的详细过程与区别(101)

凉白开 zabbix2272,52435字数 2671阅读8分54秒阅读模式

zabbix agent检测分为主动(agent active)和被动(agent)两种形式,主动与被动的说法均是相对于agent来讨论的。简单说明一下主动与被动的区别如下:

主动:agent请求server获取主动的监控项列表,并主动将监控项内需要检测的数据提交给server/proxy文章源自运维生存时间-https://www.ttlsa.com/zabbix/zabbix-active-and-passive-checks/

被动:server向agent请求获取监控项的数据,agent返回数据。文章源自运维生存时间-https://www.ttlsa.com/zabbix/zabbix-active-and-passive-checks/

 文章源自运维生存时间-https://www.ttlsa.com/zabbix/zabbix-active-and-passive-checks/

zabbix agent通信过程中的协议均基于json格式,格式如下:文章源自运维生存时间-https://www.ttlsa.com/zabbix/zabbix-active-and-passive-checks/

- "ZBXD\x01" (5 bytes)
 - data length (8 bytes). 1 will be formatted as 01/00/00/00/00/00/00/00 (eight bytes in HEX, 64 bit number)

备注:为了避免内存耗尽,server限制每个通信连接最多使用128MB内存。文章源自运维生存时间-https://www.ttlsa.com/zabbix/zabbix-active-and-passive-checks/

被动检测

server发起如下请求文章源自运维生存时间-https://www.ttlsa.com/zabbix/zabbix-active-and-passive-checks/

 <item key>\n

Aegent返回如下响应数据文章源自运维生存时间-https://www.ttlsa.com/zabbix/zabbix-active-and-passive-checks/

<HEADER><DATALEN><DATA>[\0<ERROR>]

supported items通信过程文章源自运维生存时间-https://www.ttlsa.com/zabbix/zabbix-active-and-passive-checks/

  • Server打开一个TCP连接
  • Server发送请求agent.ping\n
  • Agent接收到请求并且响应<HEADER><DATALEN>1
  • Server处理接收到的数据1
  • 关闭TCP连接

not supported items通信过程文章源自运维生存时间-https://www.ttlsa.com/zabbix/zabbix-active-and-passive-checks/

  • Server打开一个TCP连接
  • Server发送请求vfs.fs.size[/nono]\n
  • Agent接收请求并且返回响应数据 <HEADER><DATALEN>ZBX_NOTSUPPORTED\0Cannot obtain filesystem information: [2] No such file or directory
  • Server接收并处理数据, 将item的状态改为“ not supported ”
  • 关闭TCP连接

 文章源自运维生存时间-https://www.ttlsa.com/zabbix/zabbix-active-and-passive-checks/

主动检测

如前面所说,zabbix首先向ServerActive配置的IP请求获取active items,获取并提交active tiems数据值server或者proxy。很多同学会提出疑问:zabbix多久获取一次active items?它会根据配置文件中的RefreshActiveChecks的频率进行,如果获取失败,那么将会在60秒之后重试
获取ACTIVE ITEMS列表文章源自运维生存时间-https://www.ttlsa.com/zabbix/zabbix-active-and-passive-checks/

Agent请求文章源自运维生存时间-https://www.ttlsa.com/zabbix/zabbix-active-and-passive-checks/

<HEADER><DATALEN>{
    "request":"active checks",
    "host":"<hostname>"
}
Server响应列表
<HEADER><DATALEN>{
    "response":"success",
    "data":[
        {
            "key":"log[/home/zabbix/logs/zabbix_agentd.log]",
            "delay":30,
            "lastlogsize":0,
            "mtime":0
        },
        {
            "key":"agent.version",
            "delay":600,
            "lastlogsize":0,
            "mtime":0
        },
        {
            "key":"vfs.fs.size[/nono]",
            "delay":600,
            "lastlogsize":0,
            "mtime":0
        }
    ]
}
备注:获取到的items列表中的所有item属性key, delay, lastlogsize ,mtime都必须存在,获取列表的通信过程如下:
  • Agent打开TCP连接(主动检测变成Agent打开)
  • Agent请求items检测列表
  • Server返回items列表
  • Agent 处理响应
  • 关闭TCP连接
  • Agent开始收集数据

提交active items数据

Agent发送请求文章源自运维生存时间-https://www.ttlsa.com/zabbix/zabbix-active-and-passive-checks/
<HEADER><DATALEN>{
    "request":"agent data",
    "data":[
        {
            "host":"<hostname>",
            "key":"agent.version",
            "value":"2.4.0",
            "clock":1400675595,
            "ns":76808644
        },
        {
            "host":"<hostname>",
            "key":"log[/home/zabbix/logs/zabbix_agentd.log]",
            "lastlogsize":112,
            "value":" 19845:20140621:141708.521 Starting Zabbix Agent [<hostname>]. Zabbix 2.4.0 (revision 50000).",
            "clock":1400675595,
            "ns":77053975
        },
        {
            "host":"<hostname>",
            "key":"vfs.fs.size[/nono]",
            "state":1,
            "value":"Cannot obtain filesystem information: [2] No such file or directory",
            "clock":1400675595,
            "ns":78154128
        }
    ],
    "clock": 1400675595,
    "ns": 78211329
}
Server响应数据文章源自运维生存时间-https://www.ttlsa.com/zabbix/zabbix-active-and-passive-checks/
{
 "response":"success",
 "info":"processed: 3; failed: 0; total: 3; seconds spent: 0.003534"
 }

备注:如果有些数据提交失败,比如host、item被删除或者禁用,agent不会尝试从新提交文章源自运维生存时间-https://www.ttlsa.com/zabbix/zabbix-active-and-passive-checks/

主动检测提交数据过程如下:文章源自运维生存时间-https://www.ttlsa.com/zabbix/zabbix-active-and-passive-checks/

  • Agent建立TCP连接
  • Agent提交items列表收集的数据
  • Server处理数据,并返回响应状态
  • 关闭TCP连接
文章源自运维生存时间-https://www.ttlsa.com/zabbix/zabbix-active-and-passive-checks/文章源自运维生存时间-https://www.ttlsa.com/zabbix/zabbix-active-and-passive-checks/
weinxin
我的微信
微信公众号
扫一扫关注运维生存时间公众号,获取最新技术文章~
凉白开
  • 本文由 发表于 12/05/2015 01:00:38
  • 转载请务必保留本文链接:https://www.ttlsa.com/zabbix/zabbix-active-and-passive-checks/
  • active check
  • zabbix主动
  • zabbix主动被动的区别
  • zabbix多久同步数据
评论  22  访客  22
    • 扛靶子
      扛靶子 1

      您好,我想请教一下,在agent端,用zabbix_agentd -p命令,显示log、logrt、eventlog都是Accessible only as active check是什么原因

      • zyc
        zyc 9

        agent端不在server端的局域网内,怎么设置agent端让server检测得到?

          • 凉白开
            凉白开 9

            @ zyc proxy

          • 运维生存时间网友
            运维生存时间网友 9

            您好,有个问题请教您。
            我的server和agent在不同的机房,现在只让在server的防火墙上开一个端口,然后所有agent主动把所有监控项数据发给server。这样可以实现 吗?

            • 匿名
              匿名 0

              您好,有个问题请教您。
              我的server和agent在不同的机房,现在只让在server的防火墙上开一个端口,然后所有agent主动把所有监控项数据发给server。这样可以实现 吗?

              • gang122100
                gang122100 1

                您好。问一下 主动和被动模式 哪个性能比较好?它们各自的适用场景是? 为何我这边有好多监控项是主动模式,在业务比较繁忙的时候,抓的数据不全,或者有时候抓不到数据,而换成被动模式就一切正常了呢?

                  • 管理员
                    管理员 5

                    @ gang122100 主动是server到客户端检索数据,默认3秒超时。如果获取数据时间太长,就会出现你说的问题。
                    被动是客户端主动提交数据给server,自己检索数据时间再久都没关系,提交给server一般都是毫秒级的。
                    所以说,如果获取一个数据时间比较长,那就用主动。否则使用被动。

                      • ahren007
                        ahren007 1

                        @ 管理员 你确认你没有将主动和被动的概念搞反?

                        • qingnian
                          qingnian 0

                          @ 管理员 主动:agent请求server获取主动的监控项列表,并主动将监控项内需要检测的数据提交给server/proxy
                          被动:server向agent请求获取监控项的数据,agent返回数据。
                          文章开头写的跟管理员现在回复的意思怎么相反了?我要蒙了

                          • 匿名
                            匿名 9

                            @ 管理员 我发现就算是主动模式的,也会出现超时
                            30334:20180125:103515.257 active check “xxx” is not supported: Timeout while executing a shell script.

                        • gang122100
                          gang122100 1

                          楼主,问一下 主动模式和被动模式哪个性能比较好?它们各自的适用场景是如何的?为什么我用主动模式的时候好多监控项都会出现业务繁忙的时候监控不到数据?

                          • 游客
                            游客 9

                            你好,主动、被动相关的配置能稍微介绍一下吗。是否可以只启用主动模式,关闭被动模式。
                            另外,我发现,zabbix server对于连接上来的主机都有一个周期检测的机制,如果server主动检测失败,因为我们的agent是部署在NAT下的路由器的,这时候server主动监测机制肯定会失败,所以就会host下线。这个检测机制跟上面提到的被动模式是一回事吗?

                            谢谢

                              • TTLSA
                                TTLSA 9

                                @ 游客 请看zabbix server和agent的配置文件,前面两篇文章有详细介绍
                                1. 是否可以只启用主动模式,关闭被动模式?
                                当然可以
                                2. 我发现,zabbix server对于连接上来的主机都有一个周期检测的机制
                                是的,既然你只用主动模式,那么zabbix自带的模板你一个都不要link,因为他们都是被动模式的,否则肯定报错~

                                  • 游客
                                    游客 9

                                    @ TTLSA 感谢您的回复,如您所说,已解决

                                      • 游客
                                        游客 9

                                        @ 游客 楼主,您好。
                                        在关闭被动模式,只开主动模式的情况下,agent能向server上报item,这时候server也不会向agent主动去发送什么数据。
                                        但是在这种情况下,我对某一个item的值进行trigger判断,如果符合某个条件就要执行一个action。该action要求上报该item的agent执行一个远程命令,这时候问题就出现了,依我的判断,【这个远程命令是server通过去主动连接agent,并通过该连接让agent执行该远程命令的】。但是在我的环境中,server是没法去主动连接agent的,这也是前面我只开启主动模式,关闭被动模式的原因。
                                        请问楼主,我的理解对吗?

                                          • 运维生存时间
                                            运维生存时间 7

                                            @ 游客 action中的type选择ssh或者telnet

                                            • 游客
                                              游客 9

                                              @ 运维生存时间 感谢您的回复
                                              我的意思是我的agent完全在局域网中,而server在公网中,这种情况也行吗?有没有关于action执行时机方面的资料,比如是agent上报一个item,只要trigger触发,就立马执行对应的action吗,这个action的执行可以沿用agent上报item给server时的那个套接字来发送远程命令吗,不用另外建立。
                                              谢谢

                                    评论已关闭!