真正的inotify+rsync实时同步 彻底告别同步慢

  • A+
所属分类:web应用

背景

我们公司在用inotify+rsync做实时同步,来解决分布式集群文件一致性的问题。但当web文件越来越多(百万级数量html,jpg等小 文件),同步就越来越慢,根本做不到实时,按照网上的调优方法都尝试过,问题根本没有解决。经过我一翻细致研究,终于把慢的核心问题研究明白,先总结一句 inotifywait响应不会有延迟,rsync也很快。大家同样有慢的烦恼,那是因为网上的inotify+rsync的教程都是坑。下面我们来分 析。

inotifywait 单独分析

执行上面命令,是让inotifywait监听/data/目录,当监听到有发生modify,create,delete,attrib等事件发生时,按%Xe %w%f的格式输出。

在/data/目录touch几个文件

观看inotify输出

知道上面的输出效果之后 我们应该想得到,可以用rsync获取inotifywait监控到的文件列表来做指定的文件同步,而不是每次都由rsync做全目录扫描来判断文件是否存在差异。

网上的inotify+rsync分析

我们来看网上的教程,我加了注释。(网上所有的教程基本都一模一样,尽管写法不一样,致命点都是一样的)

#注意看 这里的rsync 每次都是全量的同步(这就坑爹了),而且 file列表是循环形式触发rsync ,等于有10个文件发生更改,就触发10次rsync全量同步(简直就是噩梦),那还不如直接写个死循环的rsync全量同步得了。

#有很多人会说 日志输出那里明明只有差异文件的同步记录。其实这是rsync的功能,他本来就只会输出有差异需要同步的文件信息。不信你直接拿这句rsync来跑试试。

#这种在需要同步的源目录文件量很大的情况下,简直是不堪重负。不仅耗CPU还耗时,根本不可以做到实时同步。

备注:backup为rsync server配置module,除了编写脚本以外,还需要配置一个rsync server,rsync server配置参考《http://www.ttlsa.com/linux/rsync-install-on-linux/

改良方法

要做到实时,就必须要减少rsync对目录的递归扫描判断,尽可能的做到只同步inotify监控到已发生更改的文件。结合rsync的特性,所以这里要分开判断来实现一个目录的增删改查对应的操作。

脚本如下

 

每两小时做1次全量同步

因为inotify只在启动时会监控目录,他没有启动期间的文件发生更改,他是不知道的,所以这里每2个小时做1次全量同步,防止各种意外遗漏,保证目录一致。

改良后我们公司这种百万级小文件也能做到实施同步了。

下面附上inotify的参数说明

inotify介绍-- 是一种强大的、细颗粒的、异步的文件系统监控机制,*&####&*_0_*&####&*内核从2.6.13起,加入Inotify可以监控文件系统中添加、删除、修改移动等各种事件,利用这个内核接口,就可以监控文件系统下文件的各种变化情况。

inotifywait 参数说明

参数名称 参数说明
-m,–monitor 始终保持事件监听状态
-r,–recursive 递归查询目录
-q,–quiet 只打印监控事件的信息
–excludei 排除文件或目录时,不区分大小写
-t,–timeout 超时时间
–timefmt 指定时间输出格式
–format 指定时间输出格式
-e,–event 后面指定删、增、改等事件

inotifywait events事件说明

事件名称 事件说明
access 读取文件或目录内容
modify 修改文件或目录内容
attrib 文件或目录的属性改变
close_write 修改真实文件内容
close_nowrite
close
open 文件或目录被打开
moved_to 文件或目录移动到
moved_from 文件或目录从移动
move 移动文件或目录移动到监视目录
create 在监视目录下创建文件或目录
delete 删除监视目录下的文件或目录
delete_self
unmount 卸载文件系统

优化 Inotify

# 在/proc/sys/fs/inotify目录下有三个文件,对inotify机制有一定的限制

-----------------------------
max_user_watches #设置inotifywait或inotifywatch命令可以监视的文件数量(单进程)
max_user_instances #设置每个用户可以运行的inotifywait或inotifywatch命令的进程数
max_queued_events #设置inotify实例事件(event)队列可容纳的事件数量
----------------------------

作者信息

广州 - 小朱

weinxin
微信公众号
扫一扫关注运维生存时间公众号,获取最新技术文章~

评论已关闭!

目前评论:25   其中:访客  25   博主  0

    • cc.chen 9

      inotifywait 监听的格式不太好,如果被监听的文件名有空格那么输出的信息不完整,建议使用复合分隔附分开,比如%Xe::::%w%f’,那么INFO_EVENT和INO_FILE用gawk分隔输出就可以rsync时只同步文件了,不需要同步该目录。

      • ops 1

        我觉得脚本里进行inotifywait前,做一次全量同步最好了,不用加定时任务。

        • Black 0

          这个脚本,对于小白来说 不清楚是放到服务端还是放到客户端?

          •              0

            在你11行中的$file 是从哪里来的呢??前边没有赋值 后边怎么可以直接使用呢?看到的话麻烦回复一下。1143452796@qq.com

            • 匿名 9

              感谢作者,第一个判断好像有点问题,提个建议
              版本2. 修改新建目录同步卡死问题
              版本1的问题,后台跑总是自己停,时间一般都在早上,
              原因:如果新增一个目录 /supp/upload/8888
              则同步命令为
              rsync -avzcR –password-file=${rsync_passwd_file} $(dirname ${INO_FILE}) ${user}@${ip1}::${des} 代码
              rsync -avzcR –password-file=${rsync_passwd_file} ./upload yunshu@10.xx.xx.70::oldfile 命令
              这条命令会把整个shell脚本卡主,同步也停止了

              • 唐大麦 9

                如果删除的路径越靠近根,则同步的目录月多,同步删除的操作就越花时间
                现在有好的解决方案了吗?

                • 匿名 9

                  第一个判断有点问题,在创建一个文件后,会触发三次事件,create close_write attr,其他好像没有问题

                    • 匿名 0

                      @匿名 三次事件就会上传3次,那效率就会很低了,有什么好的办法可以解决吗

                        • 匿名 9

                          @匿名 可以细化一下,创建一个文件时 只监控 close_write,收到这个命令才进行同步

                      • 匿名 9

                        小伙子,rsync 的 选项u,解决你所有的命令

                        • 小李 0

                          为啥不用-u

                            • uu564237933 0

                              @小李 -u是只更新新的文件,不过还是会将整个目录的所有文件进行一次比对的。

                            • 匿名 9

                              循环太多了

                              • longjq 0

                                你好,我使用了你这个脚本,现在实行了【有修改就自动同步的功能】
                                现在碰到一个问题,就是,我的环境监控的日志目录是/root/my_log/,在该目录下,每日会生成2016-07-20这样日期的目录,目录下还有几个文件,例如users.log,orders.log等几个文件。每天凌晨之后会生成新的日志目录,例如2016-07-21这样,但是inotify貌似监控不到,同时也不能同步新的日期目录了。只会一直监控2016-07-20的目录,只要第二天凌晨到了,就监控不到了。不过,kill掉shell脚本进程,然后再开启就又可以同步到了2016-07-21的目录了。很奇怪。
                                截图就是我稍加改动的shell脚本,如果你看到了,可以回复我留的邮箱吗?87399497@qq.com,我现在每天都等到凌晨kill掉,再重新开启就可以监控到了,好辛苦。。。
                                [img]评论[/img]

                                  • 小黑哥 0

                                    @longjq 我这边有个要不你试试

                                  • info 9

                                    由于rsync同步的特性,这里必须要先cd到源目录 这有问题吧 ,这里inotifywait监控相对地址,根本监控不到,为什么?

                                    • 匿名 9

                                      /usr/local/bin/inotifywait -mrq –format ‘%Xe %w%f’ -e modify,create,delete,attrib,close_write,move ./ 这个地方有问题,用这个相对路径监控不到,用绝对路径则没有问题

                                      • loony 9

                                        sersync貌似可以只同步更改的。

                                          • 凉白开 9

                                            @loony 春节还看内容,拼!

                                          • 海马 9

                                            非常好

                                            • 踢人号哈哈哈 9

                                              mark了~ 刚好在改图片服务器架构

                                              • 广州Viman 9

                                                不错~

                                                • patriot 9

                                                  赞。

                                                  • 张戈 1

                                                    非常好用,点赞!

                                                    • js 9

                                                      强行点赞