MySQL应用架构优化-实时数据处理(1)

1.1. 场景

在和开发人员做优化的时候,讨论最多的应该是结合应用场景编写出合适的SQL。并培训开发应该如何编写SQL让MySQL的性能尽量好。但是有一些的场景对于SQL的优化是行不通的。

打个比方,产品有这样的需求:针对每个商品实时显示销售者的销售量,并且按销售量做排序,还要实现 分页。这个需求看上去很简单,实现起来也很容易。无非就是对三张表(seller、goods、orders)进行查询、聚合、排序。但是对于上亿订单量来说,这样查询简直就是一个噩梦。

分析:这边主要是需要按销售量来进行排序,这样的操作在这里就比较可怕。如果没有这个的话,我们的按下面步骤来写SQL,MySQL跑起来就很爽:

  • 按分页需求,先查出销售者的个数(如:100个销售着,去10个)。
  • 通过1取出的销售者到orders中查询订单并GROUP BY。
  • 通过2中的orders中的goods id 取出商品信息。

可惜的是我们不是产品,不能按照我们的意愿来。当然,最好的办法就是说服产品,干掉类似这样的需求。或改变一种方式来实现这中需求,如:不要实时的展示。可是说服产品和顶在头上的人谈何容易啊,也许是关注的东西是不一样的吧。

1.2. 解决方案

首先要说明一些,像这样统计的计算能不实时就不实时。我们应该把OLAP的操作和OLTP的操作尽量解耦。来做。如白天我们关注的是OLTP(就是大家普通在用的应用程序),晚上我们关注的OLAP(Hadoop实现)。

这是我们的奇葩需求需要实时,所以Hadoop都是用不上的了。这时我们就需要用气实时计算的系统。现在业界应该有两个实时计算系统比较流行:Storm、Spark。这边我选用了使用Storm来作为我们的方案。这边选择Storm的原因主要也就是之前接触过,比较熟悉上手比较快。

当然这边我们要需要用到其他的主键:

  • Logstash:主要也就是用来收集日志。这边我们将交易一笔订单记录都会化成json格式输出到日志文件中。之前也考虑过使用Flume,但是Flume没有Logstash来的实时。
  • Kafka:主要是为了接受Logstash传过来的信息,并将它持久化和提供给Storm来使用。说明一下:有些系统会将Kafka放入程序就使用,就是说订单完成时将订单json信息直接发送给Kafka。我们这边多一层Logstash的目的是为了让应用系统和Kafka进行解耦。如果Kafka挂掉或者网络出现问题。不会影响到应用系统的正常运行。
  • Storm:接收Kafka中的信息进行分析计算出想要的数据。
  • MongoDB:主要是为了存储从Storm中分析完的数据。
  • Zookeeper:用来管理Kafka和Storm用的。

在使用这样的架构之前希望大家能理解一下“实时”这个概念:其实无论在什么应用程序中基本没有实时能完成的。只是电脑运行的快,让你误认为是实时的。所以,这边我们还是准实时。

实时理解的图:

mysql

 

1.3. 实时计算架构部署图

mysql

1.4. 架构部署

1.4.1. 环境说明

部署演示使用的是VirtualBox虚拟机,总共启用了5台虚拟机(可以根据自己的机器配置而定,我的配置:i3、12G内存、固态硬盘250G)。

系统应用部署信息

操作系统 IP 部署软件 端口
Centos7.2 10.10.10.11 Logstash
Kafka 9092
~ 10.10.10.12 MongoDB 27017、27018、27019
~ 10.10.10.21 Zookeeper 2181、3887
Storm
~ 10.10.10.22 Zookeeper 2181、3887
Storm
~ 10.10.10.23 Zookeeper 2181、3887
Storm

这边我就不部署Jetty了,到时候我使用变相的方式来向日志文件中输入json格式数据。

22.4.2. 统一配置

这边5台机子的有统一的hosts文件,并且都需要配置好JDK:

22.4.3. 部署Zookeeper

因为这边我们部署的是Zookeeper集群因此在3台机子上的操作步骤都是一样的:这边我以操作其中一台(10.10.10.21 storm_1)机子为例。

  • 到官网下载软件(zookeeper-3.4.6.tar.gz)
  • 将软件解压到 /usr/local/ 目录下

  • Zookeeper配置文件

如果没有/usr/local/zookeeper-3.4.6/conf/zoo.cfg配置文件则新建一个。

  • 创建相关需要的目录

  • 创建myid文件

下面的命令应该在不同的机器上执行

  • 启动Zookeeper

分表在三台机子上都要执行下面命令

  • 查看Zookeeper状态

  • 客户端链接Zookeeper进行验证

以上就算是部署好了Zookeeper集群了。

22.4.4. 部署Kafka

按照前面规划的我们应该将Kafka部署在(10.10.10.12 normal_12)机子上。

  • 到官网下载Kafka(10-0.9.0.0.tgz)
  • 将Kafka解压到/usr/local目录下,并从命令为kafka

  • 设置Kafka配置文件

 

  • 创建Kafka相关目录

  • 启动Kafka

  • 创建test topic

  • 查看创建的topic

  • 新建一个session,开启Kafka消费者客户端

  • 新建一个session,开启Kafka生产者客户端,并生产一个消息。

在消费者的session中能看到同时也出现了 “this is message 1”这个消息

22.4.5. 部署Logstash

按照前面规划的我们应该将Kafka部署在(10.10.10.12 normal_12)机子上。这边我们使用Logstash监听/tmp/orders.log文件,并且将Kafka作为它的输出。

  • 到官网下载Logstash(logstash-2.3.1.tar.gz)
  • 将Logstash解压到/usr/local/目录下

  • 设置Logstash配置文件

  • 启动Logstash agent

  • 向/tmp/orders.log中输入一个json字符串

再之前启动的Kafka消费者客户端会出现如下消息

22.4.6. 部署MongoDB

这边我们MongoDB部署在(10.10.10.12 normal_12)机子上。并且采用的是复制的形式。

  • 官网下载MongoDB(mongodb-linux-x86_64-rhel70-3.2.5.tgz)
  • 解压MongoDB到/usr/local/目录下

  • 创建MongoDB的相关目录

  • 分别在/u01/mongodb_27017、/u01/mongodb_27018、/u01/mongodb_27019中创建配置文件和启动脚本
  • /u01/mongodb_27017中的配置文件和启动脚本

  • /u01/mongodb_27018中的配置文件和启动脚本

  • /u01/mongodb_27019中的配置文件和启动脚本

  • 启动MongoDB

  • 初始化复制

 

由于篇幅问题《MySQL应用架构优化-实时数据处理(2)》中将将讲述其他环境搭建过程

 

昵称: HH

QQ: 275258836
ttlsa群交流沟通(QQ群②: 6690706 QQ群③: 168085569 QQ群④: 415230207(新) 微信公众号: ttlsacom)

感觉本文内容不错,读后有收获?

逛逛衣服店,鼓励作者写出更好文章。

HH

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: