Storm入门教程第三章 Storm安装部署步骤 -

zhouwenjian

浏览: 14154 次
性别:
来自: 北京

最近访客更多访客>>

kencsdn

paladin1988

littlej1002

yuanhang666

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (43)

社区版块

存档分类

Storm入门教程第三章 Storm安装部署步骤

3.1 Storm集群组件

Storm集群中包含两类节点：主控节点（Master Node）和工作节点（Work Node）。其分别对应的角色如下：

1. 主控节点（Master Node）上运行一个被称为Nimbus的后台程序，它负责在Storm集群内分发代码，分配任务给工作机器，并且负责监控集群运行状态。Nimbus的作用类似于Hadoop中JobTracker的角色。

2. 每个工作节点（Work Node）上运行一个被称为Supervisor的后台程序。Supervisor负责监听从Nimbus分配给它执行的任务，据此启动或停止执行任务的工作进程。每一个工作进程执行一个Topology的子集；一个运行中的Topology由分布在不同工作节点上的多个工作进程组成。

Nimbus和Supervisor节点之间所有的协调工作是通过Zookeeper集群来实现的。此外，Nimbus和Supervisor进程都是快速失败（fail-fast)和无状态（stateless）的；Storm集群所有的状态要么在Zookeeper集群中，要么存储在本地磁盘上。这意味着你可以用kill -9来杀死Nimbus和Supervisor进程，它们在重启后可以继续工作。这个设计使得Storm集群拥有不可思议的稳定性。

3.2 安装Storm集群

这一章节将详细描述如何搭建一个Storm集群。下面是接下来需要依次完成的安装步骤：

1. 搭建Zookeeper集群；

2. 安装Storm依赖库；

3. 下载并解压Storm发布版本；

4. 修改storm.yaml配置文件；

5. 启动Storm各个后台进程。

3.2.1 搭建Zookeeper集群

Storm使用Zookeeper协调集群，由于Zookeeper并不用于消息传递，所以Storm给Zookeeper带来的压力相当低。大多数情况下，单个节点的Zookeeper集群足够胜任，不过为了确保故障恢复或者部署大规模Storm集群，可能需要更大规模节点的Zookeeper集群（对于Zookeeper集群的话，官方推荐的最小节点数为3个）。在Zookeeper集群的每台机器上完成以下安装部署步骤：

1. 下载安装Java JDK，官方下载链接为http://java.sun.com/javase/downloads/index.jsp，JDK版本为JDK 6或以上。

cd /usr/local
tar -xvzf /usr/local/jdk-7u21-linux-x64.gz
vim /etc/profile
JAVA_HOME=/usr/local/jdk1.7.0_25
JRE_HOME=$JAVA_HOME/jre
CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH
export JAVA_HOME JRE_HOME CLASSPATH PATH
source /etc/profile

2. 根据Zookeeper集群的负载情况，合理设置Java堆大小，尽可能避免发生swap，导致Zookeeper性能下降。保守起见，4GB内存的机器可以为Zookeeper分配3GB最大堆空间。

3. 下载后解压安装Zookeeper包，官方下载链接为http://hadoop.apache.org/zookeeper/releases.html。

cd /usr/local
wget http://apache.fayea.com/apache-mirror/zookeeper/stable/zookeeper-3.4.5.tar.gz
tar -xvzf zookeeper-3.4.5.tar.gz

4. 根据Zookeeper集群节点情况，在conf目录下创建Zookeeper配置文件zoo.cfg：

vi zookeeper-3.4.5/conf/zoo.cfg

tickTime=2000
dataDir=/var/zookeeper/
clientPort=2181
initLimit=5
syncLimit=2
server.1=zookeeper1:2888:3888
server.2=zookeeper2:2888:3888
server.3=zookeeper3:2888:3888

其中，dataDir指定Zookeeper的数据文件目录；其中server.id=host:port:port，id是为每个Zookeeper节点的编号，保存在dataDir目录下的myid文件中，zoo1~zoo3表示各个Zookeeper节点的hostname，第一个port是用于连接leader的端口，第二个port是用于leader选举的端口。

5. 在dataDir目录下创建myid文件，文件中只包含一行，且内容为该节点对应的server.id中的id编号。

mkdir /var/zookeeper
echo [id] > /var/zookeeper/myid

6. 启动Zookeeper服务：

zookeeper-3.4.5/bin/zkServer.sh start

7. 通过Zookeeper客户端测试服务是否可用：

zookeeper-3.4.5/bin/zkCli.sh -server 127.0.0.1:2181

或者

zookeeper-3.4.5/bin/zkServer.sh status

注意事项：

由于Zookeeper是快速失败（fail-fast)的，且遇到任何错误情况，进程均会退出，因此，最好能通过监控程序将Zookeeper管理起来，保证Zookeeper退出后能被自动重启。详情参考这里。
Zookeeper运行过程中会在dataDir目录下生成很多日志和快照文件，而Zookeeper运行进程并不负责定期清理合并这些文件，导致占用大量磁盘空间，因此，需要通过cron等方式定期清除没用的日志和快照文件。详情参考这里。具体命令格式如下：java -cp zookeeper.jar:log4j.jar:conf org.apache.zookeeper.server.PurgeTxnLog <dataDir> <snapDir> -n <count>

3.2.2 安装Storm依赖库

接下来，需要在Nimbus和Supervisor机器上安装Storm的依赖库，具体如下：

1. Java 6

2. Python 2.6.6

3.ZeroMQ 2.1.7– 请勿使用2.1.10版本，因为该版本的一些严重bug会导致Storm集群运行时出现奇怪的问题。少数用户在2.1.7版本会遇到”IllegalArgumentException”的异常，此时降为2.1.4版本可修复这一问题。

4.JZMQ

5. unzip

以上依赖库的版本是经过Storm测试的，Storm并不能保证在其他版本的Java或Python库下可运行。

3.2.2.1 安装Java

1. 下载并安装JDK 6；

2. 配置JAVA_HOME环境变量；

3. 运行java、javac命令，测试java正常安装。

3.2.2.2 安装Python

1. 下载编译安装Python2.6.6：

cd /usr/local
wget http://www.python.org/ftp/python/2.6.6/Python-2.6.6.tar.bz2
tar -jxvf Python-2.6.6.tar.bz2
cd Python-2.6.6
./configure
make
make install
cd ..

2. 测试Python2.6.6：

python -V

3.2.2.3 安装ZMQ

1.安装ZMQ依赖的uuid库：

yum install uuid*
yum install e2fsprogs* 
yum install libuuid*

2.下载后编译安装ZMQ：

cd /usr/local
wget http://download.zeromq.org/zeromq-2.1.7.tar.gz
tar -xzf zeromq-2.1.7.tar.gz
cd zeromq-2.1.7
./configure
make
sudo make install
cd ..

3.2.2.4 安装JZMQ

下载后编译安装JZMQ：

cd /usr/local
git clone https://github.com/nathanmarz/jzmq.git
cd jzmq
./autogen.sh
./configure
make
sudo make install
cd ..

注意事项：

正确设置 JAVA_HOME环境变量，为了保证JZMQ正常工作，可能需要完成以下配置：
1. 安装Java开发包
2. 升级autoconf
3. 如果你是Mac OSX，参考这里
如果运行 ./configure 命令出现问题，参考这里。

3.2.2.5 安装unzip

执行以下命令安装unzip：

yum install unzip

3.2.3 下载并解压Storm发布版本

在Nimbus和Supervisor机器上安装Storm发行版本。

1. 下载Storm发行版本，推荐使用Storm0.8.2：

cd /usr/local
wget https://github.com/downloads/nathanmarz/storm/storm-0.8.2.zip

2. 解压到安装目录下：

unzip storm-0.8.2.zip

3.2.4 修改Storm配置文件

Storm发行版本解压目录下有一个conf/storm.yaml文件，用于配置Storm。默认配置在这里可以查看。conf/storm.yaml中的配置选项将覆盖defaults.yaml中的默认配置。以下配置选项是必须在conf/storm.yaml中进行配置的：

vi storm-0.8.2/conf/storm.yaml

1.storm.zookeeper.servers: Storm集群使用的Zookeeper集群地址，其格式如下：

storm.zookeeper.servers:
    - "zookeeper1"
    - "zookeeper2"
    - "zookeeper3"

如果Zookeeper集群使用的不是默认端口，那么还需要storm.zookeeper.port选项。

2.storm.local.dir: Nimbus和Supervisor进程用于存储少量状态，如jars、confs等的本地磁盘目录，需要提前创建该目录并给以足够的访问权限。然后在storm.yaml中配置该目录，如：

storm.local.dir: "/home/admin/storm/workdir"

3.java.library.path: Storm使用的本地库（ZMQ和JZMQ）加载路径，默认为”/usr/local/lib:/opt/local/lib:/usr/lib”，一般来说ZMQ和JZMQ默认安装在/usr/local/lib 下，因此不需要配置即可。

4.nimbus.host: Storm集群Nimbus机器地址，各个Supervisor工作节点需要知道哪个机器是Nimbus，以便下载Topologies的jars、confs等文件，如：

nimbus.host: "nimbus"

5.supervisor.slots.ports: 对于每个Supervisor工作节点，需要配置该工作节点可以运行的worker数量。每个worker占用一个单独的端口用于接收消息，该配置选项即用于定义哪些端口是可被worker使用的。默认情况下，每个节点上可运行4个workers，分别在6700、6701、6702和6703端口，如：

supervisor.slots.ports:
    - 6700
    - 6701
    - 6702
    - 6703

3.2.5 启动Storm各个后台进程

最后一步，启动Storm的所有后台进程。和Zookeeper一样，Storm也是快速失败（fail-fast)的系统，这样Storm才能在任意时刻被停止，并且当进程重启后被正确地恢复执行。这也是为什么Storm不在进程内保存状态的原因，即使Nimbus或Supervisors被重启，运行中的Topologies不会受到影响。以下是启动Storm各个后台进程的方式：

1.Nimbus: 在Storm主控节点上执行如下脚本，启动Nimbus后台程序，并放到后台执行；

nohup storm-0.8.2/bin/storm nimbus >/dev/null 2>&1 &

2.Supervisor: 在Storm各个工作节点上执行如下脚本，启动Supervisor后台程序，并放到后台执行；

nohup storm-0.8.2/bin/storm supervisor >/dev/null 2>&1 &

3.UI: 在Storm主控节点上执行下脚本，启动UI后台程序，并放到后台执行，启动后可以通过http://{nimbus host}:8080观察集群的worker资源使用情况、Topologies的运行状态等信息。

nohup storm-0.8.2/bin/storm ui >/dev/null 2>&1 &

注意事项：

启动Storm后台进程时，需要对conf/storm.yaml配置文件中设置的storm.local.dir目录具有写权限。
Storm后台进程被启动后，将在Storm安装部署目录下的logs/子目录下生成各个进程的日志文件。
经测试，Storm UI必须和Storm Nimbus部署在同一台机器上，否则UI无法正常工作，因为UI进程会检查本机是否存在Nimbus链接。
为了方便使用，可以将bin/storm加入到系统环境变量中。

至此，Storm集群已经部署、配置完毕，可以向集群提交拓扑运行了。

3.3 向集群提交任务

1. 启动Storm Topology：

bin/storm jar allmycode.jar org.me.MyTopology arg1 arg2 arg3

其中，allmycode.jar是包含Topology实现代码的jar包，org.me.MyTopology的main方法是Topology的入口，arg1、arg2和arg3为org.me.MyTopology执行时需要传入的参数。

2. 停止Storm Topology：

bin/storm kill {toponame}

其中，{toponame}为Topology提交到Storm集群时指定的Topology任务名称。

3.4 参考资料

1.https://github.com/nathanmarz/storm/wiki/Tutorial

2.https://github.com/nathanmarz/storm/wiki/Setting-up-a-Storm-cluster

分享到：

Storm入门教程第四章消息的可靠处理 | Storm入门教程第二章构建Topology

2013-05-14 10:31
浏览 228
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Storm入门教程第三章 Storm安装部署步骤

3.1 Storm集群组件

3.2 安装Storm集群

3.2.1 搭建Zookeeper集群

3.2.2 安装Storm依赖库

3.2.2.1 安装Java

3.2.2.2 安装Python

3.2.2.3 安装ZMQ

3.2.2.4 安装JZMQ

3.2.2.5 安装unzip

3.2.3 下载并解压Storm发布版本

3.2.4 修改Storm配置文件

3.2.5 启动Storm各个后台进程

3.3 向集群提交任务

3.4 参考资料

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Storm入门教程 第三章 Storm安装部署步骤

3.1 Storm集群组件

3.2 安装Storm集群

3.2.1 搭建Zookeeper集群

3.2.2 安装Storm依赖库

3.2.2.1 安装Java

3.2.2.2 安装Python

3.2.2.3 安装ZMQ

3.2.2.4 安装JZMQ

3.2.2.5 安装unzip

3.2.3 下载并解压Storm发布版本

3.2.4 修改Storm配置文件

3.2.5 启动Storm各个后台进程

3.3 向集群提交任务

3.4 参考资料

评论

发表评论

相关推荐

最近访客更多访客>>

Storm入门教程第三章 Storm安装部署步骤