在集群上独立运行Alluxio

Slack Docker Pulls GitHub edit source

独立集群

下载Alluxio tar文件并解压:

wget http://alluxio.org/downloads/files/1.5.0/alluxio-1.5.0-bin.tar.gz
tar xvfz alluxio-1.5.0-bin.tar.gz

alluxio/conf目录下,将alluxio-env.sh.template拷贝到alluxio-env.sh。确保JAVA_HOME指向有效的Java 7安装路径。将ALLUXIO_MASTER_HOSTNAME更新为运行Alluxio Master的机器的主机名。添加所有worker节点的IP地址到alluxio/conf/workers文件。最后,同步worker节点的所有信息。可使用

./bin/alluxio copyDir <dirname>

同步所有文件和文件夹到alluxio/conf/workers 文件中指定的主机里。

现在可以启动Alluxio:

cd alluxio
./bin/alluxio format
./bin/alluxio-start.sh # use the right parameters here. e.g. all Mount
# Notice: the Mount and SudoMount parameters will format the existing RamFS.

验证Alluxio是否运行,可以访问http://<alluxio_master_hostname>:19999,或查看alluxio/logs文件夹下的日志。也可以运行一个样例程序

./bin/alluxio runTests

提示: 如果使用EC2,确保master节点的安全组设置中允许Alluxio web UI端口上的连接。

使用bootstrapConf参数的bin/alluxio脚本

Alluxio脚本包含创建集群基本配置的选项。运行:

cd alluxio
./bin/alluxio bootstrapConf <alluxio_master_hostname>

并且alluxio/conf/alluxio-env.sh文件不存在的话,脚本会创建一个包含集群正确设置的alluxio/conf/alluxio-env.sh文件,集群的master节点运行在<alluxio_master_hostname>

该脚本需要在每一个你想要配置的节点上执行。

脚本默认配置所有worker使用worker上总内存的2/3,该数量可以在worker上创建的alluxio/conf/alluxio-env.sh文件中修改。

EC2集群上使用Spark

如果使用Spark启动EC2集群,Alluxio会默认被安装和配置。