在腾讯云EMR中使用 Alluxio
概述
在腾讯云EMR上提供了开箱可用的Alluxio服务,以帮助腾讯云客户可以快速实现分布式内存级缓存加速,简化数据管理等能力;同时还可以通过腾讯云EMR控制台或API接口,使用配置下发功能力快速配置多层级缓存和元数据管理等;获取一站式监控告警能力等能力。
准备
- 腾讯云EMR的Hadoop标准2.x版本>=EMR-v2.3.0
- 腾讯云EMR的Hadoop标准3.x版本>=EMR-v3.2.0
- 有关EMR中版本中支持具体的Alluxio的版本支持可参考这里
创建基于Alluxio的EMR集群
这部分主要说明如何在腾讯云EMR上创建开箱即用的Alluxio集群。EMR提供了使用WEB购买页创建和API创建两种方式来构建集群:
同时,腾讯云EMR还提供了API方式构建基于Alluxio的大数据集群,具体可参考这里 。
基础配置
创建了一个带Alluxio组件的腾讯云EMR,默认会把HDFS挂载到Alluxio上,并使用内存作为单层level0存储。如果有需要更改更符合业务特性的多级存储,或者其他对应优化项,可以使用配置下发功能来完成相关配置: 在配置下发后,有些配置需要重启Alluxio服务才能生效:
了解跟多配置下发和重启策略细节,可以查阅相关文档:
基于Alluxio加速计算存储分离
腾讯云EMR基于腾讯云对象存储(COS)提供了计算存储分离能力,默认直接访问对象存储中的数据时,应用程序没有节点级数据本地性或跨应用程序缓存。使用 Alluxio 加速将缓解这些问题。 在腾讯云EMR集群上默认已经部署了使用COS作为UFS的依赖jar包,只需授权访问COS和把COS mount到Alluxio上即可使用。
若当前集群未开启对象存储,可单击 Authorize 进行授权,授权后EMR中节点可以通过临时秘钥访问COS中数据。
更多在腾讯云EMR中使用Alluxio开发使用细节,可查阅