- 软件大小:7.86M
- 所属分类: 大数据开发
- 文件类型:文档类
- 更新时间:2020-10-12
资源介绍
Hadoop 安装手册目录
第 1 章 安装 VMWare Workstation 10
第 2 章 VMware 10 安装 CentOS 6
2.1 CentOS 系统安装...........................................8
2.2 安装中的关键问题...........................................11
2.3 克隆 HadoopSlave.............................................15
第 3 章 CentOS 6 安装 Hadoop
3.1 启动两台虚拟客户机...........................................18
3.2 Linux 系统配置.............................................19
3.3 Hadoop 配置部署 .............................................29
第 4 章 安装部署 Hive
4.1 解压并安装 Hive...........................................38
4.2 安装配置 MySQL............................................39
4.3 配置 Hive.................................................40
4.4 启动并验证 Hive 安装......................................41
第 5 章 安装部署 HBase
5.1 解压并安装 HBase..........................................43
5.2 配置 HBase................................................44
5.2.1 修改环境变量 hbase-env.sh ..............................44
5.2.2 修改配置文件 hbase-site.xml.........................44
5.2.3 设置 regionservers...................45
5.2.4 将 HBase 安装文件复制到 HadoopSlave 节点.............45
5.3 启动并验证 HBase............................................46
第 6 章 安装部署 Mahout
6.1 解压并安装 Mahout.............................................48
6.2 启动并验证 Mahout.............................................49
第 7 章 安装部署 Sqoop
7.1 解压并安装 Sqoop............................................51
7.2 配置 Sqoop..................................................52
7.2.1 配置 MySQL 连接器.........................52
7.2.2 配置环境变量............................................52
7.3 启动并验证 Sqoop............................................53
Hadoop 实验手册目录
一、数据和程序包准备
二、数据预处理(Linux 环境)
1. 查看数据..................................................................56
2. 数据扩展..................................................................57
3. 数据过滤..................................................................57
三、基于 Hive 构建日志数据的数据仓库
1. 基本操作..................................................................58
2. 创建分区表(按照年、月、天、小时分区) .......................59
3. 查询结果..................................................................60
四、实现数据分析需求一:条数统计
五、实现数据分析需求二:关键词分析
1. 查询关键词长度统计..............................................61
2. 查询频度排名(频度最高的前 50 词) ............................61
六、实现数据分析需求三:UID 分析
1. UID 查询次数分布....................................................61
2.UID 平均查询次数.....................................................61
3.查询次数大于 2 次的用户总数........................................61
4.查询次数大于 2 次的用户占比......................................62
5.查询次数大于 2 次的数据展示.....................................62
七、实现数据分析需求四:用户行为分析
1. 点击次数与 Rank 之间的关系分析.........................62
2. 直接输入 URL 作为查询词的比例.........................63
3. 独立用户行为分析............................63
八、实现数据分析需求五:实时数据
九、使用 Sqoop 将数据导入 MySQL
十、HBase Shell 操作命令实验
十一、使用 Sqoop 将数据导入 HBase
十二、HBase Java API 访问统计数据
1. 操作要求.........................68
2. 数据准备.........................68
3. 数据导入.........................68
十三、Mahout 聚类操作实验
1. 数据描述........................68
2. 准备数据........................69
3. 运行聚类程序....................70