返回大数据案例首页
《大数据课程实验案例:网站用户行为分析—-步骤零:实验环境准备》
Windows操作系统、Linux操作系统、大数据处理架构Hadoop的关键技术及其基本原理、列族数据库HBase概念及其原理、数据仓库概念与原理、关系型数据库概念与原理
双操作系统安装、虚拟机安装、Linux基本操作、Hadoop安装、HBase安装、Sqoop安装、Eclipse安装
安装Linux系统
安装Hadoop
安装MySQL
安装HBase
安装Hive
安装Sqoop
安装R
安装Eclipse
本案例的所有实验都在Linux操作系统下完成,需要涉及到以下软件(版本号仅供参考,可以使用不同版本):
Linux: Ubuntu14.04 MySQL: 5.7.16 Hadoop: 2.7.1 HBase:1.1.2 Hive:1.2.1 Sqoop:1.4.6 R:3.2.3 Eclipse:3.8
本案例实验全部在Linux系统下开展,因此,必须要安装好Linux系统。关于需要什么样的电脑硬件配置,以及如何安装Linux系统,请参考厦大数据库实验室在线教程《Linux系统安装》。
本案例实验需要以Hadoop平台作为基础,关于如何安装Hadoop,请参考厦大数据库实验室博客《Hadoop安装教程:单机/伪分布式配置》。
本案例实验需要把数据存入关系型数据库MySQL,同时,也需要安装MySQL为Hive提供元数据存储服务,因此,需要安装MySQL数据库。关于如何在Linux系统下安装MySQL数据库,请参考厦大数据库实验室博客《在Ubuntu下安装MySQL及其常用操作》。
本实验需要把数据存入HBase,关于如何在Linux中安装HBase,请参考厦大数据库实验室博客Ubuntu安装HBase及常用操作,完成HBase的安装。本教程把HBase安装在了“/usr/local/hbase”目录下,采用伪分布式配置,也就是HBase会使用HDFS来存储数据。
本案例实验需要安装数据仓库Hive,请参考厦大数据库实验室博客《Hive安装指南》来完成Hive的安装,并且使用MySQL数据库保存Hive的元数据。本教程安装的是Hive2.1.0版本,安装目录是“/usr/local/hive”。
本案例实验需要安装Sqoop,该工具支持在Hadoop和其他数据库之间进行数据互导操作。请参考厦大数据库实验室博客Ubuntu安装Sqoop,完成Sqoop的安装。本教程下载的是sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz,安装目录是“/usr/local/sqoop”。虽然这个sqoop是为hadoop2.0.4版本开发的,本教程Hadoop版本是2.7.1,但是,依然可以顺利使用。
R的安装将在实验步骤四“利用R进行数据可视化分析”中再具体介绍。
本案例实验需要采用Eclipse开发Java程序,请参考厦大数据库实验室博客《分布式文件系统HDFS学习指南》,里面的“(三)、利用Java API与HDFS进行交互”中的“在Ubuntu中安装Eclipse”部分有详细介绍。
环境准备结束,下面可以进入实验步骤一《大数据案例-步骤一:本地数据集上传到数据仓库Hive》。