hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
我这里主要用于统计处理结构化的文本数据,处理后,存入结构化数据库中展现给用户。
安装:
1,下载wget http://labs.renren.com/apache-mirror//hive/stable/hive-0.7.0.tar.gz
2,解压tar -zxvf hive-0.7.0.tar.gz(注意文件用户权限,和hadoop不一致要修改)
3,配置conf/hive-env.sh.template
export HADOOP_HOME=/usr/local/hadoop-0.20.203.0
export HIVE_HOME =/usr/local/hadoop-0.20.203.0/hive-0.7.0
export JAVA_HOME=/usr/local/jdk1.6.0_25
4,在hive目录下执行bin/hive测试成功是否
Hive history file=/tmp/tmg/hive_job_log_tmg_201105241042_506926685.txt
hive>
执行show tables;
OK
Time taken: 1.482 seconds
安装完成,是不是很easy!
但下边的的这些就要注意了:
1,用mysql存储数据源(修改数据源,用mysql存储源数据是为了在hiveserver启动的情况下,hive命令行下也能执行语句)
配置mysql存储数据源,修改hive-default.xml中下面几项:
javax.jdo.option.ConnectionURL
jdbc:mysql://<host name>/<database name>?createDatabaseIfNotExist=true
javax.jdo.option.ConnectionDriverName
com.mysql.jdbc.Driver
javax.jdo.option.ConnectionUserName
<user name>
javax.jdo.option.ConnectionPassword
<password>
hive.metastore.uris
not needed because this is local store
hive.metastore.local
true
hive.metastore.warehouse.dir
<base hdfs path>
2,修改用mysql存储数据源,报
FAILED: Error in metadata: javax.jdo.JDOFatalDataStoreException: Access denied for user 'root'@'219.239.88.200' (using password: YES)
NestedThrowables:
java.sql.SQLException: Access denied for user 'root'@'219.239.88.200' (using password: YES)
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask
这是因为mysql不允许远程访问的问题,执行 grant all on *.* to 'root'@'%' identified by 'root'; 即可。
3,hive中表的创建以及数据加载,两种方式
1)CREATE EXTERNAL TABLE page(LOGDATE STRING, REFERRER STRING, URL STRING, ARTICLEID STRING
, TYPE STRING, VSCOOKIEID STRING,UVCOOKIEID STRING,IP STRING,OS STRING
,BROWSER STRING,RESOLUTION STRING,COLOR STRING,FLASHVERSION STRING,PARM1 STRING
,PARM2 STRING,PARM3 STRING,ISADD STRING )
COMMENT 'This is the staging page view table'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '|~,'
STORED AS TEXTFILE;
LOAD DATA LOCAL INPATH '/usr/local/hadoop-0.20.203.0/new.log' OVERWRITE INTO TABLE page;
加local是从linux上取文件,不加时是从hdfs上取文件
2)只要把文件put到相应位置即可
CREATE EXTERNAL TABLE page_view_stg(viewTime INT, userid BIGINT,
page_url STRING, referrer_url STRING,
ip STRING COMMENT 'IP Address of the User',
country STRING COMMENT 'country of origination')
COMMENT 'This is the staging page view table'
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '/n'
STORED AS TEXTFILE
LOCATION '/user/data/staging/page_view';
hadoop dfs -put /tmp/pv_2008-06-08.txt /user/data/staging/page_view
其他更多语句用法参考http://wiki.apache.org/hadoop/Hive/Tutorial,下次将介绍更多关于基于hadoop的hive应用,请关注~
分享到:
相关推荐
基于Hadoop Hive健身馆可视化分析平台项目源码+数据库文件.zip启动方式 环境启动 hadoop hive2元数据库 sql导入 导入hivesql脚本,修改application.yml 启动主程序 HadoopApplication 基于Hadoop Hive健身馆可视化...
该文档目录如下: ...1.1 基于Hadoop的数据仓库Hive学习指南 1.2实验环境 1.3实验原理 1.3.1 Hive简介 1.3.2 Hive安装 1.3.3安装并配置mysql 1.3.5 Hive简单编程实践 1.3.4 Hive的常用HiveQL操作
大数据时代基于Hadoop的一个数据仓库工具hive
Hadoop和Hive的安装配置
手把手教你进行mac搭建hadoop和hive环境
本系统主要设计完成两件工作,一是搭建分布式的hadoop的集群环境,二是基于分布式的集群环境做日志分析。详细介绍参考:https://blog.csdn.net/newlw/article/details/127332767
VM虚拟机上,安装ubantu搭建hadoop+Hive集群,步骤详细。
大数据离线分析系统,基于hadoop的hive以及sqoop的安装和配置
毕设基于Hadoop+Hive构建数据仓库使用django+echarts构建前端web网站对业务指标进行可视化呈现源码.zip毕设基于Hadoop+Hive构建数据仓库使用django+echarts构建前端web网站对业务指标进行可视化呈现源码.zip毕设基于...
毕业设计,采用Hadoop+Hive构建数据仓库,使用django+echarts构建前端web网站对业务指标进行可视化呈现 1. Hadoop+Hive构建数据仓库 2. django+echarts网站开发 3. 数据清洗,数据模型构建 毕业设计,采用Hadoop+...
基于hadoop的Hive数据仓库JavaAPI简单调用的实例,关于Hive的简介在此不赘述。hive提供了三种用户接口:CLI,JDBC/ODBC和 WebUI CLI,即Shell命令行 JDBC/ODBC 是 Hive 的Java,与使用传统数据库JDBC的方式类似 Web...
采用Hadoop+Hive构建数据仓库,使用django+echarts构建前端web网站对业务指标进行可视化呈现.zip毕业设计,采用Hadoop+Hive构建数据仓库,使用django+echarts构建前端web网站对业务指标进行可视化呈现.zip毕业设计,...
毕业设计,采用Hadoop+Hive构建数据仓库,使用django+echarts构建前端web网站对业务指标进行可视化呈现 毕业设计,采用Hadoop+Hive构建数据仓库,使用django+echarts构建前端web网站对业务指标进行可视化呈现 毕业...
《Hadoop系统搭建及项目实践》课件08分布式数据仓库技术 Hive.pdf《Hadoop系统搭建及项目实践》课件08分布式数据仓库技术 Hive.pdf《Hadoop系统搭建及项目实践》课件08分布式数据仓库技术 Hive.pdf《Hadoop系统搭建...
本实践项目通过一个网站的运营日志,利用hadoop/hive/sqoop/mysql/python等一系列组件联合实践分析挖掘网站运营数据。是不可多得的完整的学习、讲课案例资源。本资源包含ppt、代码、文档及所需数据。
Hadoop hbase hive sqoop集群环境安装配置及使用文档
该文档保护了目前比较流行的大数据平台的原理过程梳理。Hadoop,Hive,Hbase,Spark,MapReduce,Storm
基于Hadoop的hive数据仓库的配置详细指南,linux环境下
本资源中的源码都是经过本地编译过可运行的,下载后按照文档配置好环境就可以运行。资源项目的难度比较适中,内容都是经过助教老师审定过的,应该能够满足学习、使用需求,如果有需要的话可以放心下载使用。...
本文件包含hadoop集群搭建的详细步骤,包含基础环境搭建,Hadoop集群搭建,Hive搭建。小白放心食用,无坑。 其中基础环境搭建包括虚拟机安装、centos7、网络配置、xshell、notepad等环境的安装。注:本文里安装的...