配置hive
hive-site
<property> <name>hive.metastore.uris</name> <value>thrift://database:9083</value> </property> <property> <name>hive.metastore.client.socket.timeout</name> <!--<value>600s</value>--> <value>600</value> </property>
把hive-site.xml 放到spark/conf目录下
Mysql驱动放到spark/lib目录下
启动:hive --service metastore
配置spark
Slaves
spark04 spark02
Spark-env.sh
SPARK_MASTER_IP=spark02 JAVA_HOME=/usr/local/jdk1.7.0_75 SPAKR_HIVE=true HADOOP_CONF_DIR=/usr/local/hadoop-2.6.0/etc/hadoop
spark-defaults.conf
# Default system properties included when running spark-submit. # This is useful for setting default environmental settings. # Example: # spark.master spark://master:7077 spark.eventLog.enabled true #spark.eventLog.dir hdfs://mycluster:8021/spark/logs/events # spark.eventLog.dir hdfs://namenode:8021/directory # spark.serializer org.apache.spark.serializer.KryoSerializer # spark.driver.memory 5g # spark.executor.extraJavaOptions -XX:+PrintGCDetails -Dkey=value -Dnumbers="one two three"
Scp到其它机器上
测试spark-hive
spark-shell--master spark://spark02:7077 valsqlContext = new org.apache.spark.sql.hive.HiveContext(sc); sqlContext.sql("selectcount(*) from ods_app.dev_location").collect().foreach(println);
相关问题
1、hive metastore 问题
java.lang.RuntimeException: Unable to instantiateorg.apache.hadoop.hive.metastore.HiveMetaStoreClient
解决方法:
在hive-site.xml配置hive.metastore.uris,并启动hive metastore <property> <name>hive.metastore.uris</name> <value>thrift://database:9083</value> </property>
2、Ha mycluster的问题
java.lang.IllegalArgumentException:java.net.UnknownHostException: mycluster 解决方法: 在spark-env.sh,配置HADOOP_CONF_DIR HADOOP_CONF_DIR=/usr/local/hadoop-2.6.0/etc/hadoop
相关推荐
CDH6针对hive on spark的调优文档,这个是生产的实战经验
Hive on Spark EXPLAIN statement : 讲述了 Common Join / Map join / Bucket Map Join / Sorted Merge Bucket Map Join / skew join 在explain 中的 树结构 。In Hive, command EXPLAIN can be used to show the ...
Hive on Spark源码分析,实际场景中会遇到需求:将Hive默认的执行引擎MapReduce换成Spark或者Tez。
hive on spark要求spark中不包含hive的jar包,必须重新编译,历尽艰辛终于搞好了,适配hive2.3、hadoop2.7.6环境。
hive-on-spark客户端
使用hive3.1.2和spark3.0.0配置hive on spark的时候,发现官方下载的hive3.1.2和spark3.0.0不兼容,hive3.1.2对应的版本是spark2.3.0,而spark3.0.0对应的hadoop版本是hadoop2.6或hadoop2.7。 所以,如果想要使用高...
补丁文件包,依赖包,hive3.1.2-spark3.0.0和hive3.1.3-spark3.1.3二进制包已经全部放进该压缩
。
hive工作常见问题解决收集开发人员在Hive日常开发过程中难免遇到各种各样的hive报错,这些报错信息很多时间并没有形成汇总的知识库,每次遇到问题都会重复查资料,效率非常低 现在总结一些常见的知识库,方便大家...
Spark不能使用hive自定义函数
Spark纯净版安装包是一个用于安装Apache Spark的软件包,该软件包提供了Spark的基本功能和组件,但不包含任何额外的扩展或依赖项。纯净版安装包旨在提供一个轻量级、简单易用的Spark安装选项,适用于用户希望快速...
hive对应spark3.x编译
编译环境OS – Ubuntu 14.04MavenScala (Spark编译时有用到)http://www.scala-lang.org/files/arc
兼容spark3.0.0的hive包
2024年1月11号-13号的数据,包含7-10号的历史业务数据
使用maven重新编译spark2.3.1源码,用以实现hive on spark
用于配置hive on spark的spark安装包,安装包不集成hive的jar包
spark-2.3.0-bin-hadoop2-without-hive.spark2.3版本源码编译不含hive jar包的安装包。用于安装hive on spark
大数据游乐场:Hadoop + Hive + Spark 基本的Docker映像仅具有基本要素:Hadoop,Hive和Spark。软件完全分布式(多节点)模式下的 将HiveServer2暴露给主机的 。 YARN模式下的 (Spark Scala,PySpark和SparkR)用法...