Spark JDBC入门测试-白红宇

Spark JDBC入门测试

阅读量：6297 次

发布时间：2019-06-22

本文共 787 字，大约阅读时间需要 2 分钟。

spark jdbc分支源码下载地址

编译spark jdbc

　　 ./make-distribution.sh --hadoop 2.3.0-cdh5.0.0 --with-yarn --with-hive --tgz

环境搭建

　　参照spark环境搭建；

　　在$SPARK_HOME/conf下添加hive-site.xml的配置文件（指定元数据存放的mysql信息）；

　　拷贝mysql驱动包到$SPARK_HOME/lib下，并在spark-env.sh文件中指定mysql驱动包路径到SPARK_CLASSPATH中；

启动

　　启动thriftserver： $SPARK_HOME/sbin/start-thriftserver.sh &

　　启动beeline： $SPARK_HOME/bin/beeline -u jdbc:hive2://hadoop000:10000 -n spark -p hadoop

　　 -n指定thriftserver的用户名，-p指定thriftserver的密码

测试

　　在benline启动的命令行中进行测试，测试语句如同hive或者shark

测试发现的问题

　　1、UDF暂时无法采用add jar的方式添加：add jar /home/spark/lib/hiveudf.jar 这种方式暂时spark jdbc并不支持；

　　解决办法：先将udf的jar包路径配置到SPARK_CLASSPATH下；

待beeline启动后通过create temporary function is_msisdn as 'com.aisainfo.ocdc.hive.udf.UDFIsMsisdn';创建udf函数并使用

2、加载HDFS数据到表中，暂时不支持overwrite；

　　3、不支持开窗函数；

转载地址：http://hflta.baihongyu.com/

你可能感兴趣的文章

使用Swagger2构建强大的RESTful API文档（2）（二十三）

查看>>

Docker容器启动报WARNING: IPv4 forwarding is disabled. Networking will not work

！！a标签和button按钮只允许点击一次，防止重复提交

查看>>

(轉貼) Eclipse + CDT + MinGW 安裝方法 (C/C++) (gcc) (g++) (OS) (Windows)

查看>>

还原数据库

查看>>

作业调度框架 Quartz.NET 2.0 beta 发布

（转）从给定的文本中，查找其中最长的重复子字符串的问题

资源文件夹res/raw和assets的使用