博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Spark JDBC入门测试
阅读量:6297 次
发布时间:2019-06-22

本文共 787 字,大约阅读时间需要 2 分钟。

spark jdbc分支源码下载地址

  

 

编译spark jdbc

   ./make-distribution.sh --hadoop 2.3.0-cdh5.0.0 --with-yarn --with-hive --tgz

 

环境搭建

  参照spark环境搭建;

  在$SPARK_HOME/conf下添加hive-site.xml的配置文件(指定元数据存放的mysql信息);

  拷贝mysql驱动包到$SPARK_HOME/lib下,并在spark-env.sh文件中指定mysql驱动包路径到SPARK_CLASSPATH中;

 

启动

  启动thriftserver: $SPARK_HOME/sbin/start-thriftserver.sh &

  启动beeline:   $SPARK_HOME/bin/beeline -u jdbc:hive2://hadoop000:10000 -n spark -p hadoop

      -n指定thriftserver的用户名,-p指定thriftserver的密码

 

测试

  在benline启动的命令行中进行测试,测试语句如同hive或者shark

 

测试发现的问题

  1、UDF暂时无法采用add jar的方式添加:add jar /home/spark/lib/hiveudf.jar 这种方式暂时spark jdbc并不支持;

  解决办法:先将udf的jar包路径配置到SPARK_CLASSPATH下;

                    待beeline启动后通过create temporary function is_msisdn as 'com.aisainfo.ocdc.hive.udf.UDFIsMsisdn';创建udf函数并使用

      2、加载HDFS数据到表中,暂时不支持overwrite;

  3、不支持开窗函数;

 

 

 

转载地址:http://hflta.baihongyu.com/

你可能感兴趣的文章
使用Swagger2构建强大的RESTful API文档(2)(二十三)
查看>>
Docker容器启动报WARNING: IPv4 forwarding is disabled. Networking will not work
查看>>
(转)第三方支付参与者
查看>>
程序员修炼之道读后感2
查看>>
DWR实现服务器向客户端推送消息
查看>>
js中forEach的用法
查看>>
Docker之功能汇总
查看>>
!!a标签和button按钮只允许点击一次,防止重复提交
查看>>
(轉貼) Eclipse + CDT + MinGW 安裝方法 (C/C++) (gcc) (g++) (OS) (Windows)
查看>>
还原数据库
查看>>
作业调度框架 Quartz.NET 2.0 beta 发布
查看>>
mysql性能的检查和调优方法
查看>>
项目管理中的导向性
查看>>
Android WebView 学习
查看>>
(转)从给定的文本中,查找其中最长的重复子字符串的问题
查看>>
HDU 2159
查看>>
spring batch中用到的表
查看>>
资源文件夹res/raw和assets的使用
查看>>
UINode扩展
查看>>
LINUX常用命令
查看>>