logo

小白学苑PBCP

PBCP, 让大数据竞赛更简单!

补充-Spark将DataFrame写入HBase表(demo)

Spark本身并没有提供内置的HBase连接器。我们可以使用HBase Spark连接器或其他第三方连接器来在Spark中连接HBase。

在本demo中,我们使用与PBCP2023竞赛环境中Spark和HBase版本一致的HBase Spark连接器来连接HBase。该连接器是一个名为hbase-spark-1.0.1-SNAPSHOT.jar的包文件。

准备测试用的HBase表

请按以下步骤,用数据准备一个测试用的HBase表。

1) 启动HDFS集群,命令如下:

$ start-dfs.sh

2) 启动HBase集群,命令如下:

$ start-hbase.sh

3) 运行hbase shell,命令如下:

$ hbase shell

4) 列出HBase中的表,命令如下:

hbase(main):001:0> list

5) 创建表test,带有列族cf。命令如下:

hbase(main):002:0> create 'test','cf'

6) 扫描表内容,命令如下:

会员登录