Spark读取HBase表数据到DataFrame中

上一个补充Demo中,并未指定HBase Context上下文环境,而是将hbase-site.xml配置文件拷贝到项目中,读取该配置文件中的HBase环境信息。在本补充Demo中,我们换一种方法,直接配置HBase Context上下文环境。

准备HBase表和数据

请按以下步骤,用数据准备一个测试用的HBase表。

1) 启动HDFS集群,命令如下:

$ start-dfs.sh

2) 启动HBase集群,命令如下:

$ start-hbase.sh

3) 运行hbase shell,命令如下:

$ hbase shell

4) 列出HBase中的表,命令如下:

hbase(main):001:0> list

5) 创建表Person,并插入演示数据。命令如下:

create 'Person', 'Name', 'Address'

put 'Person', '1', 'Name:First', 'zhang'
put 'Person', '1', 'Name:Last', 'san'
put 'Person', '1', 'Address:Country', 'China'
put 'Person', '1', 'Address:State', 'HeBei'

put 'Person', '2', 'Name:First', 'li'
put 'Person', '2 ......
          

......

抱歉,只有登录会员才可浏览!会员登录


《PySpark原理深入与编程实战》