logo

小白学苑PBCP

PBCP, 让大数据竞赛更简单!

Demo:Flink流数据写入HBase表并以yarn-per-job模式部署运行

在2023年新的赛规中,涉及到一个技术点是,将Flink流数据(例如,读取Kafka数据源的流数据)经过计算处理之后,写入到HBase数据表中,并使用Hive外表查询。要求作业以yarn-per-job模式运行。

分析

将Flink流数据写入到HBase表的方法有多种,其中主要有以下两种方式:

  • (1)直接调用HBase Java API,通过编码构造行键(rowkey)和列,然后以put的方式将数据写入HBase表;
  • (2)使用Flink的Table API和SQL,以临时表的形式写入HBase。

其中第二种方法更加简单、流畅。本示例采用第二种方法,即使用Flink Table API/SQL的形式将流数据写入到HBase表。

示例代码

1. 在IDEA中创建一个Maven项目。

2. 打开项目中的pom.xml文件,配置依赖,添加如下依赖项:

    <properties>
        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
        <flink.version>1.14.0</flink.version>
        <target.java ......
                            

......

抱歉,只有登录会员才可浏览!会员登录