在谷歌数据流中读取文件时是否可以跳过前导行

提问者：小点点

我想在使用谷歌数据流读取文件时跳过前导行。该功能在最新版本中可用吗？文件保存在谷歌存储中。我会将这些文件写入大查询。

bq load命令有选项--skip_leading_rows。当读取文件时，此选项跳过前导行。

我想在谷歌数据流中有一个类似的功能。我的输入是以下格式。

我希望谷歌数据流忽略第一行，只将其余行写入大查询

共1个答案

匿名用户

Dataflow/ParDo不直接支持此功能。

您需要使用Filter. byPredicate（）来实现这一点。

例如。

PCollection<X> rows = ...;
PCollection<X> nonHeaders =
   rows.apply(Filter.by(new MatchIfNonHeader()));