提问者:小点点

在谷歌数据流中读取文件时是否可以跳过前导行


我想在使用谷歌数据流读取文件时跳过前导行。该功能在最新版本中可用吗?文件保存在谷歌存储中。我会将这些文件写入大查询。

bq load命令有选项--skip_leading_rows。当读取文件时,此选项跳过前导行。

我想在谷歌数据流中有一个类似的功能。我的输入是以下格式。

我希望谷歌数据流忽略第一行,只将其余行写入大查询


共1个答案

匿名用户

Dataflow/ParDo不直接支持此功能。

您需要使用Filter. byPredicate()来实现这一点。

例如。

PCollection<X> rows = ...;
PCollection<X> nonHeaders =
   rows.apply(Filter.by(new MatchIfNonHeader()));