我想在使用谷歌数据流读取文件时跳过前导行。该功能在最新版本中可用吗?文件保存在谷歌存储中。我会将这些文件写入大查询。
bq load命令有选项--skip_leading_rows。当读取文件时,此选项跳过前导行。
我想在谷歌数据流中有一个类似的功能。我的输入是以下格式。
我希望谷歌数据流忽略第一行,只将其余行写入大查询
Dataflow/ParDo不直接支持此功能。
您需要使用Filter. byPredicate()
来实现这一点。
例如。
PCollection<X> rows = ...;
PCollection<X> nonHeaders =
rows.apply(Filter.by(new MatchIfNonHeader()));