提问者:小点点

如何使用BigQuery测试数据流管道


我想测试我的管道。我的管道从BigQuery中提取数据,然后将数据存储到GCS和S3。虽然这里有一些关于管道测试的信息,https://cloud.google.com/dataflow/pipelines/testing-your-pipeline,但它不包括从BigQuery中提取数据的数据模型。

我找到了下面的例子,但是它缺乏注释,所以有点难以理解。https://github.com/GoogleCloudPlatform/DataflowJavaSDK/blob/master/examples/src/test/java/com/google/cloud/dataflow/examples/cookbook/BigQueryTornadoesTest.java

测试我的流水线有什么好的文档吗?


共2个答案

匿名用户

为了正确联调整个管道,请创建少量存储在BigQuery中的示例数据。此外,请在S3中创建一个示例桶/文件夹,并GCS来存储您的输出。然后像往常一样运行您的管道,使用PipelineOptions指定测试BQ表。如果您想在本地运行,您可以使用DirectPipelineRunner。创建一个脚本可能是最简单的,该脚本将首先运行管道,然后从S3向下传输数据并GCS并验证您看到您期望的内容。

如果您只想在一些离线数据上测试管道的转换,请遵循WordCount示例。

匿名用户

在Google Cloud中,可以使用Pub/Sub主题和BigQuery表等真实资源轻松创建端到端测试。

通过使用Junit5扩展模型https://junit.org/junit5/docs/current/user-guide/#extensions您可以隐藏创建和删除所需资源的复杂性。

你可以在这里找到一个演示/种子https://github.com/gabihodoroaga/dataflow-e2e-demo和一篇博客文章https://hodo.dev/posts/post-31-gcp-dataflow-e2e-tests/

相关问题