我是Dataflow的新手。我想使用Dataflow流模板“Pub/Sub Subscription to BigQuery”来传输一些消息,比如每天10000条。我的问题是关于定价的,因为我不明白在流模式下它们是如何计算的,是否启用了流引擎。我使用了谷歌计算器,它要求以下内容:
机器类型,作业使用的工作节点数,如果流或批处理作业,永久磁盘的GB数(PD),作业每月运行的小时数。
考虑最简单的情况,因为我不需要很多资源,即。
案例1:禁用流媒体引擎
所以我将支付:
案例2启用流媒体引擎。
所以我将支付:
考虑到1024 Byte的消息,我们的流量为1024 x 10000 x 30 Bytes=0.307 GB,额外成本为0.307 GB x 0.018美元=0.005美元(几乎为零)。
实际上,使用这种流量,我将节省大约15美元使用流媒体引擎。我是对的吗?还有什么需要考虑的,或者我的假设和计算有什么问题吗?此外,考虑到数据量少,数据流真的适合这种用途吗?或者我应该以不同的方式处理这个问题?
提前谢谢你!
这不是错误的,但不是完全准确的。
在流模式下,您的数据流始终监听PubSub订阅,因此您需要全职工作。
在批次处理作业中,您通常启动批次,它执行作业,然后停止。
在您的比较中,您考虑有一个全职运行的批处理作业。这并非不可能,但我认为它不适合您的用例。
关于流式处理和批处理,一切都取决于您对实时的需求。
最新的评论,如果你的任务只是从PubSub获取消息并流式写入BigQuery,你可以考虑在Cloud Run或Cloud Functions上自己编码。每天只有10k条消息,它将是免费的!