我计划在谷歌云平台上启动一个数据流实例来运行一些实验。我想熟悉并尝试使用apache光束从BigQuery中提取数据,运行一些ETL作业(在python中)和流式作业,最后将结果存储在BigQuery中。
然而,我也关心把我公司的GCP账单寄到屋顶上。主要的成本考虑是什么,或者任何估计成本的方法,所以我不会从老板那里得到抱怨。
任何帮助将不胜感激,谢谢!
您可以使用计算器来估算作业的价格。数据流侧最重要的资源之一是每小时CPU。要限制cpu小时,您可以使用管道中的选项maxNumWorker
设置最大机器数。
以下是运行数据流作业时可以设置的更多管道选项https://cloud.google.com/dataflow/docs/guides/specifying-exec-params
对于BQ,您可以使用计算器进行类似的估计。