提问者:小点点

Airflow可以运行流GCP数据流作业吗?


我正在寻找流式GCP数据流作业的编排软件——可以提供警报、状态、作业启动等类似于库伯内特斯的功能。这里的答案建议使用气流,因为它们有一些挂钩到GCP——这将是很好的,因为我们有一些其他的基础设施在气流上运行。然而,我不确定这是否能够处理流式作业——我的理解是气流是为将要完成的任务设计的,而流式作业不是这样。气流适合这个吗?或者我应该使用不同的软件吗?


共1个答案

匿名用户

现在可能已经很晚了,但是对于将来访问这个话题的人来说,答案是肯定的。

是的,您绝对可以从airflow运行数据流流作业。使用airflow 1.9或更高版本。

链接:https://github.com/apache/incubator-airflow/blob/master/airflow/contrib/hooks/gcp_dataflow_hook.py

https://github.com/apache/incubator-airflow/blob/master/airflow/contrib/operators/dataflow_operator.py

您无需为运行流式作业付出额外的努力。上面的数据流运算符同时运行批处理和流式作业。一旦数据流流作业开始运行(即作业处于运行状态),它就会标记气流任务成功