提问者:小点点

更新apach-beam-dataflow和google-lod-bigquery的指南


我想使用适用于python 2.7的最新google-lod-bigquery和数据流sdk

旧版本和新版本的客户端bigquery代码发生了巨大变化,旧版本计划被弃用。基于以下出版物:https://cloud.google.com/bigquery/docs/python-client-migration

我的管道设置如下:

*from setuptools import setup, find_packages*
*setup(*
*  name='big-query',*
*  version='1.0.0',*
*  packages=find_packages(),*
*  keywords=[*
*  ],*
*  license="Apache Software License",*
*  install_requires=[*
*    'google-cloud-bigquery==0.28.0',*
*  ],*
*  package_data={*
*  },*
*  data_files=[],*
*)*

我从管道代码中调用它:

options.view_as(SetupOptions).setup_file = "./setup.py"

环境:数据流视图上的SDK版本显示2.0.0和弃用消息管道写在Python2.7.0在Google Cloud datalab环境更新google-cloud-bigquery的安装失败

我的问题是: 1.如何更新数据流SDK?setup.py文件?更新数据实验室?2.我可以使用的最新版本的google-cloud-bigquery及其匹配的数据流是什么。

谢了艾拉兰


共1个答案

匿名用户

  1. 如何更新数据流SDK?setup.py文件?更新datalab?

DataflowSDK现在已被弃用,但您可以安装Apache BeamSDK因为Dataflow和2.0.0以来的旧Apache BeamSDK完全支持它。以下是谷歌在这方面的官方公告:

Cloud Dataflow SDK Deprecation Notice: The Cloud Dataflow SDK 2.5.0 is the last Cloud Dataflow SDK release that is separate from the Apache Beam SDK releases.
The Cloud Dataflow service fully supports official Apache Beam SDK releases. The Cloud Dataflow service also supports previously released Apache Beam SDKs starting with version 2.0.0 and above.

数据流SDK可以通过pip升级:

pip install --upgrade apache-beam[gcp]

只要需要指定环境中依赖项的版本,就可以检查setup.py语法。

有些库不向前兼容,你可以使用这些SDKvs worker依赖兼容性列表来参考。正如你在列表中看到的,最后一个google-cloud-bigquery版本已经安装在worker上