提问者:小点点

使用apache光束加密/解密大数据


我有一个场景来加密/解密(AES)我在pubsub/GCS桶中的数据。我在GCS或Pubsub中获得了bigdata(TB的记录)。我使用数据流运行apache光束代码来进行某种转换(group by etc)。在处理数据时,我需要包括几个字段(PII)的加密,将来也需要解密这些记录。处理后的数据写入Bigquery。

我的解密请求如下所示。

从id=1234的表中选择名字、姓氏

在上面的例子中,我已经加密了我的名字,姓氏和id,因为它包含PII信息。

名字和姓氏567的加密值从1234变化。

当我给出id=1234的查询时,这个1234是明文的id(未加密的形式)。

无论如何,在GCP/apach光束/数据流中是否有实现这种加密/解密机制?我不想使用DLP,因为它有一些限制。


共1个答案

匿名用户

我不太明白你在查询方面想要做什么,因为如果你存储加密的ID,你必须在查询时发送加密的ID。

但与Apache Beam/Dataflow相关,是的,您可以让您的工作等待Pub/Sub或Cloud Storage数据并在保存到其他地方(例如BigQuery)之前应用加密。

如果您可以使用JavaScript加密/散列数据,您甚至可以使用Google提供的模板之一:

  • 发布/订阅BigQuery
  • 发布/子主题到BigQuery
  • Pub/Sub Avro到BigQuery
  • Pub/Sub Proto to BigQuery
  • 云存储文本到BigQuery(流)

如果它们不适合,代码在https://github.com/GoogleCloudPlatform/DataflowTemplates是开源的,您可以更改/构建自己的管道。