我有一个场景来加密/解密(AES)我在pubsub/GCS桶中的数据。我在GCS或Pubsub中获得了bigdata(TB的记录)。我使用数据流运行apache光束代码来进行某种转换(group by etc)。在处理数据时,我需要包括几个字段(PII)的加密,将来也需要解密这些记录。处理后的数据写入Bigquery。
我的解密请求如下所示。
从id=1234的表中选择名字、姓氏
在上面的例子中,我已经加密了我的名字,姓氏和id,因为它包含PII信息。
名字和姓氏567的加密值从1234变化。
当我给出id=1234的查询时,这个1234是明文的id(未加密的形式)。
无论如何,在GCP/apach光束/数据流中是否有实现这种加密/解密机制?我不想使用DLP,因为它有一些限制。
我不太明白你在查询方面想要做什么,因为如果你存储加密的ID,你必须在查询时发送加密的ID。
但与Apache Beam/Dataflow相关,是的,您可以让您的工作等待Pub/Sub或Cloud Storage数据并在保存到其他地方(例如BigQuery)之前应用加密。
如果您可以使用JavaScript加密/散列数据,您甚至可以使用Google提供的模板之一:
如果它们不适合,代码在https://github.com/GoogleCloudPlatform/DataflowTemplates是开源的,您可以更改/构建自己的管道。