我正在寻找一种解决方案,可以每天摄取6到8个表来RDS。这些表具有特定的键关系,因此应该将其合并到数据库中。
目前,我很难找到一个最佳的解决方案来以编程方式加载RDS中6-8个表的数据。目前哪种服务最适合这样做?
数据对于Lambda的内存占用来说有点太大了。
不清楚这将如何与无服务器Aurora一起工作,这也需要预定的ec2实例(与无服务器模式中断)。
将S3数据加载到AmazonRDSMySQL表-AWS数据管道
胶水似乎更适合红移。
所以我有点不知道最好的解决方案设计是什么。如果有帮助,将不胜感激。
您应该尝试AWS日期管道。简而言之,以下是步骤:
这个,将数据加载到Amazon Aurora MySQL,适用于MySQL。
使用PostgreSQL加载数据应该非常相似。
你当然可以使用AWS胶水。胶水确实对红移有一些偏见,但是它提供了Pyspark和Python作业,几乎可以用来做任何事情。把它想象成一个没有15分钟时间限制的Lambda,用python写下你想要的任何数据移动逻辑。
由于aurora serverless托管在VPC中,一旦将粘合作业托管在同一VPC中,您可能需要创建一些VPC网关endpoint才能访问某些内容,但这只是一次性的。
我实际上有一个非常相似的用法,并使用Glue以编程方式将数据从S3加载到Aurora Serverless(MySQL):
你可以参考这篇文章了解更多细节。