我目前正在Azure数据资源管理器群集(ADX又名KustoDB)的DB中摄取TB的数据。我总共迭代了大约30k个文件。其中一些只有几kB,但有些高达几GB。
对于一些大文件,由于它们的文件大小,我遇到了错误:
FailureMessage(
{
...
"Details":"Blob size in bytes: '4460639075' has exceeded the size limit allowed for ingestion ('4294967296' B)",
"ErrorCode":"BadRequest_FileTooLarge",
"FailureStatus":"Permanent",
"OriginatesFromUpdatePolicy":false,
"ShouldRetry":false
})
我能做些什么来增加允许的摄入量吗?
有一个不可配置的4GB限制。
您应该拆分源文件(理想情况下,每个文件都有100MB-1GB的未压缩数据)。
参见:https://learn.microsoft.com/en-us/azure/data-explorer/kusto/api/netfx/kusto-ingest-best-practices#optimizing-for-throughput