跳动百科

用于建模大型空间数据集的三种调整工具

太叔绿勇
导读 对大面积数据集(例如环境测量)进行预测建模可能是一项计算量很大的工作。通过应用各种近似值可以显着减少这些计算需求,但是精度的代价是什

对大面积数据集(例如环境测量)进行预测建模可能是一项计算量很大的工作。通过应用各种近似值可以显着减少这些计算需求,但是精度的代价是什么?KAUST 研究人员现已开发出统计工具,可帮助消除这种近似过程中的猜测。

“在空间统计中,使用最准确的基于似然的方法将标准过程模型拟合到大型数据集非常耗时,”领导这项研究的 Yiping Hong 说。“近似方法可以显着减少计算时间和计算资源。”

近似方法不是使用标准过程模型明确地对每对观察之间的关系进行建模,而是尝试采用替代建模结构来描述数据中的关系。这种方法不太准确,但在计算上更友好。例如,由 KAUST 开发的瓦片低秩 (TLR) 估计方法应用逐块近似来减少计算时间。

“因此,需要确定一些调整参数,例如应该拆分多少块以及块近似的精度,”洪说。“为此,我们制定了三个标准来评估模型近似时预测效率的损失或信息的损失。”

由于缺乏用于评估近似影响的信息量度,Hong 与计算科学家 Sameh Abdulah 以及统计学家 Marc Genton 和 Ying Sun 开发了自己的方法。这三个度量——平均效率损失、平均错误指定和平均错误指定的均方根——共同提供了对近似参数与数据集的“拟合”的洞察,包括预测变异性,而不仅仅是逐点- 由传统预测标准给出的点评估。

“我们可以使用我们的标准来比较具有不同调整参数的 TLR 方法的预测性能,这使我们能够建议使用的最佳参数,”Hong 说。

该团队将该方法应用于密西西比盆地高分辨率土壤水分测量的真实数据集。通过使用新措施调整调整参数,TLR 近似提供了非常接近精确最大似然估计的估计,并且计算时间明显缩短。

“我们的标准是为选择 TLR 的调整参数而开发的,也可用于调整其他近似方法,”Hong 说。“我们现在计划比较为大型空间数据集开发的其他近似方法的性能,这将为分析真实数据提供有价值的指导。”