论文:Learned Optimizer for Online Approximate Query Processing in Data Exploration
期刊:TKDE 2024
作者:Liyuan Liu, Hanbing Zhang, Yinan Jing, Zhenying He, Kai Zhang, and X. Sean Wang
简介:在交互式数据探索中,可以使用近似查询处理来以牺牲查询准确性为代价快速地返回查询结果。对于在线近似查询处理方法来说,抽样器可以被视为执行计划中的操作算子。在近似查询处理方法的查询优化过程中,通常使用启发式的规则来指导抽样器的下推。然而由于数据分布的复杂性与变化,基于启发式规则的优化方法往往难以满足用户的查询准确性需求。
为了解决上述的问题,我们提出了一种基于学习的在线近似查询处理方法。我们首先引入了弱等价性的概念,并以此为基础提出了一系列抽样器下推规则来指导查询优化过程中的抽样器下推。然后,为了使更多的查询满足用户的查询准确性需求,我们提出了一个深度学习模型来进一步优化查询计划。具体来说,在抽样器的每次下推过程中,都会使用该模型来尝试避免不恰当的抽样器下推对查询准确性的负面影响,特别是当底层数据分布与中间数据分布不一致的时候。大量的实验研究表明,我们提出的方法在查询准确性上与现有最先进的在线采样方法相比提高了1.2至7.9倍。