论文:SDEcho: Efficient Explanation of Aggregated Sequence Difference
会议:VLDB 2025
作者:Fei Ye, Zikang Liu, Xi Zhang, Yinan Jing, Zhenying He, Yuxin Che, Haoran Xiong, Kai Zhang, X. Sean Wang
简介:数据科学家通常需要运行包含group-by和aggregate函数的SQL语句获取聚合序列,理解聚合序列间差异背后的原因即解决“Why”问题对开展下一步研究工作至关重要,也正逐渐受到数据库社区的关注。然而,现有的解释引擎(explanation engine)在高维海量数据空间中缺乏可伸缩性,仅提供近似结果的解决方案,且不能充分支持聚合序列差异(aggregated sequence difference)的解释。
基于此,我们提出了全新的支持对聚合序列间差异进行解释的框架SDEcho(Sequence Difference Explanation),它是一个自动解释搜索框架,可以在模式(pattern)、解释阶数(order)和维度 (dimension)级别上修剪候选解释空间,基于对每种剪枝方法的分析,我们进而提出了一种混合方法来提高SDEcho的解释搜索性能。此外,我们构建了一个解释聚合序列差异的基准,并设计了一个解释置信度评分指标来评估解释的质量。在多个数据集上的实验结果和案例研究表明,SDEcho在保证精确求解的情况下显著加快了解释搜索过程,其搜索效率、可扩展性和有效性方面均优于现有方法。