论文:Grounding Natural Language to SQL Translation with Data-Based Self-Explanations
会议:ICDE 2025
作者:Yuankai Fan, Tonghui Ren, Can Huang, Zhenying He, X. Sean Wang
简介:自然语言数据库接口使非技术用户能够使用自然语言(NL)与数据进行交互。主流方法,无论是基于神经序列到序列(sequence-to-sequence)的技术,还是近期复杂的大规模语言模型(Large Language Models),通常以端到端的方式实现自然语言到SQL(NL2SQL)的翻译。然而,与人类一样,这些端到端翻译模型在第一次尝试时可能并不总能生成最佳的SQL输出。我们提出了CycleSQL,一种面向端到端翻译模型的迭代框架,旨在通过自我评估自主生成最佳输出。CycleSQL的核心思想是引入基于数据的查询结果自然语言解释,作为自我反馈,利用该反馈迭代验证翻译的正确性,从而提升整体翻译准确率。我们进行了广泛的实验,包括定量和定性评估,研究CycleSQL在五个广泛使用的基准数据集上应用于七种现有翻译模型的表现。结果表明:1) CYCLESQL引入的反馈循环可以持续提升现有模型的性能,特别是将CYCLESQL应用于RESDSQL时,在SPIDER基准数据集的验证集上取得了82.0%(+2.6%)的翻译准确率,在测试集上取得了81.6%(+3.2%)的翻译准确率;2) 生成的自然语言解释还能够为用户提供有意义的信息,有助于理解翻译结果,从而增强NL2SQL翻译的可解释性。