论文:GAR: A Generate-and-Rank Approach for Natural Language to SQL Translation
会议:ICDE 2023
作者:Yuankai Fan, Zhenying He, Tonghui Ren, Dianjun Guo, Lin Chen, Ruisi Zhu, Guanduo Chen, Yinan Jing, Kai Zhang, X.Sean Wang
简介:自然语言数据库接口 (NLIDB) 旨在帮助用户访问数据库。现有主流的方法主要借助语言翻译模型实现用户自然语言查询转换为SQL查询的翻译过程。虽然这些翻译方法在 现有公开NLIDB基准测试中表现出良好的性能,但是翻译准确率似乎出现了停滞现象,仅有70%-75%的翻译准确度,并且大多数出现错误的翻译都发生在需要了解特定数据库的结构和语义的复杂查询中。因此,我们提出了一种基于生成排序(Generate-And-Rank)方法,GAR。 GAR假设用户给出了一组少量SQL查询样本来表示出用户可能的数据库查询。为了提供更加广泛的查询覆盖范围,GAR方法从查询样本集中提取出查询的基本组件用以形成基本查询组件,从而生成大量泛化的SQL查询,并通过利用简单的基于规则的SQL到 自然语言技术,获得了对应SQL查询的自然语言表达式。最后,对于给定的用户自然语言查询,GAR通过学习排序方法获取语义上最匹配的自然语言表达式,从而得到最终的结果SQL查询。目前GAR的代码已开源(https://github.com/Kaimary/GAR)。