论文:Progressive Term Frequency Analysis on Large Text Collections (regular paper)
会议:DASFAA 2020
作者:Yazhong Zhang, Hanbing Zhang, Zhenying He, Yinan Jing, Kai Zhang, X. Sean Wang
简介:针对文本数据这种有别于关系型的数据类型,研究了大规模文本集上的渐进式词频分析方法。该方法基于在线聚集的思想,提出了一种基于样本的渐进式计算模型和增量式误差估算方法,可以实现对大规模文本集的快速词频分析。
PS:这部分工作是实现大数据分析智能交互向导的支撑方法之一。