论文Ⅰ:Progressive Term Frequency Analysis on Large Text Collections (regular paper)
会议:DASFAA 2020
作者:Yazhong Zhang, Hanbing Zhang, Zhenying He, Yinan Jing, Kai Zhang, X. Sean Wang
简介:针对文本数据这种有别于关系型的数据类型,研究了大规模文本集上的渐进式词频分析方法。该方法基于在线聚集的思想,提出了一种基于样本的渐进式计算模型和增量式误差估算方法,可以实现对大规模文本集的快速词频分析。
论文Ⅱ:A Fast Automated Model Selection Approach Based on Collaborative Knowledge (short paper)
会议:DASFAA 2020
作者:Zhenyuan Sun, Zixuan Chen, Zhenying He, Yinan Jing, X. Sean Wang
简介:针对数据分析的“小白”分析人员,借助Kaggle中蕴含的丰富经验数据,根据数据集特征可以自动给用户推荐数据挖掘/机器学习方法。
PS:这两部分工作都是实现大数据分析智能交互向导的支撑方法。