演讲者 | 陈世敏 |
头衔职位 | 中国科学院计算技术研究所研究员 |
时间 | 2017 年 11 月 10 日(周五)下午 14:00-15:30 |
地点 | 复旦大学张江校区软件楼 102 第二会议室 |
联系人 | 王晓阳 xywangcs@fudan.edu.cn |
摘要:
以 JSON、Protocol Buffers 等为代表的树状结构数据,能够简洁地表达嵌套、多值和缺值,可用于表述高级程序设计语言中 class, struct 等丰富的结构,已经逐步替代了 XML 成为事实上的标准,并广泛应用于社交网络数据服务、Web 服务、数据交换格式、分布式系统协议、物联网等,成为一种重要的大数据类型。我们研发了一个通用的树状结构数据库系统 Steed,支持树状数据的行式和列式存储,和类似 SQL 的查询分析功能。我们对实际中存在的树状结构数据进行了分析,发现虽然树状类型本身可以表达丰富复杂的结构,但是实际中出现的结构大部分是简单的,从树根到树叶的路径中,有 90% 以上的路径是简单路径。利用这一发现,针对简单路径,优化了外存存储、内存数据结构、列组装算法。与现有系统 PostgreSQL/JSON, MongoDB, Hive+Parquet 相对比,Steed 对于数据分析操作普遍有 10—1000 倍的性能提升。本报告基于 SIGMOD’17 和 VLDB’17 工作。
报告人简介:
陈世敏,中科院计算所研究员,分别于 1997 年和 1999 年获得清华大学计算机系学士和硕士学位,于 2005 年在美国 Carnegie Mellon University 获得计算机科学博士学位。博士毕业后,先后在美国 Intel Labs、CMU 和 HP Labs 任 Researcher、Senior Researcher 和 Research Manager,于 2013 年加入中科院计算所。 陈世敏的研究兴趣主要集中在数据管理系统、大数据系统和计算机体系结构。曾获得 ICDE’04 Best Paper,SIGMOD’01 Runner-up Best Paper,体系结构 2008 年度顶级论文 Top Picks’08。SIGMOD’09 是数据库领域最早研究闪存的论文之一,CIDR’11 是数据库领域第一篇研究新兴非易失存储的论文。担任 ICDE’18 PC area chair, VLDB’17 PC Associate Editor, ICDCS’16 和 CIKM’14 的 PC area chair,多次担任 SIGMOD,VLDB,ICDE,CIDR , ASPLOS, EUROSYS 等的 PC。