计算机系学生获得SIGMOD 2023竞赛冠军

2023.06.23 11:48

6月20日,数据管理领域国际顶级学术会议ACM SIGMOD 2023的程序竞赛(ACM SIGMOD Programming Contest)颁奖仪式在美国华盛顿州贝尔维尤举行,清华大学计算机系2020级研究生王嘉翼荣获冠军(指导教师为计算机系教授李国良)。这是清华大学首次在该项赛事中夺冠。

本次竞赛任务为数据库领域的经典问题 — 海量向量数据的组织和查询。在该问题中,给定包含N条向量的数据集,要为其中的每一条向量找到数据集中与之距离最近的K个向量。其难点是快速构建K最近邻图(KNN Graph Construction)并支持低时延高并发的K近邻查询。K最近邻图构建问题在实际应用中存在很高的价值,因为比较准确的K最近邻图能够被转换为索引,极大地优化近似最近邻查询的效率与准确度。比赛中的测试数据集为一千万条被微软的大型自然语言表示模型图灵v5编码为100维向量的必应(Bing)查询,参赛队伍需要在给定的时间限制下,针对这一大规模高维向量数据集,尽可能精确地构建K最近邻图。

获奖证书

本次比赛共有28支来自世界知名高校的队伍参赛,包括密歇根大学、慕尼黑工业大学、加州大学河滨分校、新加坡国立大学、香港科技大学、复旦大学、上海交通大学等。在比赛中,王嘉翼基于经典的最近邻下降算法(NN-Descent)提出了全新方案。在有限的构建时间内,可以将K最近邻图的召回率提高到接近最优的98.7%,最终成功斩获冠军。

ACM SIGMOD数据管理国际会议是由美国计算机协会(ACM)数据管理专业委员会(SIGMOD)主办的国际性学术会议,是数据库领域最好的学术会议之一,同时也是中国计算机学会(CCF)和清华大学计算机学科推荐学术会议目录中的A类会议。自2009年组织发起以来,ACM SIGMOD程序竞赛每年都会举办,并已成为数据管理领域最具影响力的国际赛事。

王嘉翼

王嘉翼,计算机系2020级研究生,导师为计算机系教授李国良。曾获西贝尔学者奖学金、龙湖奖学金新星奖等荣誉。在科研中,致力于研究数据管理与人工智能相互赋能中的关键问题,包括基于机器学习算法的基数估计和核心集选择。目前已在数据库领域的SIGMOD,VLDB,TKDE等国际顶级会议与期刊发表多篇论文,并在ACM SIGMOD 2023算法竞赛中获得冠军。

关闭