智能技术与系统国家重点实验室多篇论文被重要国际会议CIKM、EMNLP等录用

智能技术与系统国家重点实验室在ACM信息与知识管理国际会议(CIKM 2014)上被录用了4篇长文和1篇短文。

其中,马少平教授带领的信息检索课题组有3篇论文被录用为长文。

用户如何阅读结果页面是搜索技术研究中核心关注的话题之一,对搜索结果排序、广告投放都有着至关重要的作用。与传统基于昂贵的眼动设备开展的研究不同,刘奕群副教授的论文“From Skimming to Reading: A Two-stage Examination Model for Web Search”(作者:刘奕群,王超,张敏,马少平等)基于认知行为规律提出一种两阶段阅读模型,验证了用户的阅读过程是可以被鼠标移动行为所拟合的。

长尾查询性能改进的问题是搜索引擎提升性能的核心挑战。清华大学计算机系信息检索组在清华—搜狗搜索技术联合实验室支持下开展了长期探索,张敏副教授指导的硕士生论文“Improving Tail Query Performance by Fusion Model”(作者:霍帅、张敏、刘奕群,马少平)基于排序学习方法和用户行为挖掘方法提出一套基于相似候选查询提升长尾查询性能的解决方案,在搜狗搜索引擎的真实环境下取得了很好的效果。 

数据的稀疏性是研究人员在数据挖掘、机器学习等领域中经常会遇到的基础性问题,但是学术界一直以来对什么是数据稀疏性、多稀疏才叫真的稀疏、以及稀疏性在具体问题中的影响并没有给出理论上的建模和解释。张敏副教授指导的硕士生论文Understanding the Sparsity: Augmented Matrix Factorization with Sampled Constraints on Unobservables(作者:张永锋、张敏、刘奕群、马少平等)以矩阵分解问题为背景,对数据的稀疏性进行了理论分析和证明,提出了对原始矩阵进行较好近似所需的两个必要条件,并以此为基础提出了基于未观测值采样的增强矩阵分解算法,使得常见的矩阵分解算法在该框架下的预测精度得以进一步提升。 

信息获取课题组朱小燕教授指导的博士生论文也被该会议录用为长文。如何有效地对互联网上微博博客等用户产生数据(UGC)进行组织和检索是Web2.0时代搜索领域的主要前沿课题之一。为了帮助用户更加高效、准确地获取他所需求的UGC内容,论文“Customized Organization of Social Media Contents using Focused Topic Hierarchy”(作者:朱星玮,明朝燕,郝宇,朱小燕,Tat-Seng Chua等)使用查询驱动的话题树模型对用户可能感兴趣的UGC进行动态的组织和检索,改善了用户在动态、海量的UGC数据集上的搜索体验。 

博士生房磊的论文《Ranking Sentiment Explanations for Review Summarization Using Dual Decomposition》(作者:房磊 黄民烈 朱小燕)被录用为短文(指导教师黄民烈、朱小燕)。论文提出了一种利用对偶分解的方法生成评论内容摘要的算法。

ACM CIKM会议是信息检索与知识、数据管理方面最知名的国际会议之一,本年度会议检索领域论文257投稿篇,录用54篇。

此外,信息获取课题组博士生赵立的论文《Clustering Aspect-related Phrases by Leveraging Sentiment Distribution Consistency》(作者:赵立 黄民烈 陈海强 程军军 朱小燕)被EMNLP录用为长文(指导教师黄民烈,朱小燕)。论文提出了一种新颖的利用情感分布一致性的短语聚类算法。EMNLP是自然语言处理领域的仅次于ACL的重要会议,录取率为20%左右,投稿量在700~800之间。