姓名:周立柱

职称:教授

电话:62771603

邮箱:dcszlz@tsinghua.edu.cn

教育背景

工学学士 (计算机), 清华大学, 中国, 1970;

理学硕士 (计算机科学), 多伦多大学, 加拿大, 1983.

社会兼职

清华大学信息学院学术委员会: 主任 (2007-);

青海大学计算机技术与应用系: 主任 (2007-);

教育部国家考试中心考试指导委员会: 副主任 (2006-);

DASFAA国际学术会议: 指导委员会委员 (2008-);

北京计算机学会: 理事长 (2005-);

APweb 2010会议: 大会共主席 (2010);

SIGMOD 2007会议: 大会共主席 (2007);

DASFAA 2005会议: 程序委员会共主席 (2005);

清华大学计算机科学与技术系: 主任 (1997-2003).

研究领域

数据库技术;万维网搜索, 万维网信息集成

研究概况

我最近几年的研究主要集中在万维网(World Wide Web)的纵向搜索(也称垂直搜索)、信息抽取、以及知识发现等方向,包括以下几个方面:

1. 研究了一种纵向搜索技术,其核心思想是以统一的图语言表达从网页抽取实体和关系、XML文档转换、以及数据查询等流程。以这一技术为基础建立的SESQ系统,支持以关键字表示的领域主题,能够完成万维网上网页发现、信息抽取、建立数据库与索引等全过程。由SESQ建立的数据库支持关键字查询、类SQL的复杂查询、以及图形界面查询和浏览的功能。此项研究成为欧盟第六合作框架项目 “ALVIS – Superpeer Semantic Search Engine”(2005-2007)的一个亮点。

2. 在全网规模研究了中文万维网的基本状况。我们以工业搜索引擎抓取的中文HTML网页为基础,通过特征抽取、数据挖掘等方法,对中文深度万维网数据库(Deep Web Databases)进行了统计,发现中文万维网上目前约有64万个深度万维网数据库,它们分别分布在商业、教育、科学、娱乐等领域。同时,深度万维网数据库中,约有一半的查询界面只有单个输入框。以传统的抽样统计方法相比,我们这种Web规模的挖掘方法更加真实地揭示了中文万维网的现状,为更深入地研究和开发中文万维网提供了一个较好的开端。

3. 对中文万维网进行了全网规模的知识发现与抽取。我们研究了一种自主式建立双语词典的方法。该方法以工业搜索引擎抓取的中英文HTML网页作为输入,不依赖任何事前建立的语料库,避免了中文分词以及采用自然语言处理的机器学习算法带来的缺点。我们通过提出的I-Tree数据结构及为其设计的算法,对双语翻译的候选词条进行词频统计与排序,并自动构造双语词典。在数据集上的测试结果表明,我们建立的词典在准确率上不低于互联网上的商业词典系统,而且覆盖了广泛流行的网络用语。该方法具有独立于语言的特性,可用于万维网上其它语词典的构建。该方法已申请专利。

4. 随着Web 2.0的兴起,万维网上出现了很多大规模的社会网络,如何从超大型社会网络中检测社区是一个颇具挑战性的难题。我的研究小组通过把社区抽象为图,并提出了一系列的图挖掘算法,为解决这一难题做出了贡献。例如,我们提出了一种基于动态临近性计算的社会网络社区挖掘算法。该算法采用了动态对照网络拓扑结构和拓扑临近性的策略,通常将二者通过几轮相互加强的迭代过程,网络社区会逐渐呈现出来。实验表明,该算法针对大型网络(如包含几百万个节点、上亿条边)进行社区发现是可行的。相应的论文已在国际数据挖掘顶级会议SIGKDD 09上作为长文发表。

研究课题

国家自然科学基金重点项目: 支持中文Web研究的基础设施建设和应用中的基本方法与关键技术 (2009-2012);

973二级课题: 需求模型验证与管理 (2007-2011);

搜狐联合研究项目: 万维网海量双语词典 (2008-2009);

微软合作项目: 万维网上基于文本的情感分析和挖掘 (2008);

国家自然科学基金重大国际合作项目: ALVIS – 超节点语义搜索引擎 (2005-2007).

奖励与荣誉

国家教学成果二等奖——计算机科学与技术专业发展战略暨专业规范的研究与推广 (2009);

北京市优秀教师 (2009);

国家科技进步三等奖——北京商品交易所计算机交易系统 (1997).

学术成果

[1] Ju Fan, Hao Wu, Guoliang Li, Lizhu Zhou. Suggesting Topic-Based Query Terms as You Type, Proc. the 12th Asia-Pacific Web Conference (APWeb 2010), Busan, Korea, April 6-8, 2010, pp:61-67

[2] Yuzhou Zhang, Jianyong Wang, Yi Wang, Lizhu Zhou. Parallel Community Detection on Large Networks with Propinquity Dynamics. Proc. the 15th ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining, Paris, France, June 28 - July 1, 2009. PP:997-1005. (ACM SIGKDD 09)

[3] Zhiping Zeng, Anthony K.H. Tung, Jianyong Wang, Jianhua Feng, Lizhu Zhou. Comparing Stars: On Approximating Graph Edit Distance. Proc. the 35th Int. Conf. on Very Large Data Bases, Lyon, France, Aug. 24-28, 2009. PP: 25-36. (VLDB 2009)

[4] Hang Guo, LiZhu Zhou and Ling Feng, Self-Switching Classification Framework for Titled Documents. JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY 24(4), pp.615–625 July 2009

[5] Ling Lin, Lizhu Zhou, Web Database Schema Identification through Simple Query Interface. VLDB 2009 Workshop (RED 2009)

[6] Lin Ling, Yukai He, Hang Guo, Ju Fan, Lizhu Zhou, Qi Guo, Gang Li. SESQ: A model-driven method for building object level vertical search engines (Demo). In: Proceedings of the 27th International Conference on Conceptual Modeling. Barcelona, Spain, 2008, pp. 516-517

[7] Zhiping Zeng, Jianyong Wang, Lizhu Zhou, George Karypis. Out-of-Core Coherent Closed Quasi-Clique Mining from Large Dense Graph Databases, ACM TODS, June 2007

[8] Hang Guo, Jun Zhang, Lizhu Zhou, Classifying and Ranking, The First Step towards Mining Inside Vertical Search Engines, Proceedings of International Conference on Database and Expert System Applications.(DEXA), 2007,Germany, pp. 223-232

[9] Ling Lin, Lizhu Zhou, Leveraging Webpage Classification for Data Object Recognition, The 2007 IEEE WIC/ACM International Conference on Web Intelligence (WI 07), USA, p667-670

[10] Hang Guo, Lizhu Zhou, Segmented Document Classification: Problem and Solution, Proceedings of 18th International Conference on Database and Expert Systems Applications (DEXA 2006), pp. 171-181