姓名:朱小燕

职称:教授

电话:62796831

邮箱:zxy-dcs@tsinghua.edu.cn

教育背景

工学学士 (自动化), 北京科技大学, 中国, 1981;

工学硕士 (自动化), 神户大学, 日本, 1987;

工学博士 (信息工程), 名古屋工业大学, 日本, 1990.

社会兼职

北京计算机学会: 副理事长 (2004-);

清华大学计算机科学与技术系: 副主任 (2004-2007);

智能技术与系统国家重点实验室: 主任 (2012-).

研究领域

智能信息处理, 机器学习, 文本挖掘

生物信息

研究概况

我所在的研究小组曾经在光学字符识别、语音信号处理、人机交互等领域进行过深入研究。在手写数字识别、盲用计算机系统等方面取得了多项理论与应用成果。识别引擎曾经成功地应用于中国跨世纪人口普查及其它多个国际合作项目。盲用计算机系统——北极光,被中国第一次盲人计算机资格认证考试考场采用,拥有大量盲校集体用户和个人用户。2004年以来,我的工作重点集中在文本挖掘(主要是生物文本挖掘)和问答系统两个方面。

在理论方面,以信息距离为主线,以信息度量为目的,我提出了条件信息距离、min信息距离、多物体间信息距离等概念及实现算法,扩展了传统信息距离的内涵与外延,为应用开辟了新的途径。在理论研究的同时,我对信息距离模型在模板优化、问题答案相似度评价、多文档摘要中内容相似度评价、产品评论文摘中典型及全面文档提取等方面进行了实际应用,实现的多文档摘要系统在国际评测TAC2008、2009两年中连续获得第一名的好成绩。

以不同研究为背景,我们实现了多个原型系统研究平台,其中包括:ONBIRES生物关系挖掘平台、QUANTA问答系统平台、PROCAR产品评价挖掘平台等。我们在生物文本挖掘方面的工作在国际评测Biocreative II上取得了多项第一名,受到国际上生物数据管理最权威的机构——美国国家生物技术信息研究中心(NCBI)——的关注。2008年以来,我们与NCBI在基因功能摘要、基因及蛋白质名字实体识别等方面进行了多项研究。NCBI正在计划将我们的多项技术引入他们的文献搜索引擎PubMed,并选用我们的系统作为2010年国际评测的演示系统。在问答系统方面,我们开发了基于搜索引擎的问答系统和基于百科和问答社区等信息资源的问答系统,并将其有效地集成为通用问答系统。上述系统有望在通用性和性能上取得平衡,从根本上解决信息获取、尤其是移动设备信息获取的效率问题,实现在任何时候、任何地点、任何人都可以方便地从互联网上快速高效地获得信息。

在问答系统和盲人计算机系统的研究工作基础上,我的实验室成功申请到了加拿大国际开发研究中心(IDRC)的国际首席科学家项目(IRCI),在获得100万加元研究资助的同时,我本人还获得了加拿大国际信息领域首席科学家的称号。

奖励与荣誉

国家教委科技进步二等奖: 脱机手写体汉字与数字识别系统 (1997);

北京市科技进步二等奖: 第五次全国人口普查光电录入系统 (2004);

加拿大国际开发研究中心(IDRC)首席科学家 (2009).

学术成果

[1] M. Huang, S. Ding, H. Wang and X. Zhu. Mining Physical Protein-protein Interactions from Literature. Genome Biology 2008, 9 (Suppl 2):S12

[2] H.N. Wang, M.L. Huang, and X.Y. Zhu. Extract Interaction Detection Methods from the Biological Literature. BMC Bioinformatics 2009, 10(Suppl 1):S55

[3] H.N. Wang, S.L. Ding, M.L. Huang and X.Y. Zhu. Exploiting and Integrating Rich Features for Biological Literature Classification. BMC Bioinformatics, 2008, 9(Suppl 3):S4

[4] Y. Hao, X.Y. Zhu, M.L. Huang, and M.Li. Discovering patterns to extract protein-protein interactions from the literature: Part II. Bioinformatics, August 1, 2005; 21(15): 3294-3300.(5.7)3294-3300.(5.7)

[5] M.L. Huang, X.Y. Zhu, Y. Hao, D.G. Payan, K.B Qu and M. Li. Discovering patterns to extract protein-protein interactions from full texts. Bioinformatics, July, 2004.

[6] S.L. Ding, G. Cong, C. Yew and X,Y. Zhu. Using Conditional Random Fields to Extract Contexts and Answer of Questions from Online Forums. Proc. Intl. Conf. on ACL, Columbus, Ohio, America, 2008.

[7] F.T. Li, Y. Tang, M.L. Huang and X.Y. Zhu. Answering Opinion Questions with

Random Walks on Graphs. Proc. the Joint Conf. ACL and Intl. Conf. on Natural Language Processing (ACL-IJCNLP 2009), Singapore, pp. 737--745. 2009.

[8] X. Zhang, Y. Hao, X.Y. Zhu and M. Li. Information Distance from a Question to an Answer. Proc. ACM SIG KDD, 2007, California, United State, pp.874-883.

[9] H.N. Wang, M.L. Huang, and X.Y. Zhu. A Generative Probabilistic Model for Multi-Label Classification. Proc. IEEE Intl. Conf. on Data Mining (ICDM2008),Pisa, Italy, 2008.

[10] C. Long, M.L. Huang, X.Y. Zhu, and M. Li. Multi-document Summarization by Information Distance. Proc. IEEE Intl. Conf. on Data Mining (ICDM 2009), Miami, USA, 2009.

[11] C. Long, X.Y. Zhu, M. Li, and B. Ma. Information Shared by Many Objects. Proc. Intl. ACM Conf. on Information and Knowledge Management, (CIKM2008), California, USA, 2008.

[12] L. Zhuang, F. Jing and X.Y. Zhu: Movie review mining and summarization, Proc. Intl. ACM Conf. on Information and Knowledge Management, (CIKM2006), Arlington, VA, USA, 2006.