
姓名:李涓子
职称:教授
邮箱:lijuanzi@tsinghua.edu.cn
个人主页:http://keg.cs.tsinghua.edu.cn/persons/ljz
AMiner:https://www.aminer.cn/profile/juanzi-li/5619120945cedb3397d40ba0
教育背景
工学学士 (计算机科学与技术), 山西大学, 中国, 1986;
工学硕士 (计算机科学与技术), 山西大学, 中国, 1989;
工学博士 (计算机科学与技术), 清华大学, 中国, 2000.
社会兼职
中国中文信息学会:专委会主任
清华大学人工智能研究院:知识智能中心主任
清华大学-西门子(中国)有限公司工业智能与物联网联合研究中心:主任
研究领域
知识图谱、大模型和数据挖掘
研究概况
我于2000年在清华大学获得博士学位,2001年博士后出站后留校工作至今。我的科研工作特点是大规模预训练模型、知识图谱构建、知识问答和对话生成。主要工作包括:
1. 面向大规模多源数据的人物画像和定位分析关键技术:项目旨在基于大规模多源非结构化数据构建人物事件画像知识图谱,支撑可视化多维人物画像和定位分析和预测服务。针对人物画像和定位分析的精准服务与多源非结构化数据的指数增长间的主要矛盾,项目在多源数据统一建模、语义内容生成、多维语义分析和决策支持服务四个方面取得了创新性成果,并建设了大规模知识图谱 XLORE 2.0 和新闻挖掘和服务系统 NewsMiner,支撑涉华关键人物和事件的分析和挖掘示范应用。
2. 可解释推理编程和知识推理。问答系统是人工智能典型应用,复杂推理问答不能通过检索和匹配直接得到答案,需要多跳、计数、比较、集合操作等多种推理能力。针对自然语言问题深层逻辑表达和语义理解的挑战,项目组提出了面向知识的可解释推理编程语言 KoPL,将自然语言问题表示为由基本知识操作函数组成的程序,程序运行结果即为问题答案,在知识图谱上实现了推理过程的可解释模块化表达;构建了面向自动编程的复杂问答数据集 KQA Pro,进一步提出了跨域程序迁移、异构资源概率联合推理等技术,实现了融合大语言模型的推理规划和任务求解;开发了可视化编程平台VisKoP,支持自然语言问题的自动解析和人在回路交互编程,获得自然语言处理领域顶级国际会议 ACL 2023 最佳演示论文奖(CCF 推荐 A 类国际会议)。在知识推理方面,项目组成员具有丰富的研究基础。项目组提出了基于元学习的多跳推理框架,提升模型在少次关系下的推理性能;提出了基于动态预测和动态补全策略的多跳推理模型,缓解事实稀疏对推理性能的影响。除此之外,项目组构建了一个能够自动化检测多跳推理模型可解释性程度的数据集,成为第一个量化评测模型在可解释性方面性能的标准数据集。相关论文已在 EMNLP 等国际顶级学术会议上发表。
3.大规模预训练模型。在大规模预训练模型方面项目组具有丰富研究基础,提出了知识嵌入和预训练语言表示的统一模型 KEPLER,不仅可以更好地将事实知识整合到预训练语言表示模型中,而且可以借助预训练语言表示模型的强大文本表示能力产生文本增强的知识嵌入。这项工作发表于顶级期刊 TACL,据谷歌学术平台统计,目前已获得283 次引用,产生了一定影响力。针对特定领域和异构知识来源的场景,项目组还提出融合开放学术知识图谱的预训练模型 OAG-BERT,以及充分利用了非结构化段落、半结构化标题和结构化三元组等多种异构知识的预训练模型 TravelBERT。
研究课题
国家自然科学基金项目:面向知识密集型问答的神经符号推理研究(2025-2028)
北京市自然科学基金项目:大语言模型知识的表征、学习、记忆和注入机制分析与验证(2024-2026)
清华大学国强研究院重点项目:大规模常识库的构建、表征、推理方法及开放平台(2020-2024)
国家重点研发计划:融合大数据与人类常识的开放域多语言知识图谱构建(2018-2021)
国家重点基础研究发展计划(973计划):融合三元空间的中文语言知识与世界知识获取和组织(2014-2018)
国家自然科学基金项目:面向大规模多源数据的人物画像和定位分析关键技术(2018-2021)
国家自然科学基金项目:大规模知识关联和文本语义计算方法及应用验证(2016-2020)
国家自然科学基金项目:多语言多模态知识图谱关键技术研究及其应用(2017-2019)
国家自然科学基金项目: 大规模动态本体映射模型研究 (2010-2012)
奖励与荣誉
2023电子学会科技进步一等奖
2021年北京市发明专利一等奖
2020年国家科技进步二等奖
2017年北京市科技进步一等奖
2013年人工智能学会科技创新一等奖
2011年王选新闻科学技术进步奖一等奖
学术成果
[1] 《Mining User Generated Content》
[2] 《Semantic Mining in Social Networks》
[3]Jifan Yu, Xiaozhi Wang, Shangqing Tu, Shulin Cao, Daniel Zhang-Li, Xin Lv, Hao Peng, Zijun Yao, Xiaohan Zhang, Hanming Li, Chunyang Li, Zheyuan Zhang, Yushi Bai, Yantao Liu, Amy Xin, Kaifeng Yun, Linlu GONG, Nianyi Lin, Jianhui Chen, Zhili Wu, Yunjia Qi, Weikai Li, Yong Guan, Kaisheng Zeng, Ji Qi, Hailong Jin, Jinxin Liu, Yu Gu, Yuan Yao, Ning Ding, Lei Hou, Zhiyuan Liu, Xu Bin, Jie Tang, Juanzi Li. KoLA: Carefully Benchmarking World Knowledge of Large Language Models. ICLR (2024)
[4] Yushi Bai, Xin Lv, Jiajie Zhang, Hongchang Lyu, Jiankai Tang, Zhidian Huang, Zhengxiao Du, Xiao Liu, Aohan Zeng, Lei Hou, Yuxiao Dong, Jie Tang, Juanzi Li. LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding. ACL (2024)
[5] Xiaozhi Wang, Hao Peng, Yong Guan, Kaisheng Zeng, Jianhui Chen, Lei Hou, Xu Han, Yankai Lin, Zhiyuan Liu, Ruobing Xie, Jie Zhou, Juanzi Li. MAVEN-ARG: Completing the Puzzle of All-in-One Event Understanding Dataset with Event Argument Annotation. ACL(2024)
[6] Jiajie Zhang, Shulin Cao, Linmei Hu, Ling Feng, Lei Hou*, Juanzi Li. KB-Plugin: A Plug-and-play Framework for Large Language Models to Induce Programs over Low-resourced Knowledge Bases. EMNLP(2024)
[7]Yushi Bai, Jiahao Ying, Yixin Cao, Xin Lv, Yuze He, Xiaozhi Wang, Jifan Yu, Kaisheng Zeng, Yijia Xiao, Haozhe Lyu, Jiayin Zhang, Juanzi Li, Lei Hou. Benchmarking Foundation Models with Language-Model-as-an-Examiner. NeurIPS (2023)
[8]Shulin Cao, Jiaxin Shi, Liangming Pan, Lunyiu Nie, Yutong Xiang, Lei Hou, Juanzi Li, Hanwang Zhang, Bin He. KQA Pro: A Dataset with Explicit Compositional Programs for Complex Question Answering over Knowledge Base. ACL(2022)
[9]Xin Lv, Jiaxin Shi, Shulin Cao, Lei Hou and Juanzi Li. Triple-as-Node Knowledge Graph and Its Embeddings. DASFAA(2022)
[10] Xiaozhi Wang, Yulin Chen, Ning Ding, Hao Peng, Zimu Wang, Yankai Lin, Xu Han, Lei Hou, Juanzi Li, Zhiyuan Liu, Peng Li and Jie Zhou. MAVEN-ERE: A Unified Large-scale Dataset for Event Coreference, Temporal, Causal, and Subevent Relation Extraction. EMNLP(2022)
[11]Zijun Yao, Chengjiang Li, Tiansi Dong, Xin Lv, Jifan Yu, Lei Hou, Juanzi Li, YICHI ZHANG and zelin Dai, Interpretable and Low-Resource Entity Matching via Decoupling Feature Learning from Decision Making, ACL(2021)
[12]Xin Lv, Xu Han, Lei Hou, Juanzi Li, Zhiyuan Liu, Wei Zhang, Yichi Zhang, Hao Kong and Suhui Wu. Dynamic Anticipation and Completion for Multi-Hop Reasoning over Sparse Knowledge Graph, EMNLP(2020)
[13] Jiaxin Shi, Lei Hou, Juanzi Li, Zhiyuan Liu, Hanwang Zhang: Learning to Embed Sentences Using Attentive Recursive Trees. AAAI (2019)
[14] Jiaxin Shi, Chen Liang, Lei Hou, Juanzi Li, Zhiyuan Liu, Hanwang Zhang:DeepChannel: Salience Estimation by Contrastive Learning for Extractive Document Summarization. AAAI(2019)
[15] Jiaxin Shi, Hanwang Zhang, Juanzi Li:Explainable and Explicit Visual Reasoning over Scene Graphs. CVPR(2019)
[16] Hailong Jin, Lei Hou, Juanzi Li, Tiansi Dong: Attributed and Predictive Entity Embedding for Fine-Grained Entity Typing in Knowledge Bases. COLING 2018: 282-292(2018)
[17] Yixin Cao, Lei Hou, Juanzi Li, Zhiyuan Liu:Neural Collective Entity Linking. COLING 2018: 675-686(2018)
[18] Yixin Cao, Lei Hou, Juanzi Li, Zhiyuan Liu, Chengjiang Li, Xu Chen, Tiansi Dong:Joint Representation Learning of Cross-lingual Words and Entities via Attentive Distant Supervision. EMNLP 2018: 227-237(2018)
[19] Xin Lv, Lei Hou, Juanzi Li, Zhiyuan Liu: Differentiating Concepts and Instances for Knowledge Graph Embedding. EMNLP 2018: 1971-1979(2018)
[20] Jiangtao Zhang, Juanzi Li, Xiao-Li Li, Yixin Cao, Lei Hou, Shuai Wang: Is a Common Phrase an Entity Mention or Not? Dual Representations for Domain-Specific Named Entity Recognition. DASFAA (1) 2018: 830-846(2018)
[21] Jing Zhang, Jie Tang, Yuanyi Zhong, Yuchen Mo, Juanzi Li, Guojie Song, Wendy Hall, Jimeng Sun:StructInf: Mining Structural Influence from Social Streams. AAAI 2017: 73-80(2017)
[22] Linmei Hu, Juanzi Li, Liqiang Nie, Xiaoli Li, Chao Shao: What Happens Next? Future Subevent Prediction Using Contextual Hierarchical LSTM. AAAI 2017: 3450-3456(2017)
[23] Liangming Pan, Chengjiang Li, Juanzi Li, Jie Tang: Prerequisite Relation Learning for Concepts in MOOCs. ACL (1) 2017: 1447-1456(2017)
[24] Yixin Cao, Lifu Huang, Heng Ji, Xu Chen, Juanzi Li: Bridge Text and Knowledge by Learning Multi-Prototype Entity Mention Embedding. ACL (1) 2017: 1623-1633(2017)
[25] Yan Zhang, Thomas Paradis, Lei Hou, Juanzi Li, Jing Zhang, Haitao Zheng: Cross-Lingual Infobox Alignment in Wikipedia Using Entity-Attribute Factor Graph. International Semantic Web Conference (1) 2017: 745-760(2017)
[26] Jing Zhang, Jie Tang, Cong Ma, Hanghang Tong, Yu Jing, Juanzi Li, Walter Luyten, and Marie-Francine Moens. Fast and Flexible Top-k Similarity Search on Large Networks. ACM Transactions on Information Systems (TOIS), 2017, Volume 36, Issue 2, Article No. 13. (if =1.3) [PDF]
[27] Linmei Hu, Bin Zhang, Lei Hou, Juanzi Li:Adaptive online event detection in news streams. Knowl.-Based Syst. 138: 105-112 (2017)
[28] Lei Hou, Juanzi Li, Xiao-Li Li, Jie Tang, and Xiaofei Guo. Learning to Align Comments to News Topics. ACM Transactions on Information Systems (TOIS), 2017, Volume 36, Issue 1. (if =1.3) [PDF]