
姓名:许斌
职称:研究员
电话:62771736
邮箱:xubin@tsinghua.edu.cn
个人主页:http://keg.cs.tsinghua.edu.cn/persons/xubin/
教育背景
工学学士 (计算机科学与技术), 清华大学, 中国, 1996
工学硕士 (计算机系统结构), 清华大学, 中国, 1998
工学博士 (计算机软件), 清华大学, 中国, 2006
社会兼职
中国计算机学会杰出会员
中国计算机学会计算机应用专委会荣誉主任
互联网教育智能技术及应用国家工程研究中心知识建模与分析实验室主任
IEEE教育知识图谱标准工作组主席
全国专业标准化技术委员会委员信息技术分技术委员会委员
2025年CCF第40届中国计算机应用大会主席
2024年全国知识图谱与语义计算大会主席
研究领域
知识图谱、大模型、人工智能
研究概况
许斌,清华大学计算机系研究员,博士生导师,国家级人才计划入选者,中国计算机学会杰出会员、计算机应用专委会荣誉主任,互联网教育智能技术及应用国家工程研究中心知识建模与分析实验室主任,IEEE教育知识图谱标准工作组主席,国家一流本科课程“JAVA程序设计进阶”主讲教师。主要从事知识图谱和大模型方面的研究,在ACL/ICLR/ NeurIPS /EMNLP/TKDE/TPAMI等高水平学术会议与期刊上发表近百篇论文;主持多项国家科研项目,担任2025年CCF第40届中国计算机应用大会主席,2024年全国知识图谱与语义计算大会主席,是国产大模型GLM系列的主要研制人之一,并将大模型应用于教育、金融、水利、环境等多个行业,开展AI+行业应用。先后获得国家科技进步二等奖、中国人工智能学会科技进步一等奖、北京市科技进步一等奖等多个奖项。
本人的研究方向是人工智能领域中的知识工程,主要包括知识表示、知识获取与知识服务的理论方法及应用,具体的技术领域包括大模型和知识图谱。
大模型采用神经网络来表示知识,是当前人工智能发展的最新阶段,是实现通用人工智能的重要尝试。本人参与研发了具有完全自主知识产权的对话大模型系统ChatGLM,建成了集理论方法、关键技术和平台系统为一体的技术体系,实现支持跨模态、跨语言的理解和生成及自主智能体的大模型,建立全面对标国际顶尖大模型的技术体系和功能,整体技术达到国际先进水平,提供语言、图片、视频等全模态认知理解与生成服务,推动GLM模型在国能集团、石化集团、芯片企业的应用,实现大模型规模化应用,取得显著经济和社会效益。
知识图谱是基于符号来表示知识,从2012年谷歌推出知识图谱(knowledge graph)以来,知识图谱已经在教育、科技、金融、法律等各行各业中得到广泛应用与发展。本人研究知识图谱构建的基本理论方法及应用,利用自然语言处理、深度学习、语义web等技术,研究从文本和数据中构建领域知识图谱,具体包括知识概念体系建立、知识抽取、实体扩充、实体对齐、关系抽取、自动问答等研究任务。以“精知识”为目标,提出一套准确高效的领域知识图谱构建方法,将领域知识图谱的准确率与覆盖率大大提升;针对事件知识获取中的低资源挑战,提出了一套低资源事件检测和抽取方法,从多模态融合、知识蒸馏以及自标注等多个方面,解决了事件抽取中数据标注难、标注资源少的问题。
理论与应用相结合,面向国家重大产业和行业对于知识计算的需求,研发了一套知识引擎,提供领域知识图谱构建、知识建模、知识融合和知识赋能等多种服务,在教育、科技和军事等多个行业知识图谱中得到应用。在国家863项目“面向基础教育的海量知识库建设与构建关键技术系统”支持下,建立了中国第一个覆盖中小学全学科基础教育知识图谱EduKG(http://edukg.cn/),包含了1000个概念类,160多万个实体,2200万条三元组。在国家重点研发课题“知识产权大数据挖掘技术、智能推进技术及应用示范”支持下,建立了科技知识图谱,知识概念规模超过800万,服务于智能型科技情报挖掘与服务系统AMiner中,提供面向科技资源的语义搜索和成果评价等智能服务。
研究项目
重点基金:基于大模型的AI+流域水电梯级调度理论与方法研究(2026-2030);
基金项目:面向基础教育领域的知识推理问答关键技术研究(2023-2026);
部委项目:基于知识图谱的“科普中国”分析研究(2022-2022);
横向项目:金融知识图谱长文档关系抽取研究(2022-2023);
横向项目:知识建模与分析平台软件开发及系统集成(2020-2020);
国家重点研发计划课题:面向基础教育的海量知识库建设与构建关键技术及系统二期课题——语言智能处理关键技术研究(2019-2021);
横向项目:智能教育技术创新(2018-2020);
国家重点研发计划课题:知识产权大数据挖掘技术、智能推送技术及应用示范(2018-2020);
863课题:面向基础教育的海量知识库建设与构建关键技术及系统(2015-2018);
基金项目:跨语言环境中语义链接关键技术研究(2013-2016);
863课题:基于知识本体的知识发现与自动推理系统的研发(2013-2015);
基金项目:基于体域网的移动健康服务的数据可靠性研究(2012-2015);
基金项目:基于多普勒效应的人体传感器网络动态三维定位与监测方法 (2009-2011);
863课题: 面向数据处理的软件生产线 (2007-2010);
863课题: 自适应网构软件技术 (2009-2010);
奖励与荣誉
国家科技进步二等奖——智能型科技情报挖掘和知识服务关键技术及其规模化应用(2021);
清华大学先进工作者(2020);
中国人工智能学会2020年度优秀科技成果奖——智能型科技情报挖掘与服务系统AMiner(2020);
北京市科技进步一等奖——科技情报大数据挖掘及服务平台(2017);
第45届日内瓦国际发明展览会银奖——科技情报大数据分析挖掘服务平台(2017);
昆山国际发明展览会金奖——科技情报大数据分析挖掘服务平台(2016);
中国人工智能学会科学技术进步一等奖——研究者社会网络搜索与挖掘系统(2013);
北京市高等教育教学成果二等奖——培养计算思维,笃行创新实践——计算机公共课程改革探 (2012);
清华大学教学成果一等奖——面向研究型人才培养的计算机基础课程体系及教学模式(2012);
清华大学第四届青年教师教学大赛一等奖 (2010);
学术成果
【1】Yunjia Qi*, Hao Peng*, Xiaozhi Wang, Youfeng LIu, Amy Xin, Bin Xu, Lei Hou, and Juanzi Li. AGENTIF: Benchmarking instruction following of large language models in agentic scenarios, NeurIPS 2025 (Spotlight paper)
【2】Xujia Wang, Yunjia Qi, Bin Xu. LoSiA: Efficient High-Rank Fine-Tuning via Subnet Localization and Optimization. EMNLP 2025
【3】Shangqing Tu*, Yucheng Wang*, Daniel Zhang-Li, Yushi Bai, Jifan Yu, Yuhao Wu, Lei Hou, Huiqin Liu, Zhiyuan Liu, Bin Xu, and Juanzi Li. LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models. ACM MM 2025
【4】Yunjia Qi*, Hao Peng*, Xiaozhi Wang, Bin Xu, Lei Hou, and Juanzi Li. Constraint back-translation improves complex instruction following of large language models, CIKM 2025
【5】Yucheng Wang*,Jifan Yu*,Daniel Zhang-Li,Shangqing Tu,Haoxuan Li,Zhiyuan Liu,Huiqin Liu,Lei Hou,Bin Xu. EduCraft: A System for Generating Pedagogical Lecture Scripts from Long-Context Multimodal Presentations,CIKM 2025
【6】Haotian Xia, Hao Peng, Yunjia Qi, Xiaozhi Wang, Bin Xu, Lei Hou, Juanzi Li. StoryWriter: A Multi-Agent Framework for Long Story Generation. CIKM 2025
【7】Hao Peng*, Yunjia Qi*, Xiaozhi Wang, Bin Xu, Lei Hou, and Juanzi Li. Agentic reward modeling: Integrating human preferences with verifiable correctness signals for reliable reward systems. ACL 2025
【8】Weihan Wang, Zehai He, Wenyi Hong, Yean Cheng, Xiaohan Zhang, Ji Qi, Ming Ding, Xiaotao Gu, Shiyu Huang, Bin Xu, Yuxiao Dong, Jie Tang. Lvbench: An extreme long video understanding benchmark. ICCV 2025
【9】Ji Qi, Ming Ding, Weihan Wang, Yushi Bai, Qingsong Lv, Wenyi Hong, Bin Xu, Lei Hou, Juanzi Li, Yuxiao Dong, Jie Tang. Cogcom: A Visual Language Model with Chain-of-Manipulations Reasoning. ICLR 2025
【10】Zhen Yang, Ming Ding, Tinglin Huang, Yukuo Cen, Junshuai Song, Bin Xu, Yuxiao Dong, Jie Tang. Does Negative Sampling Matter? A Review with Insights into its Theory and Applications. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024(46).
【11】Yunjia Qi, Hao Peng, Xiaozhi Wang, Xu Bin, Lei Hou, Juanzi Li. ADELIE: Aligning Large Language Models on Information Extraction. EMNLP 2024.
【12】Minghui Liu, MeiHan Tong, Yangda Peng, Lei Hou, Juanzi Li, Bin Xu. DocEE-zh: A Fine-grained Benchmark for Chinese Document-level Event Extraction. EMNLP Findings 2024.
【13】Chunyang Li, Hao Peng, Xiaozhi Wang, Yunjia Qi, Lei Hou, Bin Xu, Juanzi Li. MAVEN-FACT: A Large-scale Event Factuality Detection Dataset. EMNLP Findings 2024.
【14】Weihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Song XiXuan, Jiazheng Xu, Keqin Chen, Bin Xu, Juanzi Li, Yuxiao Dong, Ming Ding, Jie Tang. Cogvlm: Visual expert for pretrained language models. NeurIPS 2024
【15】Jifan Yu, Xiaozhi Wang, Shangqing Tu, Shulin Cao, Daniel Zhang-Li, Xin Lv, Hao Peng, Zijun Yao, Xiaohan Zhang, Hanming Li, Chunyang Li, Zheyuan Zhang, Yushi Bai, Yantao Liu, Amy Xin, Nianyi Lin, Kaifeng Yun, Linlu Gong, Jianhui Chen, Zhili Wu, Yunjia Qi, Weikai Li, Yong Guan, Kaisheng Zeng, Ji Qi, Hailong Jin, Jinxin Liu, Yu Gu, Yuan Yao, Ning Ding, Lei Hou, Zhiyuan Liu, Bin Xu, Jie Tang, Juanzi Li. KoLA: Carefully Benchmarking World Knowledge of Large Language Models. ICLR 2024
【16】Ji Qi, Chuchun Zhang, Xiaozhi Wang, Kaisheng Zeng, Jifan Yu, Jinxin Liu, Jiuding Sun, Yuxiang Chen, Lei How, Juanzi Li, Bin Xu. Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction. EMNLP 2023 (Outstanding Paper Award)
【17】Ji Qi, Jifan Yu, Teng Tu, Kunyu Gao, Yifan Xu, Xinyu Guan, Xiaozhi Wang, Yuxiao Dong, Bin Xu, Lei Hou, Juanzi Li, Jie Tang, Weidong Guo, Hui Liu, Yu Xu. GOAL: A Challenging Knowledge-grounded Video Captioning Benchmark for Real-time Soccer Commentary Generation. CIKM 2023