人机交互与媒体集成研究所

2020.10.23 17:28

人机交互与媒体集成研究所简称“媒体所”,在媒体信息智能处理、多媒体大数据智能、人机交互、普适计算等方面开展高水平研究。建有多个学术基地,如“普适计算教育部重点实验室”、“清华大学-腾讯互联网创新技术联合实验室”、“网络多媒体北京市重点实验室”等。近年主持多项本学科领域重要项目(教育部学科突破先导项目、国家自然科学基金委重大项目、国家自然科学基金委创新群体项目、国家重点研发计划、973等),创新求实,在顶级刊会发表大量学术论文并获多篇最佳论文奖,获得国家级科技奖励7项,技术成果行业影响重大。

本所现有23名教师,其中中国科学院院士1人、国家高端人才计划获得者9人、国家高端青年人才计划获得者8人、IEEE Fellow 4人。在读百余研究生中70%是博士生,培养毕业的博士生中已有三人获得全国百篇优秀博士学位论文、七人获得中国计算机学会优秀博士学位论文。本所还与美术学院共同负责信息艺术设计交叉学科研究生培养项目。媒体所在2013年度和2024年度均被评为清华大学先进集体。

主要研究方向

1. 计算机图形学与计算机视觉:几何处理、图像视频的理解与合成,真实感绘制与动画,计算机视觉等。

2. 媒体计算:多媒体编码、检索与传输,社会媒体计算,多媒体大数据智能等。

3. 智能人机交互:情感计算、语音交互,大幅表面交互、脑机接口,交互效率与优化,新型终端自然交互接口等。

4. 普适计算环境:普适计算模式、主动服务,嵌入式系统、情境感知,智能空间及物联网等。

代表性研究成果

可视媒体智能处理

研究可视媒体的大规模组织与表示、建模与理解、编辑与合成,在可视媒体智能处理理论与方法方面取得一系列重要成果:1)提出了可视媒体显著性检测和图表示模型PatchNet等结构抽取与表示方法;2)提出了基于草图、激光点云和RGB-D等数据的可视媒体几何重建与建模方法;3)提出了一系列可视媒体智能合成方法:可视媒体蒙太奇、一致性合成、艺术肖像画生成以及三维场景合成等;4)研发了基于元算子融合和统一计算图的深度学习框架——计图(Jittor),构建起了涵盖计算机视觉、图形学、自然语言大模型等领域的丰富模型库,全面适配国产AI芯片和操作系统,实现了国产AI大模型在国产AI芯片上的高效推理。在ACM/IEEE Transactions、ACM SIGGRAPH (Asia)/CVPR/ICCV等国外重要刊物和国际会议上发表论文100余篇授权专利50多项,获得国家自然科学二等奖、国家技术发明二等奖和国家科技进步二等奖各一项。团队成员先后还获得2019年中国计算机学会王选奖、第三届全国创新争先奖和、首届“祖冲之”奖——人工智能前沿创新奖;培养了1名全国百篇优博、5名中国计算机学会优博;和腾讯公司、华为公司等国内知名企业开展了密切的校企合作,设立并建设了“清华大学-腾讯互联网创新技术联合实验室”,研究成果在国家重大工程,以及企业的若干软件产品、系统中得到应用。

多媒体大数据分析与智能

研究跨空间大数据网络表征、分析与推理,以及多媒体智能与网络计算,取得如下主要研究成果:1)建立了三元空间大数据关联表征理论方法,提出首个拓扑结构保持的网络深层表征模型,发布世界首个自动图机器学习框架以及开源工具AutoGL;2)提出鲁棒可解释的视频

大数据深层表征理论与推理方法,建立了数据驱动和知识指导相结合的视频大数据高效表达与深度分析新模式;3)揭示了媒体、用户和网络的相互作用机理,建立了微观动态适配、宏观跨域协同的网络资源计算理论模型,为发展多媒体网络资源计算基础理论做出了创造性贡献。在IEEE Transactions、ICML、NeurlPS、ACM Multimedia、KDD 等国际知名期刊和会议上发表论文600余篇,专著6本、专利100余项,获ACMMultimedia(2012)、IEEE Transactions on Circuits and Systems for Video Technology (2010、2019)等最佳论文奖11个。研究成果得到了国际同行的泛关注和高度认可,先后获NeurIPS2018自动机器学习挑战赛高校冠军、AAAI

2021国际人工智能元学习挑战赛冠军、NeurlPS2021自动机器学习挑战赛冠军,近年来在国际顶级会议上做Tutorial报告15次,产生了重要国际影响。先后获国家自然科学二等奖2项、省部级奖5项。研究成果在央视国际、阿里腾讯、华为、百度、快手、三星等著名企业实现转化应用。

智能人机交互

聚焦人机间自然高效的信息交换,核心研究其理论体系与关键技术突破。团队创新性提出自然交互意图贝叶斯推理框架,通过构建用户行为模型与交互任务情境双重先验,结合小样本场景下的交互式学习方法,成功破解自然交互中因信息不充分导致的识别低效难题,实现了高噪稀疏多模态数据端侧的高准确度意图识别与交互路径优化。 科研实力方面,团队在计算机学科排名CSRankings(2016-2026年)人机交互(HCI)领域稳居世界第一,累计16次斩获ACM CHI、IEEE VR等领域顶级会议论文奖,彰显了在该领域的国际领先地位。 项目支撑上,团队先后承担多项国家级重点项目,包括“十三五”重点研发项目《人机交互自然性的计算原理》、国家自然科学基金重点项目《人机物三元空间的情境感知与交互优化》,以及“十四五”重点研发项目《面向混合智能的自然人机交互软硬件系统》,为技术创新提供了坚实支撑。 产研融合领域,团队迭代研发“自然高效人机交互技术开发平台NUIX”,累计创新百余项自主知识产权技术,其中近半数已成功转化至终端产品。其核心组件(高准确度手势语义识别、自然语音对话等)性能显著优于国际主流竞品,已成功集成至智能手机及开源鸿蒙(OpenHarmony)操作系统,服务全球逾十亿用户。凭借突出的科研与应用成果,团队先后荣获两项国家科技进步二等奖、四项部级一等奖,充分体现了其技术创新实力与行业影响力。

随着大模型技术的迭代发展,团队进一步深耕人机物融合智能交互方向,提出用户世界模型(Human World Model, HWM)——作为人机物融合环境下的核心计算底座,其核心价值不在于静态罗列数据,而在于精准表征物理环境、任务目标、外显行为、生理特征、认知状态五大维度的因果交互,区别于传统模型实现“主动预判需求”的交互升级。针对HWM构建过程中,感知资源约束下底层弱信号与高层结构化语义的跨层级鸿沟,以及个体差异、情境依赖性等核心挑战,团队提出交互式学习范式,让HWM在与用户的自然交互中,借助各类自然反馈持续迭代优化、“生长”智能。

高真实感三维内容生成与智能语义理解

本研究以虚实融合的智能三维内容生态为研究核心,探索三维视觉理解与生成的关键技术,包括三维场景的语义感知和理解(面向机器人和具身应用),工业生产级数字人的实时生成,以及面向三维内容生态的可灵活编辑内容生成,实现对真实三维空间的精准感知理解与对虚拟三维内容的智能化控制。团队成员获得2018年度吴文俊人工智能自然科学奖一等奖,2017、2018年度世界华人数学家联盟最佳论文奖,中国计算机学会计算机视觉专委会2019年度学术新锐奖,2024年Wiley高引用论文,2024年腾讯犀牛鸟人才计划、2024年中国图学学会优秀博士学位论文、2025年北京图象图形学学会优秀博士论文奖、第17届中国工业与应用数学学会几何设计与计算大会最佳论文等。

结构化数据通用大模型(LDM)

“极数(LimiX)”数据大模型开创性地融合因果统计思想与预训练架构,通过上下文条件掩码训练框架,首次系统性解决了结构化数据中因果关系建模、跨场景泛化与多任务统一的共性难题,为AI处理复杂结构化数据场景建立了新的技术范式,被aigazine等国际媒体评价为“AI领域的破记录进展”“撼动自动数据科学的基础”。该模型作为国内首个、国际领先的结构化数据通用智能基座,成功应用于工业制造业、AI4Science等多个关键领域,通过One-For-All的解决方案显著降低了模型研发与部署成本,为“人工智能+”战略实施提供了自主可控的底层基座支撑,相关成果和进展已得到《新闻联播》、《人民日报》、新华社等权威媒体报道。

泛在智能计算

研究端侧智能计算框架与端侧Agent应用、大模型安全与隐私计算技术,团队成员近5年在计算机学科排名CSRankings移动计算(Mobile Computing)领域名列前茅,多次获得IEEE UIC/HPCC/ICC等国际会议最佳论文等奖励。团队近年来在国家实验室专项项目课题、国家自然科学基金重点项目等资助下,研发了新一代端侧大模型加速推理引擎OmniInfer、端侧智能体OpenOmniBot,大模型密态推理/训练引擎等系统,并在荣耀、阿里、美团、快手、中国电信、航天军事等互联网企业与国家重要部门广泛部署应用,服务用户规模过亿。团队曾获得中国电子学会自然科学一等奖、北京市科技进步一等奖。

智能流媒体(AI-Powered Internet Video Streaming)

研究结合深度学习、大语言模型、多模态大模型的视频编码与网络传输技术。研究团队近年来承担了国家重点研发计划、国家自然科学基金委重点项目,并与多家业内著名公司(华为、腾讯、快手、阿里、淘宝等)深入合作。研究工作在IEEE JSAC、TON、TPDS、TMM、TCSVT、INFOCOM、ACM SIGCOMM、Multimedia、NeurIPS、ICLR、AAAI等国际期刊会议发表论文100余篇,曾获IEEE TCSVT、ACM Multimedia、ACM NOSSDAV等5项国际期刊会议最佳论文/最佳学生论文奖,研究成果获北京市科学技术一等奖(2013)、中国电子学会自然科学一等奖(2015)、中国电子学会技术发明一等奖(2020),并在央视、华为、快手得到大规模应用。

关闭