清华大学—搜狐搜索技术联合实验室

 

清华大学(计算机系)-搜狐搜索技术联合实验室由清华大学计算机系智能技术与系统国家重点实验室、软件研究所和搜狐研发中心共同建立。实验室通过“双内循环机制”来保证管理和决策,实验室管委会主任由搜狐公司首席技术官兼搜狗公司首席执行官王小川担任,实验室主任则由清华大学计算机系教授、博士生导师马少平担任。

实验室包括的计算机系研究人员有:

马少平教授,周立柱教授,孙茂松教授,李涓子教授

王建勇副教授,唐杰副教授,张敏副教授

刘奕群助理研究员,金奕江工程师等

清华大学常务副校长何建坤与搜狐公司董事局主席兼首席执行官张朝阳为实验室共同揭牌

实验室成立于2007年4月,在计算机系与搜狐公司的大力支持下,建立了优越的软/硬件实验环境。实验室具有高水平的服务器集群,教育网/公网一体化访问网络,并可以通过光缆专线直接访问搜狗搜索引擎数据资源和实验研究系统。

实验室成立以来,充分发挥清华大学在计算机科学领域的技术优势,结合搜狐公司的产品经验和市场优势,在网络信息检索领域开展了基于自主知识产权的网络信息存储、检索、管理和应用技术方面的研究,在搜索引擎结果排序、垃圾网页识别、搜索性能评价、用户行为分析、用户交互等技术领域取得了显著的进展,并快速完成技术向产品的转化。研究成果也发表在包括WWW、CIKM等相关领域国际顶级会议以及JASIST、JIR等国际期刊上,目前已申请专利十余项,获得授权6项。

实验室同时面向产业界、学术界的前沿研究课题进行了数据研究资源共享的有益尝试,开发的“SogouT”互联网语料库(http://www.sogou.com/labs/),包括1.3亿中文网页和万余个用户查询及标准答案(存储规模近5T),是目前中文互联网研究领域最大的语料库资源。对于中文信息检索、自然语言处理等方面的研究都有较大的推动作用。语料库采取免费方式向国内外研究同行发放,目前已向国内50余家研究机构以及东京大学、纽约大学、新加坡国立大学等国际著名研究机构发放了拷贝。并将应用于国际信息检索领域著名评测NTCIR和CLEF中。