张敏

副教授

电子邮件 z-m@tsinghua.edu.cn

URL  http://www.thuir.org/group/~mzhang 

电话 010-62792595

 

教育背景

工学学士 (计算机科学与技术), 清华大学, 中国, 1999;

工学博士 (计算机科学与技术), 清华大学, 中国, 2003.

 

社会兼职

“清华—搜狐”搜索技术联合实验室: 副主任 (2007-);

Information Processing and Management (IP&M): 审稿人(2008-);

WSDM 2010-2011,KDD 2010, WWW 2008-2010, EMNLP 2009, IJCNLP 2008: 程序委员会委员 (2008-2011);

AIRS: 程序委员会委员、分领域共主席 (2004-2010);

WICOW 2010: 程序委员会共主席 (2010).

研究领域

信息检索, 用户行为分析, 机器学习

研究概况

我的研究兴趣集中在网络信息检索模型及用户行为分析。在大多数信息检索任务中,用户的需求描述模糊而简短,而文档数据的信息描述空间则非常大且内容复杂。因此,信息检索中的最大问题就是用户查询空间描述的信息与已知文档空间信息表示的不匹配。我的研究工作就是围绕如何有效理解用户需求,挖掘用户行为特征,从网络数据中筛选高质量的信息,改进检索模型展开,力图减小用户需求与信息资源之间的不匹配问题,从而改进信息检索效果。基于这一思路,我们在国家自然科学基金重点项目、青年项目、与“清华—搜狐”搜索技术联合实验室的支持下开展了一系列相关研究,主要研究成果包括:

在信息检索模型与方法的研究方面,我对新信息检索的本质——如何针对用户的检索需求,准确地找到包含新内容的非冗余信息——进行研究,提出了基于查询扩展的文档重构方法、新信息查找中的查询扩展方法、基于选择池的有效信息匹配算法;从文档空间的信息表示的角度,我提出以目标为中心的文档信息重组方法、话题归并与重组方法;针对观点检索与评论倾向性分析问题,我提出将文档的相关性与观点倾向性相融合的产生式模型,将二者放在统一的框架中进行分析。 相关工作分别发表在JIR、SIGIR、CIKM等国际期刊和重要国际学术会议上,并获得国家发明专利授权1项。

此外,从用户角度出发,我们利用搜索引擎海量规模的用户行为数据信息,发挥“用户群体智慧”的作用, 提出了一系列基于用户行为分析的网络信息检索性能改进方法。基于用户行为分析的互联网页面质量评估及垃圾网页识别方法,能够有效地解决垃圾页面识别的普适性和时效性;我提出的搜索引擎性能的自动评价模型,能够解决传统信息检索评价方法中评价集合规模小、更新慢、需要大量人工标注、实时性差等问题,目前已提供中文主流搜索引擎性能评价的每天在线服务;我从用户角度理解用户查询需求,建立用户浏览图模型,评价用户检索结果的满意度;我同时还提出了用户行为的可靠性分析方法,包括点击的可靠性分析算法、用户级别的可靠性评估算法,能够同时对高频查询及稀有查询的可靠性进行有效判断。相关成果发表在JASIST、WWW、CIKM、WSDM等相关研究领域国际著名期刊与会议上,并申请国家发明专利8项,其中已获得4项授权。我的研究成果同时通过“清华—搜狐”搜索技术联合实验室的校企合作平台应用到搜狗搜索引擎中,取得了良好的实际应用效果。

我的部分研究成果展示参见:中文搜索引擎性能自动评价系统——搜索仪平台(http://searche.thuir.cn/)、热点新闻聚类实时服务系统(http://news.thuir.org)、搜狗实验室平台(http://www.sogou.com/labs)。

研究课题

国家自然科学基金重点课题: 下一代信息检索 (2008-2011);

国家自然科学基金: 主题无关的高质量WEB页面预选与检索 (2006-2008);

教育部课题: 国家精品课程信息检索系统 (2007-2008);

“清华-搜狐”联合研究室项目: 搜索引擎改进及用户行为分析 (2007-2013);

微软亚洲研究院合作项目:基于点击数据的搜索引擎评价 (2007).

奖励与荣誉

清华大学青年教师教学优秀奖 (2007).

学术成果

[1] Min Zhang, Xingyao Ye, A generative model to unify topic relevance and lexicon-based sentiment for opinion retrieval, The 31st Annual International ACM SIGIR Conference (SIGIR2008), 20-24 July 2008, Singapore, p411-419.

[2] Canhui Wang, Min Zhang, Shaoping ma, Liyun Ru, Automatic Online News Issue Construction in Web Environment, the 17th International World Wide Web Conference (WWW2008), Beijing, April, 2008, p457-466.

[3] Yiqun Liu, Min Zhang, Liyun Ru, Shaoping Ma. Data Cleansing for Web Information Retrieval using Query Independent Features. Journal of the American Society for Information Science and Technology (JASIST), Volume 58, No. 12, Pages 1884-1898, 2007.

[4] Le Zhao, Min Zhang, Shaoping Ma, The Nature of Novelty Detection, Information Retrieval,vol. 9, No. 5, pp.521-542, 2006.

[5] Rongwei Cen, Yiqun Liu,Min Zhang, Bo Zhou, Liyun Ru, and Shaoping Ma. Exploring Relevance for Clicks. In Proceeding of the 18th ACM Conference on information and Knowledge Management. (CIKM 2009), Nov. 2009. ACM, New York, NY, 1847-1850.

[6] Yiqun Liu, Yijiang Jin, Min Zhang, Shaoping Ma and Liyun Ru. User Browsing Graph: Structure, Evolution and Application. Late breaking result session in Second ACM International Conference on Web Search and Data Mining (WSDM 2009). 2009.2

[7] Canhui Wang, Min Zhang, Liyun Ru, Shaoping Ma, Automatic Online News Topic Ranking Using Media Focus and User Attention Based on Aging Theory, the ACM 17th Conference on Information and Knowledge Management (CIKM 2008), October, 2008, Napa Valley California, USA. pp1033-1042

[8] 张敏,宋睿华,马少平, 基于语义关系查询扩展的文档重构方法, 计算机学报,第27卷,第10期,1395-1401, 2004

[9] Qing Ma, Min Zhang, Ming Zhou, Masaki Murata, and Hitoshi Isahara, Self-Organizing Chinese and Japanese Semantic Maps, International Conference on Computational Linguistics (COLING02). p1-7, August, 2002.Taiwan.

[10]Jianfeng Gao, Min Zhang, Improving Language Model Size Reduction using Better Pruning Criteria. the Association for Computational Linguistics 40th Anniversary Meeting, 2002 (ACL2001). p176-182, July, 2001