姓名:孙茂松

职称:教授

电话:62781286

邮箱:sms@tsinghua.edu.cn

教育背景

工学学士 (计算机科学与技术), 清华大学, 中国, 1981;

工学硕士 (计算机科学与技术), 清华大学, 中国, 1988;

哲学博士 (计算语言学), 香港城市大学, 香港, 2004.

社会兼职

www.288sb.com: 主任 (2007-2010); 党委书记(2011-);

中国中文信息学会: 副理事长 (2006-);

中文信息学报: 主编 (2007-);

国家自然科学基金委员会: 第十二届专家评审组成员 (2007-);

863重点项目“中文为核心的多语言处理技术”: 总体专家组组长 (2007-);

北京市语言文字工作委员会专家委员会: 副主任 (2008-);

国务院学位委员会第六届学科评议组计算机科学与技术组: 成员 (2009-);

ACM 中国理事会: 理事(2010-).

研究领域

自然语言处理, 中文信息处理

信息检索, Web智能, 社会计算

研究概况

我的研究方向为自然语言理解、中文信息处理、Web智能和社会计算。作为项目负责人,我主持973二级课题、863重大专项二级课题和探索类课题、国家自然科学基金重点项目和面上项目、国际合作项目等约20项,主持信息处理ISO国际标准2项。在国际刊物、国际会议、国内核心刊物上,我共发表论文约130篇,Google Scholar总引用数约1,400次。我获国家发明专利4项,日本专利1项。我曾十余次担任相关领域国际会议和全国性学术会议大会主席或程序委员会主席。我现任或曾任863重点项目“中文为核心的多语言处理技术”总体专家组组长,《中文信息学报》 (计算机类全国核心期刊)主编,Journal of Computer Science and Technology、《中国计算机学会通讯》、《计算机研究与发展》、《计算机科学与探索》、《计算机教育》、《语言文字应用》、《南开语言学刊》、《澳门语言学刊》等期刊编委,ACL SIGHAN理事会理事等职务。

我的研究重点之一是中文信息处理最为基础性的课题:汉语自动分词。我提出了若干重要概念,如“最大交集型歧义切分字段”、“真切分歧义与伪切分歧义”、“全局统计量与局部统计量”,并在大规模汉语语料库上对“最大交集型歧义切分字段”进行了穷尽式考察,给出了有效的处理策略,并以此为基础,研制出一个集自动分词、词性标注、专名识别和新词识别于一体的汉语分析软件CSegTag,应用于清华与欧盟近10个国家合作的FP6项目“超对等语义搜索引擎”中。我还就与汉语分词相关联的若干问题进行了研究,如探讨了中文文本自动分类的基本单元是基于字的N-gram还是基于词这个问题,初步得到一个重要结论:在分类粒度较粗的条件下,基于字的Bigram的分类性能和基于词的分类性能几乎相当。在2006年全国“SEWM中文Web信息检索评测”中,我课题组集成相关成果的网页自动分类算法给出的结果在综合成绩中排名第一。

最近,我提出了“基于极大规模自然标注语料库的自然语言处理”的学术思想,其基本想法是系统地利用用户在Web环境下实现相关应用任务过程中不经意输入或建立的各类信息,以有效提高自然语言处理系统在开放环境下的处理能力(包括对Web的适应能力)。自然标注包括两类,一类是显式的,如各种标点、Anchor文本、查询日志、博客标签、维基百科等;一类是隐式的,如各种语言模板。我们的一些研究初步验证了这个想法的合理性,如我们发现:1)海量文本中的标点信息能够对汉语分词提供有价值的帮助(我们独立完成的相关成果2009年发表于国际顶级期刊《计算语言学》上,这是该刊创办35年来国内大学和研究所为主要单位发表的第一篇论文);2)根据博客用户提供的海量标签训练出的标签自动生成模型在技术上也是可行的(我们参加了ECML/PKDD 2009的公开评测任务Discovery Challenge,在将标签推荐系统放入真实应用中让用户来进行盲测的任务三中取得了第二名的成绩)。

奖励与荣誉

国家语言文字工作委员会: 全国语言文字先进工作者 (2007).

学术成果

[1] Wei Qiao, Maosong Sun, Wolfgang Menzel. Chinese word frequency approximation based on multitype corpora. Journal of Quantitative Linguistics, vol. 17, no. 2, pp. 142-166, 2010.

[2] Zhongguo Li, Maosong Sun. Punctuation as implicit annotations for Chinese word segmentation, Computational Linguistics, vol. 35, no. 4, pp. 505-512, 2009.

[3] Xinghua Fan, Maosong Sun. Knowledge representation and reasoning based on entity and relation propagation diagram/tree. Intell. Data Anal. Vol. 10, no. 1, pp. 81-102, 2006.

[4] Maosong Sun. LFG for Chinese: Issues of representation and computation. Journal of Chinese Linguistics, Monograph 19, pp. 129-151, UC Berkeley Publisher, 2006.

[5] Yabin Zheng, Zhiyuan Liu, Maosong Sun, Liyun Ru, Yang Zhang. Incorporating user behaviors in new word detection. Proc. 21st International Joint Conference on Artificial Intelligence (IJCAI-09), Pasadena, USA, 2009, pp. 2101-2106.

[6] Zhiyuan Liu, Peng Li, Yabin Zheng, Maosong Sun. Clustering to find exemplar terms for keyphrase extraction. Proc. Conference on Empirical Methods in Natural Language Processing(EMNLP-09), Singapore, 2009, pp. 257-266.

[7] Jingyang Li, Maosong Sun. Scalable term selection for text categorization. Proc. 2007 Empirical Methods in Natural Language Processing (EMNLP-07), Czech Republic, 2007, pp. 774-782.

[8] Jingyang Li, Maosong Sun, Xian Zhang. A comparison and semi-quantitative analysis of words and character-bigrams as features in Chinese text categorization. Proc. 44th Annual Meeting of the Association for Computational Linguistics and 21st International Conference on computational Linguistics (44th ACL and 21st COLING), Sydney, Australia, 2006, pp. 17-21.

[9] Xue Dejun, Maosong Sun. Eliminating high-degree biased character bigrams for dimensionality reduction in Chinese text categorization. Proc. European Conference on Information Retrieval (ECIR-04), Sunderland, UK, 2004, pp. 197-208.

[10] Xiao Luo, Maosong Sun, Benjamin K. Tsou: Covering ambiguity resolution in Chinese word segmentation based on contextual information. Proc. 19th International Conference on Computational Linguistics (19th COLING), Taipei, China, pp. 598-604.

[11] Maosong Sun, Dayang Shen, Benjamin K. Tsou. Chinese word segmentation without using lexicon and hand-crafted training data. Proc. 36th Annual Meeting of the Association for Computational Linguistics and 17th International conference on Computational linguistics (36th ACL and 17th COLING), Montreal, Canada, 1998, pp. 1265-1271.

[12] Maosong Sun, Dayang Shen, Changning Huang. CSeg&Tagl.0: A practical word segmenter and POS tagger for Chinese texts. Proc. 5th Applied Natural Language Processing Conference (ANLP-97) , Washington, USA, 1997, pp. 119-126.