孙茂松:清华大学计算机系教授、人工智能研究院常务副院长


发布时间: 2024/4/18 被阅览数: 41 次
 

孙茂松,清华大学计算机系教授、博士生导师、清华大学人工智能研究院常务副院长、基础模型研究中心首席科学家。国际计算语言学协会会士,中国人工智能学会会士,中国中文信息学会会士。主要研究领域为自然语言处理、人工智能、中文信息处理、机器学习和计算教育学。国家973计划项目首席科学家,国家社会科学基金重大项目首席专家。享受国务院政府特殊津贴专家。
 


 
部分研究概况:

作为项目负责人或课题负责人,主持或参加国家973项目、国家863重大专项项目、国家社科基金重大项目、国家自然科学基金重点项目和面上项目以及国际合作项目等20余项。

主持并成功研制语言信息处理相关ISO国际标准2项,如2010年底正式发布了适用于世界上任何语言的国际标准ISO 24614-1《语言资源管理——书面文本的词切分:基本概念与通用原则》。这是继1982年《汉语拼音方案》成为ISO-7098国际标准后,中国大陆学者牵头制订的语言内容处理领域第二个ISO国际标准。
 
孙茂松的早期研究重点之一是中文信息处理最为基础性的课题:汉语自动分词。他提出了若干重要概念。并研制出一个集自动分词、词性标注、专名识别和新词识别于一体的汉语分析软件CSegTag,应用于清华与欧盟近10个国家合作的FP6项目“超对等语义搜索引擎”中。

孙茂松率领团队研制了新浪微博“围脖关键词”应用,可通过高质量自动抽取关键词语并构造用户个性化“词云”,实时分析在线社交媒体用户的属性与兴趣,在当时微博工具类1068个应用中排名第三;

孙茂松提出了“基于极大规模自然标注语料库的自然语言处理”的学术思想。

孙茂松在清华大学的战略部署下率领团队设计并实现了中国第一个中文大规模开放在线课程平台“学堂在线”,目前已经发展成为全球用户规模第二大的慕课平台,并成为联合国教科文组织(UNESCO)国际工程教育中心(ICEE)的在线教育平台。

孙茂松领衔研制了人工智能中国古典诗词写作系统“九歌”,为全球用户AI写作诗词,取得了较广泛的社会效益。这也是中国较早的AIGC(人工智能生成内容)深入研究。
 
2012年以来,孙茂松在全球范围内蓬勃兴起的深度学习(Deep Learning)范式下系统性地开展了一系列前沿研究,内容涵盖大规模结构化知识图表示学习基础方法、预训练语言模型乃至大模型等,形成了有一定国际影响力的成果。据Gitstar Ranking统计数据(https://gitstar-ranking.com/organizations),基于孙茂松研究团队核心成果的开源项目THUNLP(https://github.com/thunlp)在GitHub上获得了近8万个星标(Star),机构排名居全球高校前列,得到了学术界与工业界较为广泛的关注。如其中一个针对知识图谱嵌入及其与预训练语言模型结合的典型工具包OpenSKL(包括OpenKE、ERNIE、OpenNE、OpenNRE四个工具)在GitHub上星标逾1万个,同时在我国新一代人工智能开源开放平台OpenI启智平台上开源,支持我国开源建设(https://openi.pcl.ac.cn/TsinghuaNLP/)。

     


上两条同类新闻: 项目:高层进修  
  • 董煜:清华大学国家高端智库研究员
  • 北极光创投总经理:邓锋

  •