高性能计算研究所

以高性能、高并发、大数据处理为特点的新型计算机体系结构已成为现代社会信息处理基础设施的关键基石,高性能计算技术研究所的学科方向即为计算机系统结构,包括高性能计算、大数据处理、网络存储系统、处理器体系结构等。现有教师20人,在相关领域的世界重要学术会议(包括 MICRO,FAST,SC,PPoPP,PLDI, HPDC, EUROSYS, LISA,IPDPS等)及期刊上有大量成果发表,并已获国家科技进步奖一等奖一次、二等奖二次,部级一等奖二次、二等奖三次等多项奖励。

 

主要研究方向

1)面向科学计算以及工程需要的计算机系统

  • 高性能计算软件与工具研发

  • 处理器微体系结构研究

  • 网格计算技术

  • 计算机系统评测技术

2)以数据为中心的计算系统

  • 存储系统

  • 云计算系统

  • 移动计算系统

 

代表性研究成果

 

面向地球系统模式的高性能计算系统

地球系统模式是理解过去气候与环境演变机理、预估未来潜在全球变化情景的重要工具。针对地球系统模式的关键模块——大气模式与天气预报系统,分别研制了面向大规模异构系统的可扩展并行算法以及定制处理器。大气模式核心计算模块的可扩展并行算法在天河-2超级计算机上的测试显示,该算法可有效扩展到6000节点以上;最大测试案例在1.7百万个核上获得77%的并行效率;峰值性能达到1.74PFlops,为大气模拟相关应用有效使用当前主流的超大规模异构计算系统提供了示范。同时研究开发了针对天气预报系统定制的定制处理器设计及其FPGA原型,性能是同工艺通用多核处理器的2.3倍,而功耗仅为其12%,大幅提升了该关键领域应用的计算效能。

相关工作已发表于并行计算领域国际重要会议和期刊(ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming (PPoPP 2013)、IEEE International Parallel & Distributed Processing (IPDPS 2014)和IEEE Transactions on Computers)。

海量信息存储系统及其应用

存储始终是计算机系统的性能瓶颈所在。随着大数据的产生及云存储服务的发展,存储已成为关系到国计民生和国家战略安全的关键信息基础设施之一。在信息存储系统及其关键技术方面开展了大量研究工作,研制出了可扩展高性能海量存储网络系统TH-MSNS及其大规模存储虚拟化软件(分布式虚拟化软件TH-DVSM、带内虚拟化软件TH-AXUM、带外虚拟化软件TH-VSM)、存储并行文件系统Redbud、云存储安全系统Corslet、分级存储系统AIP、闪存文件系统OFSS、面向NVM的分布式存储系统等,在公安、审计、通讯、油田、高校等部门或行业推广应用了百余套,并在包括FAST、MICRO、DSN、IPDPS、MSST、SRDS、ICCD等存储领域重要国际会议和IEEE/ACM Trans.权威国家期刊上发表近百篇学术论文,获国家科技进步二等奖等。

 

云计算与存储系统

云计算环境主要包括云存储系统Morph、虚拟计算系统Nova、软件按需使用系统Desktop2Go等。云存储系统Morph采用面向共享的可自调整适配的云存储系统架构,提出了基于策略定制的主机-集群-数据中心三个层级的扩展方法、与社区共享管控相匹配的多根多版本文件管理方式以及数据的挂载使用机制等,方便了大型企事业单位自建自管云存储系统以及用户本地化即时使用TB、乃至PB级数据的需求。

清华云存储系统架构图

虚拟计算系统Nova旨在突破硬件和软件物理环境的约束,为用户按需提供隔离的、完全可控的虚拟计算环境来满足他们的个性化计算要求。它实现了从“程序适应环境”到“环境适应程序”的转变,体现了云计算以用户为中心的服务理念。

 

清华大学虚拟计算环境Nova系统

Desktop2Go在国际上较早提出运行环境与存储位置相分离的分布式软件架构与云端融合使用模式,基于应用层虚拟化技术,将现有软件转化为网络服务,从而能够有效实现云计算模式与现有桌面软件的兼容,虚拟化引入的性能损失不到1%。

清华大学云计算环境相关技术和系统已经在项目成果已在广东联通、华为、中兴、中石油等20多家企事业单位和中科院、北京大学等50所大陆科研院所以及台湾新竹清华大学得到应用,并被作为特色平台(featured platform)被美国的CloudBook(www.cloudbook.net)网站收录,这是来自中国的唯一系统。

数据密集型计算与处理系统

大数据已经成为科学发现、经济和社会发展的重要工具。与传统计算密集型的科学与工程计算不同,大数据应用多为数据密集型。我们从应用优化、系统软件支持和硬件支持等多个层次开展了研究工作。研制了支持时序图的并行计算系统Chronus;研制了在单机图处理系统GridGraph,在单个服务器结点上的处理性能优于国际流行系统在64个结点上的性能;研制了交互式社交网络分析系统Acolyte,能够对TB级的图进行交互式分析和可视化展现。研制了面向数据密集型计算的定制CPU。相关成果已应用于中国移动、中国联通、捷通华声等公司。在EuroSys,OOPSLA,SC等系统领域重要会议上发表论文多篇。

全过程计算机系统评测

高性能计算机对我国的国防安全与科技进步具有重要意义。国家投入巨资建设高性能计算机,设计建造时间可长达数年。如何保证投入巨资建设的高性能计算机满足用户的需求是一个亟待解决的问题。我们提出并实现了一套对高性能机的设计、实现、部署及验收等各阶段进行全过程评测的方法,包括:在设计阶段对设计方案进行验证和性能模拟及预测;在实现阶段对各环节进行监督和阶段性模块测试,确保系统设计的有效实施;在验收阶段,对硬件及业务系统进行完整的功能和性能测试;在部署阶段,对系统进行周期性体检式测试,确保系统健康。

开发出一整套全过程评测程序,自2004年始至今,已对包括国内民用领域最高性能的若干套百万亿次机、40余个大型高性能计算系统进行评测。所测系统上运行的业务应用涉及电信、公安、石油、气象、制药、教育等重要行业,通过测试避免了巨大损失,尤其对保障我国网络信息安全发挥了重要作用。申请或授权专利7项,并在SC/PPoPP/ICS等并行处理领域国际顶级会议论文发表论文10余篇,获部级科技一等奖两项。