晓木虫
学术数据库客户端

百亿亿次超级计算机

 找回密码
 注册会员

QQ登录

微信登录

百亿亿次超级计算机

跳转到指定楼层
百亿亿次超级计算机(150119)


闵应骅


最近喜讯,由国防科技大学计算机学院研制的我国首台千万亿次超级计算机系统--天河一号获得2014年度国家科技进步奖特等奖。本人在博客中已经多次谈到超级计算机,并对国防科大团队表示祝贺。现在再来一次。


媒体报道说:“当今世界,超级计算机被视为高技术的战略制高点,是衡量一个国家综合国力的标志,西方大国不惜投入巨资进行研制与开发应用,竞争十分激烈。”天河世界第一,国人无不欢呼。天河二号峰值计算速度每秒5.49亿亿次,又第二次登上了世界第一的宝座。“预计中国的天河三号计算机的计算速度将达到一百亿亿次的速度!100%国产化、绝对称霸世界任何超级计算机。”国人真是热火朝天,但似乎冷静不足。


正好,本月IEEE Spectrum发表美国人的一篇文章,题目是:“何时我们能有百亿亿次超级计算机?”,副标题是:“如果我们想得对,那是2023年;如果我们发了疯,那是明天。”对于我们了解美国是怎么考虑超级计算机至少有参考价值。


建造每秒100亿亿次浮点运算计算机主要要解决或者改善四个问题:


1.新的体系结构,能够组合几万个CPU和基于图形处理器的加速器。其核心问题是存储器和CPU、GPU之间数据交换的问题。绝不是造一个大的集中的存储器,让大家都去存取,而应该是尽可能地放在CPU、GPU的附近,提高存取速度。


2.功耗。工程师要处理从超级计算机存储器到处理器之间移动数据所需的能量损耗。运行这种超级计算机所需的花费和能量实在太大。如果按照现在的路子走下去,一个百亿亿次计算机需要一个十亿瓦的核发电厂为它供电。


3.软件。软件开发者必须研究如何为新的超级计算机写程序。几万个CPU,你启动了多少?如果用上一个或几个,根本就用不着超级计算机。希望为一个程序用上几千上万个,这个程序怎么编就成其为一个大问题。


4.容错。大量的元件蕴藏着硬件失效的危险。IBM的蓝色基因Q超级计算机失效间的平均时间是3.5-7天,对百亿亿次计算机可能就缩短到30分钟。这么短的运行时间很难完成复杂的模拟或其他应用。能够自动重启的软件可以帮助超级计算机从某些硬件差错中恢复。这就是硬件出来问题,靠软件来弥补。可重新启动继续工作和重新启动一切重来是完全不同的,技术上实现的难度差别很大。


克雷(Cray)公司高级副总裁和技术总监SteveScott说:在某种程度上,百亿亿次超级计算机何时出现决定于国家愿意花多少钱。你可以明天就建造一个,但那除非你发疯了,因为美国政府希望建造费用约2亿美元,能耗在2-3千万瓦百亿亿次超级计算机。在美国国家实验室,1千万瓦电费每年要花费100万美元。美国能源部最近宣布将于2017年开始投资3.25亿美元造一对超级计算机,称之为Summit和Sierra,性能达到百亿亿次计算机的1/10,由IBM,Mellanox, Nvidia等公司开发。Summit和Sierra的新体系结构是堆砌存储器于Nvidia GPU和IBM CPU附近,以最小化从存储器移动数据到处理器的能量消耗。其他技术譬如硅光子学技术,在系统中用激光提供低功率的数据传输。除了Summit和Sierra之外,美国能源部已经附加了1亿美元投资,为这种超级计算机做准备,但只投向用得起这种机器的国家实验室。不过,它可以被更多其他人使用。


我们国家经费不是问题,存在美国就有上万亿美元,但是,光为了一个“世界第一”,赢个标志,好像不值得。还是要从应用上想办法。大部分商品是先有应用需求,再去开发产品;而超级计算机,常常是先有机器,然后去找应用。最近说可以预测PM2.5,我怀疑,低于万亿亿次的计算机就不能预测了吗?有人很好奇,如果有了百亿亿次的机器,千万亿次的计算机该有多小!它能放在包里或者办公桌下面吗?如果那样,一般研究生做不了的研究也就可以做了。这也许是美好的愿望吧!

百亿亿次超级计算机
论坛有你更精彩!
大家都不容易!
以后多分享一些这样的有价值的帖子啊
大家都不容易!
大家都不容易!
好东西一定要看看!
大家都不容易!
大家都不容易!
论坛有你更精彩!
谢谢您的分享!
以后多分享一些这样的有价值的帖子啊
好东西一定要看看!
大家都不容易!
您需要登录后才可以回帖 登录 | 注册会员

本版积分规则  | 请遵守晓木虫管理条例,不得违反国家法律法规

返回顶部