专题首页 > 2007学科发展研究分述
 
计算机科学技术学科发展研究报告2006(简本)

2007年03月18日

 

  郑纬民,张广艳,薛瑞尼

清华大学计算机科学与技术系,北京 100084

当今社会正处于信息时代和知识经济时代,计算机科学技术的发展越来越深入到国民生活的方方面面。恩格斯说过:生产的需要比十所大学还能促进科学的发展。人类生产生活的开展对计算机能力不断提出更高要求,一个明显的例子是一些大规模问题使得科学家只有借助计算机才能发现其中的科学规律(如生物信息学)。需求的发展不断推动计算机科学技术向前发展,一部分计算机科学技术的前进(比如计算能力)又对其它相对滞后的计算机科学技术(比如存储能力)发出新的呼唤。从布尔逻辑代数和图灵机等计算机的最基本理论到CPU芯片的诞生和以Web为代表的Internet的迅猛发展,计算机科学技术的发展史就是一部“需求——前进”的循环演绎。

作为计算机系统的核心部件,CPU是计算机技术发展过程中一个永远的话题。自上世纪70年代末以来,CPU的集成度和复杂度就在摩尔定律的驱动下一路高歌,经历了8位到16位,16位到32位,32位到64位的推进,经历了顺序执行到乱序执行,乱序执行到流水线、流水线到超标量、超标量到对称多处理,对称多处理到多核的演化,见证了一个又一个划时代技术的诞生和成熟。随着晶体管集成度越来越高、频率和计算速度越来越快,芯片的功耗问题、晶体管的封装、芯片的蚀刻等越来越难以处理。这些因素使得摩尔定律本身的发展及其对处理器的影响发生了一些深刻的变化:摩尔定律指出的发展趋势已经由原来的1.5年一代变为2-3年一代。这是因为,一方面由于程序本身的限制,指令级并行度开发潜力有限,现在通过指令级并行已经很难取得突破性的加速比;其次流水线级别很难继续细分,否则由此带来的设计/验证/测试的复杂性和预测失效导致的开销不可忽略;而且随着集成度的不断增加,功耗问题已经成为现代处理器面临的最严峻的问题之一。学术界和工业界对于目前CPU设计遇到的困难提出了很多解决办法,典型的如开发线程级粗粒度的并行性(TLP),主要有传统多线程、SMTCMP技术,其中CMP技术被认为是今后处理器发展的主要方向,2006年各大芯片厂商纷纷发布自己的多核产品。随着多核处理器的逐渐普及,并行计算开始向桌面计算机,正是“旧时王谢堂前燕,飞入寻常百姓家”。

高性能计算向来被看作是国家综合实力的体现,因此一直是兵家必争之地。2002年日本推出地球模拟器(Earth Simulator)堪称新世纪MPP并行机发展的里程碑,两度蝉联Top500冠军。随后美国IBM公司推出了蓝色基因(BlueGene/L),处理器数高达13万个,是新一代高性能计算机的代表。我国已成功研制银河、深腾、曙光、神威等具有国际影响力的高性能计算机,国防科技大学、联想集团、中科院计算所和江南计算所等研究机构在高性能计算机的研制上作出了积极的探索,积累了丰富的经验。但我们需要清醒地认识到我国目前的水平与美、日等国的差距仍然不小。

用于计算科学和商业应用的计算,对于传统超级计算机来说是高成本低收益的。随着现代技术的发展和各种计算机部件的商品化,并行计算由使用传统专用超级计算机平台,转向了使用廉价、通用目的的以单处理器或多处理器的PC机或工作站为部件松散藕合的集群系统。

有三种发展趋势推动了集群计算的发展,而集群计算的发展又加剧了这三种趋势。这三种趋势分别是:高性能微处理器、高速网络和高性能分布计算的标准工具。近年来,微处理器性能不断提高,尤其是多核处理器的普及必然会对集群系统扩展性方面产生深远的影响。在高速网络方面,在传统Ethernet网络带宽不断提高的同时,光纤网络、Myrinet等新的网络技术不断出现,尤其是Infiniband网络技术的出现开辟了高速网络通信的新纪元。

高性能计算的另一个发展趋势就是向高效能计算转变。超大规模系统的计算能力固然很强,但如何管理调度庞大的资源集合,如何充分发挥每个部件的工作能力,如何降低系统耗能都是亟待解决的问题。

集群计算通常是把同一地点的、通常是同构的计算资源协同起来提供更高的处理能力,在规模上、地域上会受到一定限制。网格计算通过高速网络连接并集成地理上分布、异构的各种资源,并将它们转化成一种随处可得的、可靠的、标准的、经济的计算能力,实现跨地域的、分布的、高性能联合的协同计算,为用户提供一体化的高性能计算服务、信息处理服务和决策支持服务,充分发挥网络资源的综合效能。网格计算诞生10余年来,受到各国政府的重视,如中国国家网格计划(CNGrid)、中国教育科研网格计划(ChinaGrid)、美国CyberInfrastructure计划和欧盟CoreGRID计划网格等。网格正在成为新一代网络资源共享的首选技术。

互联网直接促成了第三次技术革命,使人类步入信息时代。可以毫不夸张地说,互联网是信息时代的支柱,它在社会生活中所扮演着至关重要的角色。然而到上世纪九十年代末期,传统的计算机网络理论在面临网络流量的高度突发性和自相似特性,大规模网络系统的复杂性和可控性,网络可信性等问题面前显得越来越无能为力。这是下一代互联网络发展中面临的基本问题。IPv6的推广,P2P技术的流行,网格计算的膨胀以及移动计算的增长都给下一代互联网提出了艰巨的任务。同时由于信息技术的广泛渗透,互联网络的安全性、实时性、可管理性、可用性和可扩展性等问题也迫切地需要找到良好的解决方案。另外,互联网的存在与发展不是孤立的,它是众多新一代计算机技术前进的直接推动力。

很难想象,如果网络没有搜索引擎,世界将会怎样?从浩如烟海的信息中定位用户感兴趣的资料几乎是不可能的,因此信息搜索技术是随着网络技术的盛行而诞生的。搜索引擎是信息检索技术中影响力最大的,它是网络生存的必需品,是资源定位的利器。搜索引擎一方面蕴含着丰富的技术创新,另一方面它也是巨大经济利润的来源。然而传统信息检索技术正面临着严峻的考验。随着信息技术的进步与互联网络的飞速发展,网络上的信息资源呈现爆炸性增长,用户要找到需要的信息越来越难,常见的搜索引擎很难精确返回用户需要的资料,这样用户进行二次过滤的工作量就越来越大。搜索技术正在向一个新的方向发展,那就是“更准、更全、更新、更快、更方便、更个性”。搜索引擎将不再仅仅局限于页面搜索,而进一步的细化并向专业方向发展,如各大搜索巨头都纷纷推出了MP3、图片搜索等特色服务,同时桌面搜索、地图搜索等专业搜索方面也成为各大公司争夺市场的新焦点。

全球信息化程度日益提高,信息安全的重要性与紧迫性日益凸显,已上升为国家的战略性问题。世界主要工业国家和地区立足于全球化趋势,从国家安全的高度和国际安全关系的大局着眼,制定各自的信息安全战略,全面展开国家信息安全保障体系的建设。我国政府也高度重视信息安全,国家信息化领导小组发布的《关于加强信息安全保障工作的意见》,明确提出了我国今后信息安全建设和发展的根本性指导思想。信息安全领域涉及到许多基础理论的研究工作,如密码学、安全协议、访问控制、入侵检测、可信性计算、网络应急和安全评估等。信息安全技术的成熟与否直接关系着下一代互联网正常部署运行的成败。

关系型数据库经过近40年的发展,在理论研究和工业产品领域都取得了丰硕的成果,在计算机应用于国民生产过程中立下了汗马功劳。然而信息资源的爆炸性增长和记录数据的多样性对数据库技术提出了越来越高的要求,如如何对Web信息进行数据挖掘,获得针对特定用户群的准确结果(如垂直搜索,专业搜索等);如何高效记录查询分析海量流式数据(如传感器图像、金融股票资讯、天文数据等);如何有效处理具有时空属性的数据(如移动计算);如何处理新兴应用数据(如网格、P2PWeb Service、嵌入式系统微型数据库等)。数据库技术是计算机应用技术的基础,顺利地解决了这些问题将极大地拓展数据库的应用领域。

网络存储成为继计算机和互联网之后的信息技术领域的第三次革新浪潮。存储区域网络(SAN)以网络架构为基础,可扩展性好,能够提供灵活的计算组织环境,实现存储资源的合理配置和有效利用。用户不再独立维护固定大小的存储设备,不再需要自己扩展存储容量。存储虚拟化是网络存储的核心,它具有“按需分配”的能力,在用户看来存储池的容量无限大。这样既可以极大的节约管理费用,也可以充分发挥异构存储设备的协作能力。

多媒体计算技术是人机交互中重要的一环,计算机的亲和性和家庭普及应用归功于多媒体技术的发展。多媒体数据一个典型的特点就是数据量大,“对带宽和存储空间的需求速度超过了带宽和存储容量现有的增长速度”是一对长期存在的矛盾。因此力图弥补二者间鸿沟的音频视频的编解码技术也就贯穿着多媒体技术的发展历程。随着处理器运算能力的不断提升,存储系统访问时延的不断减小,编解码技术的不断改善,多媒体已经广泛的应用在生活中的各个方面。多媒体技术的普及也衍生出一些新的问题,如多媒体数据的存储、访问和检索以及多媒体数据中的知识发现等。在多媒体领域,需求和技术进步之间的作用和反作用体现的尤为明显,新式媒体设备的相继出现,如传感器网络、高清晰数字电视、3D视频等,使计算机的易用性进一步改善,影响着人们的生活方式。

计算机和通信技术的迅速发展,使计算机正以多种形态存在于我们的生活空间并发挥着处理、存储和通信的作用。普适计算技术研究如何使计算和通信无所不在并成为普通用户都能方便享用的服务。使用计算机的人也由最初的专业人员转向各个行业的普通人,良好的人机界面增强了计算机的表达能力,降低了非专业人员使用计算机的难度,从而能充分发挥计算机的存储和计算优势。这种“人机和谐合一”目标的实现遇到了各种各样的困难。首先,普适计算技术跨越多个研究领域,包括移动计算、嵌入式系统、自然人机交互、软件结构等;其次,普适计算技术需要实现上下文感知和应用无缝迁移。这些问题目前都缺乏良好的解决方案。

随着通信技术、嵌入式计算技术和传感器技术的飞速发展和日益成熟,人们研制出了各种具有感知能力、计算能力和通信能力的微型传感器。由这些微型传感器构成的无线传感器网络引起了人们的极大关注。无线传感器网络综合了传感器计术、嵌入式计算技术、分布式信息处理技术和通信技术,能够协作地实时监测、感知、采集网络分布区域内的各种环境或监测对象的信息,并对这些信息进行处理,获得详尽准确的信息,传送到需要这些信息的用户。无线传感器网络可以使人们在任何时间、地点和任何环境条件下获取大量详实可靠的信息。因此,这种网络系统可以被广泛地应用于国防军事、国家安全、环境监测、交通管理、医疗卫生、制造业、反恐抗灾等领域。传感器网络是信息感知和采集的一场革命,在新一代网络中具有关键作用。美国《商业周刊》认为传感器网络是全球未来四大高技术产业之一,是21世纪世界最具有影响力的21项技术之一。MIT新技术评论认为,传感器网络是改变世界的十大新技术之一。

虚拟现实(Virtual Reality,简称VR)技术是一种以计算机技术为核心、多学科交叉融合的信息技术,能够基于可计算信息生成逼真的视、听、触觉一体化的特定范围的虚拟环境(Virtual Environment,简称VE),用户借助必要的设备以自然的方式与虚拟环境中的对象进行交互作用和相互影响,从而产生亲临等同真实环境的感受和体验。虚拟现实技术涉及图形图像、人机交互、仿真建模、数字媒体、计算视觉、模式识别、信号处理、网络通信、人工智能、体系结构、信息安全、人机功效、软件工程、数据库技术等方面,在国防、工业、科研、教育、娱乐和体育等行业具有广泛的应用。增强现实(Augmented Reality,简称AR)技术是虚拟现实技术的进一步拓展和重要组成部分,可以借助必要的设备使计算机生成的虚拟对象(Virtual Object,简称VO)与客观存在的真实环境(Real Environment,简称RE)共存于同一个增强现实系统中,从感受和体验效果上给用户呈现出虚拟对象与真实环境融为一体的增强现实环境,扩充和增强用户对真实环境的感知。增强现实技术具有虚实结合、实时交互、三维注册的特点。

人工智能的研究随着计算机的诞生而诞生,由于人类自身对智能认识的局限,在50多年的发展演化过程中,人工智能经历了其它技术所没有的起伏变化。但人工智能研究一直在前进,并不断取得一些引人注目的成果。比如,自然语言机器翻译,利用计算机证明数学定理,计算机下棋并战胜世界国际象棋大师,机器人登上了火星,许多商用计算机系统具有听说的能力,等等。知识表示,自动推理,机器学习等领域在将来会发挥越来越重要的作用。

1956年第一个操作系统在IBM704计算机上出现以来,计算机才开始从试验室里科学家的计算工具转变为普通用户可以使用的实用工具。进而,随着各类计算机硬件、人机交互技术和网络技术的迅速发展和广泛普及,几乎所有的数字计算和通讯设备中无一例外的使用了各式各样的操作系统。近年来随着在高性能计算的推动下,以Linux为代表的一批开源操作系统在大规模并行计算领域占据了绝对领导地位。同时随着处理器体系结构的不断发展,操作系统也面临着各种新的挑战。

软件在当前的计算机系统中无所不在,其需求愈来愈多,复杂度愈来愈高,可用性要求愈来愈强。如何高效地开发和生产可靠、可信的软件,是软件领域一直必须面对的问题。科学家们提出的“软件工程”的概念,希望通过系统化、规范化、数量化等工程原则和方法来实现复杂软件系统的开发和维护。另外,从技术层面来讲,软件测试与形式化验证技术有利于保证计算机系统尤其是软件系统的可靠性,比较显著地提高软件质量。

纵观全世界计算机科学技术的发展趋势和应用情况,美、日等世界强国依然强悍地占据着领跑位置。中国的计算机科学技术虽然取得了迅速的发展,但还整体落后于发达国家。由于计算机科学技术涉及的具体领域较多,本文将结合处理器设计、高性能计算、下一代互联网络、数据库、搜索引擎等有代表性的主题,来讨论计算机科学技术的发展情况。

Summary on the Progress in Computer Science and Technology

Weimin Zheng, Guangyan Zhang, Ruini Xue

Department of Computer Science and Technology,

Tsinghua University, Beijing, 100084

Abstract:The advances in computer science and technology have a great influence on our daily life. As the base of information age, computer science and technology is going ahead at a high speed and keeps changing everything much faster than expectation. The technologies listed below generally depict the hot areas in the last year.

Moore’s law is slowing down after nearly 40 years’ fast running. This is the result of several facts. Firstly, instruction level parallelism can not deliver dramatic speedup as before. Secondly, it is difficult to split the pipeline into much more stages. Thirdly, the increase of integration density means high power consumption, which has become the most serious obstacle of high performance microprocessor design. Instead of building more complex chips, researchers turn to develop coarse grain thread level parallelism. Multi-core chip architecture is becoming the mainstream solution for next generation microprocessor chips. Many chip companies have released their new multi-core products this year. Multi-core architectures present new opportunities as well as challenges to software that will run on computer systems built up on these multi-core chips. As multi-core processor-based systems evolve from dual-, four-, eight, to large many-core systems, the key to unleashing significant performance enhancements that multi-core architectures offer is software technology.

High performance computing is regarded as the representative of a nation’s power, thus it’s always the most intense competition field. Earth Simulator created in 2002 by Japan stood on the top of the Top500 list for nearly two years, and then BlueGene/L with 130 thousand processors from USA replaced it from then on. China has done lost of pioneer research in this field, for example, NUDT’s YH series, Lenovo’s ShenTeng and ICT’s Dawning. It’s too expensive to use traditional parallel computing in computing science and commercial business, thus cluster becomes the first choice. Due to its high performance/cost ratio, cluster is widely spread. As the system scale is get larger and larger, power consumption is more and more important to the system design. Now, high productivity computing is considered to be much more significant than high performance computing.

Internet triggers the third technology revolution, which makes the information society a reality. Internet is the most complicated system built by human beings, and is becoming the infrastructure of the whole world. However, the existing theories are experiencing tough times when facing the new situations of the web, such as high burst network flow and self similarity, complexity and management of large scale network, creditability and so on. These are the basic problems for the next generation Internet. Besides these, IPv6, P2P, Grid computing and mobile computing also raise new challenges.

Search engine is the key component of Internet applications. It’s impossible to image how the world would be if there were no search engines. By the end of year 2005, there were about 200 billion web pages, and about 6~8 billion pages were indexed by Google. Search engine is the main tool to locate resources in the web. However, as the number of web pages grows, the users would have a bad experience to select what they are really interested in from the huge result set. To be more precise, more complete, more updated, faster, more convenient and more personalizable is the trend of next generation search engine.

The growing market for networked storage is a result of the exploding demand for storage capacity in our increasingly internet-dependent world and its tight labor market. Storage area networks (SAN) and network attached storage (NAS) are two proven approaches to networking storage. Technically, including a file system in a storage subsystem differentiates NAS, which has one, from san, which doesn’t. In practice, however, it is often NAS’s close association with Ethernet network hardware and with fiber channel network hardware that has a greater effect on a user’s purchasing decisions.

Grid computing is invented to be the new resource share technology. Grid is a type of parallel and distributed system that enables the sharing, selection, and aggregation of geographically distributed “autonomous” resources dynamically at runtime depending on their availability, capability, performance, cost, and users’ quality-of-service requirements. Grids aim at exploiting synergies that result from cooperation-ability to share and aggregate distributed computational capabilities and deliver them as service.

Recent advances in sensor, micro-electro-mechanical system, wireless communications and distributed signal processing technology have enabled the development of low-cost, low-power, multifunctional sensor nodes, which are small in size and communicate with each other in short distances. These tiny sensor nodes, which consist of sensing, data processing, and communicating components, result in the idea of sensor networks based on collaborative effort of a large number of nodes. Sensor network is reported as one of the most influential technology in 21st century.

Augmented Reality is a growing area in virtual reality research. The world environment around us provides a wealth of information that is difficult to duplicate in a computer. This is evidenced by the worlds used in virtual environments. Either these worlds are very simplistic such as the environments created for immersive entertainment and games, or the system that can create a more realistic environment has a million dollar price tag such as flight simulators. An augmented reality system generates a composite view for the user. It is a combination of the real scene viewed by the user and a virtual scene generated by the computer that augments the scene with additional information.

It comes to a new era of the information age, which means both opportunities and challenges. In contrast with the foreign counterparts, we’re still fallen behind in lots of areas. All domestic researchers should contribute hard to make progress.

中国科学技术协会 版权所有 1998-2006 Tel:010-68571875 京ICP备05038051号


中国科学技术协会办公厅 主办 地址:北京市海淀区复兴路3号 邮编:100863


中国科协信息中心 技术支持 地址:北京市海淀区学院南路86号 邮编:100081