1计算机发展简史
1.1 一阶段(1946~1957)
电子管计算机
- 电子管
- 第一代计算机"ENIAC"
世界上第一台电子计算机"ENIAC"于1946年2月14日在美国宾夕法尼亚大学诞生,美国人莫克利(JohnW.Mauchly)和艾克特(J.PresperEckert)发明,主要是有大量的电子管组成,主用于科学计算。
主要特点: - 以电子管作为元器件,所以称电子管计算机
- 用了18000个电子管,占地150平方米,足有两间房子大,重达30吨,耗电功率约150千瓦,每秒钟可进行5000次运算
- 电子管空间占用大,耗电量大,易发热,因而工作的时间不能太长
- 使用机器语言,无系统软件
- 采用磁鼓、小磁芯作为储存器,存储空间有限
- 输入/输出设备简单,采用穿孔纸带或卡片,操作复杂,更换程序需要接线
- 主要用于科学计算,当时美国国防部用它来进行弹道计算
1.2 二阶段(1957~1964)
晶体管计算机
- 晶体管
第二代计算机采用的主要元件是晶体管,称为晶体管计算机。计算机软件有了较大发展,程序语言也出现了Fortran,Cobol计算机高级语言,采用了监控程序,这是操作系统的雏形。
主要特点:
1、集成度较高,体积小
2、运算速度快,功耗更低
3、操作简单,交互方便(有显示器了)
1.3 三阶段(1964~1980)
中小规模集成电路计算机。
德州仪器的工程师发明了集成电路(IC)
集成电路可在几平方毫米的单晶硅片上集成十几个甚至上百个电子元件。计算机开始采用中小规模的集成电路元件,这一代比上一代更小,耗电更少,功能更强,寿命更长,领域扩大,性能比上一代有很大提高。
主要特点:
1、体积更小,寿命更长。
2、运行计算速度更快。
3、外围设备考试出现多样化。
4、有类似操作系统和应用程序,高级语言进一步发展。
5、应用范围扩大到企业管理和辅助设计等领域。
1.4 四阶段(1980~至今)
超大规模集成电路计算机。
这时期的计算机的体积、重量、功耗进一步减少,运算速度、存储容量、可靠性都有很大提高。
主要特点:
1、采用了大规模和超大规模集成电路逻辑元件,体积与第三代相比进一步缩小,可靠性更高,寿命更长。
2、运算速度加快,每秒可达集千万次到几十亿次。
3、系统软件和应用软件获得了巨大的发展,软件配置丰富,程序设计部分自动化。
4、计算机网络技术、多媒体技术、分布式处理技术有了很大的发展,微型计算机大量进入家庭,产品更新速度加快。
5、计算机在办公自动化、数据库管理、图像处理、语言设别和专家系统等各个领域得到应用,电子商务已开始进入家庭,出现个人电脑(PC),计算机的发展进入到了一个新的历史时期。
1.5 未来的计算机
超导计算机、纳米计算机、光计算机、DNA计算机、量子计算机和神经网络计算机等,体积更小,运算速度更快,更加智能化,耗电量更小。
程序的CPU执行时间 = 指令数×CPI×Clock Cycle Time
所以提升计算机的性能,可以通过指令数/CPI,好像都太难了。
因此工程师们,就在CPU上多放晶体管,不断提升CPU的时钟频率,让CPU更快,程序的执行时间就会缩短。
- 从1978年Intel发布的8086 CPU开始,计算机的主频从5MHz开始,不断攀升
- 1980年代中期的80386能够跑到40MHz
- 1989年的486能够跑到100MHz
- 直到2000年的奔腾4处理器,主频已经到达了1.4GHz
2 CPU的极限-功耗
奔腾4的CPU主频从来没有达到过10GHz,最终定格在3.8GHz
奔腾4主频虽高,但实际性能却配不上同样的主频。
于是不仅让AMD获得喘息之机,更代表“主频时代”终结。后面几代Intel CPU主频不但没上升,反而下降。
至今的最高配置Intel X 系列 CPU
主频也不过5GHz。
相较于1978年到2000年,这20年里300倍的主频提升,从2000年到现在的20 年,CPU的主频大概提高3倍。CPU的主频变化,奔腾4时进入瓶颈期
奔腾4的主频没能超3.8GHz也是因为功耗。CPU,也称作超大规模集成电路,Very-Large-Scale Integration,VLSI。
CPU就是让晶体管里面的“开关”不断“打开”/“关闭”,组合完成各种运算和功能。
提高CPU计算速度:
- 增加密度
同样的面积,多放晶体管。如果CPU的面积大,晶体管之间的距离变更大,电信号传输的时间就会变长,运算速度自然就慢了。 - 提升主频
让晶体管“打开”/“关闭”更快,但是动作快,就要出汗散热,所以有了CPU上的硅脂、风扇、水冷。但设备散热效果也有极限。
因此,CPU里能够放下的晶体管数量和晶体管的“开关”频率也有限。
一个CPU的功率,可以用这样一个公式来表示:
功耗 ≈ 1/2 ×负载电容 × 电压的平方 × 开关频率 × 晶体管数量
为提升性能,要不断增加晶体管密度,就要把晶体管造得小一点,即提升“制程”。从28nm到5nm,还要提升主频,让开关频率变快。
但功耗过多,CPU散热就跟不上,公式里功耗和电压平方成正比,即可降低电压。
从5MHz主频的8086到5GHz主频的Intel X,CPU电压从5V下降到了1V。
2 并行优化-阿姆达尔定律
从90s到本世纪初,“面向摩尔定律编程”的套路越来越用不下去了。奔腾4开始,Intel意识到通过提升主频“难”以性能提升。开始推出多核CPU,提升“吞吐率”而非“响应时间”。即通过并行提高性能。
但要使用这种思想,需满足以下条件:
- 需要进行的计算,本身即可分解成几个可并行任务
比如向量的点乘运算 - 需要能够分解好问题,并确保几个人的结果能够汇总到一起
- 在“汇总”这个阶段,是没有办法并行进行的,还是得顺序执行,一步一步来
这就引出了阿姆达尔定律(Amdahl’s Law):
对一个程序优化后,处理器并行运算之后效率提升的情况可用如下公式表示:
优化后的执行时间 = 受优化影响的执行时间/加速倍数+不受影响的执行时间
比如向量点乘,同时计算向量的一小段点积,就是并行提高部分计算性能。但最终还是要在一个人那汇总相加,这部分时间无法并行优化,即不受影响的执行时间。
比如向量
- 点积需100ns
- 加法需要20ns
总共需要120ns。这里通过并行4个CPU有了4倍的加速度。那么最终优化后,就有了100/4+20=45ns。
即使增加并行度来提供加速倍数,比如有100个CPU,整个时间也需要100/100+20=21ns,所以并非越多就肯定越快。
3 总结
无论是简单提升主频,还是增加CPU核心数,通过并行提升性能,都会遇到瓶颈。
仅靠“堆硬件”,已经不能很好地满足性能。于是,工程师们需要从其他方面开始下功夫。
在“摩尔定律”和“并行计算”之外,在整个计算机组成层面,还有如下:
3.1 大概率事件
深度学习,整个计算过程中基本都是向量矩阵计算。所以用GPU替代CPU,大幅度提升了深度学习的模型训练过程,Google不满足GPU性能,还推出了TPU。
3.2 流水线
现代的工厂里的生产线叫“流水线”。可以把装配iPhone这样的任务拆分成一个个细分的任务,让每个人都只需要处理一道工序,最大化整个工厂的生产效率。
CPU就是一个运算工厂,把CPU指令执行的过程进行拆分,细化运行。
3.3 预测
预测下一步该干,而非等上一步结果,提前运算,也能程序更快。
循环访问数组时,你也会猜到下一步会访问数组下一项。比如“分支和冒险”、“局部性原理”。
参考
全部评论
(1) 回帖