计算机体系结构课后习题原版答案 - 张晨曦著(1)

发布时间 : 2024/7/1 22:35:24 星期一文章计算机体系结构课后习题原版答案 - 张晨曦著(1)更新完毕开始阅读

切换

5.3 地址映象方法有哪几种？它们各有什么优缺点？

答：(1) 全相联映象。实现查找的机制复杂，代价高，速度慢。Cache空间的利用率较高，块冲突概率较低，因而Cache的失效率也低。（2）直接映象。实现查找的机制简单，速度快。Cache空间的利用率较低，块冲突概率较高，因而Cache的失效率也高。（3）组相联映象。组相联是直接映象和全相联的一种折衷。

5.4 降低Cache失效率有哪几种方法？简述其基本思想。答：常用的降低Cache失效率的方法有下面几种：

（1）增加Cache块大小。增加块大小利用了程序的空间局部性。（2）增加Cache的容量。（3）提高相联度，降低冲突失效。

（4）伪相联Cache，降低冲突失效。当对伪相联Cache进行访问时，首先是按与直接映象相同的方式进行访问。如果命中，则从相应的块中取出所访问的数据，送给CPU，访问结束。如果不命中，就将索引字段的最高位取反，然后按照新索引去寻找“伪相联组”中的对应块。如果这一块的标识匹配，则称发生了“伪命中”。否则，就访问下一级存储器。

（5）硬件预取技术。在处理器提出访问请求前预取指令和数据。（6）由编译器控制的预取，硬件预取的替代方法，在编译时加入预取的指令，在数据被用到之前发出预取请求。

（7）编译器优化，通过对软件的优化来降低失效率。

（8） “牺牲”Cache。在Cache和其下一级存储器的数据通路之间增设一个全相联的小Cache，存放因冲突而被替换出去的那些块。每当发生不命中时，在访问下一级存储器之前，先检查“牺牲”Cache中是否含有所需的块。如果有，就将该块与Cache中某个块做交换，把所需的块从“牺牲”Cache 调入Cache。

5.5 简述减小Cache失效开销的几种方法。

答：让读失效优先于写、写缓冲合并、请求字处理技术、非阻塞Cache或非锁定Cache技术、采用二级Cache。

5.6 通过编译器对程序优化来改进Cache性能的方法有哪几种？简述其基本思想。

答：（1）数组合并。通过提高空间局部性来减少失效次数。有些程序同时用相同的索引来访问若干个数组的同一维，这些访问可能会相互干扰，导致冲突失效，可以将这些相互独立的数组合并成一个复合数组，使得一个Cache块中能包含全部所需元素。（2）内外循环交换。循环嵌套时，程序没有按数据在存储器中的顺序访问。只要简单地交换内外循环，就能使程序按数据在存储器中的存储顺序进行访问。（3）循环融合。有些程序含有几部分独立的程序段，它们用相同的循环访问同样的数组，对相同的数据作不同的运算。通过将它们融合成一个单一循环，能使读入Cache的数据被替换出去之前得到反复的使用。（4）分块。通过改进时间局部性来减少失效。分块不是对数组的整行或整列进行访问，而是对子矩阵或块进行操作。

5.9 写出三级Cache的平均访问时间的公式。解：平均访存时间＝命中时间＋失效率×失效开销只有第I层失效时才会访问第I＋1。

设三级Cache的命中率分别为HL1、 Hl2、 HL3，失效率分别为Ml1、Ml2、ML3，第三级Cache的失效开销为PL3。

平均访问时间TA ＝HL1＋Ml1{Hl2＋Ml2(HL3＋ML3×PL3)}

5.10 假设对指令Cache的访问占全部访问的75%；而对数据Cache的访问占全部访问的25%。Cache的命中时间为1个时钟周期，失效开销为50 个时钟周期，在混合Cache中一次load或store操作访问Cache的命中时间都要增加一个时钟周期，32KB的指令Cache的失效率为0.39%，32KB的数据Cache的失效率为4.82%，64KB的混合Cache的失效率为1.35%。又假设采用写直达策略，且有一个写缓冲器，并且忽略写缓冲器引起的等待。试问指令Cache和数据Cache容量均为32KB的分离Cache和容量为64KB的混合Cache相比，哪种Cache的失效率更低？两种情况下平均访存时间各是多少？

解：（1）根据题意，约75%的访存为取指令。

因此，分离Cache的总体失效率为：（75%×0.15%）＋（25%×3.77%）＝1.055%；

容量为128KB的混合Cache的失效率略低一些，只有0.95%。（2）平均访存时间公式可以分为指令访问和数据访问两部分：平均访存时间＝指令所占的百分比×（读命中时间＋读失效率×失效开销）＋数据所占的百分比×（数据命中时间＋数据失效率×失效开销）

所以，两种结构的平均访存时间分别为：

分离Cache的平均访存时间＝75%×（1＋0.15%×50）＋25%×（1＋3.77%×50）

＝（75%×1.075）＋（25%×2.885）＝1.5275

混合Cache的平均访存时间＝75%×（1＋0.95%×50）＋25%×（1＋1＋0.95%

×50）

＝（75%×1.475）＋（25%×2.475）＝1.725

因此，尽管分离Cache的实际失效率比混合Cache的高，但其平均访存时间反而较低。分离Cache提供了两个端口，消除了结构相关。

5.11 给定以下的假设，试计算直接映象Cache和两路组相联Cache的平均访问时间以及CPU的性能。由计算结果能得出什么结论？

（1）理想Cache情况下的CPI为2.0，时钟周期为2ns，平均每条指令访存1.2次；

（2）两者Cache容量均为64KB，块大小都是32字节；

（3）组相联Cache中的多路选择器使CPU的时钟周期增加了10％；（4）这两种Cache的失效开销都是80ns；（5）命中时间为1个时钟周期；

（6） 64KB直接映象Cache的失效率为1.4％，64KB两路组相联Cache的失效率为1.0％。

解：平均访问时间＝命中时间＋失效率×失效开销平均访问时间1-路=2.0+1.4% *80=3.12ns 平均访问时间2-路=2.0*(1+10%)+1.0% *80=3.0ns 两路组相联的平均访问时间比较低

CPUtime=（CPU执行+存储等待周期）*时钟周期

CPU time=IC（CPI执行+总失效次数/指令总数*失效开销） *时钟周期 =IC（（CPI周期））

CPU time 1-way=IC(2.0*2+1.2*0.014*80)＝5.344IC CPU time 2-way=IC(2.2*2+1.2*0.01*80)＝5.36IC 相对性能比：

执行

*时钟周期）+（每条指令的访存次数*失效率*失效开销*时钟

CPUtime?2wayCPUtime?1way?5.36/5.344=1.003

直接映象cache的访问速度比两路组相联cache要快1.04倍，而两路组相联Cache的平均性能比直接映象cache要高1.003倍。因此这里选择两路组相联。

5.13 在伪相联中，假设在直接映象位置没有发现匹配，而在另一个位置才找到数据（伪命中）时，不对这两个位置的数据进行交换。这时只需要1个额外的周期。假设失效开销为50个时钟周期，2KB直接映象Cache的失效率为9.8%，2路组相联的失效率为7.6%；128KB直接映象Cache的失效率为1.0%，2路组相联的失效率为0.7%。

（1）推导出平均访存时间的公式。

（2）利用（1）中得到的公式，对于2KBCache和128KBCache，计算伪

相联的平均访存时间。解：

不管作了何种改进，失效开销相同。不管是否交换内容，在同一“伪相联”组中的两块都是用同一个索引得到的，因此失效率相同，即：失效率伪相联＝失效率2路。

伪相联cache的命中时间等于直接映象cache的命中时间加上伪相联查找过程中的命中时间*该命中所需的额外开销。

命中时间伪相联＝命中时间1路＋伪命中率伪相联×1

交换或不交换内容，伪相联的命中率都是由于在第一次失效时，将地址取反，再在第二次查找带来的。

因此伪命中率伪相联＝命中率率1路）

＝失效率

1路－失效率2路。交换内容需要增加伪相联的额2路－命中率1路＝（1－失效率2路）－（1－失效

计算机体系结构课后习题原版答案 - 张晨曦著(1)

下载：计算机体系结构课后习题原版答案 - 张晨曦著(1).doc

最近浏览

最新搜索

站内搜索