清华大学计算机系统结构课后习题答案

发布时间 : 星期二 文章清华大学计算机系统结构课后习题答案更新完毕开始阅读

5.15 Δt=10ns=10秒 (1)F={1,2,5},C=(10011) (2)状态转移图如下图(a)所示。

(3)最小启动循环=(3),最小平均启动距离=3Δt。

(4)插入2个延迟,最小启动循环=(2),最小平均启动距离=2Δt。 (5)新预约表如下图(b)所示。

(6)F={1,3,7},C=(1000101),状态转移图如下图(c)所示。

1 2 3 4 5 6 7 8 S1 × 1 2 × S2 × 1 × S3 × S4 1 × × D1 ×

1 0 0 0 1 0 1 4,6,≥8

2 5 5 (c) 4,6,≥8

初态 4,6,≥8

-8

初态 3,4,≥6

1 0 0 1 1 1 0 1 0 1 0 1 1 0 0 0 1 1 1 2 D2 × (b) (a)

(7)插入前TPmax = 1/3Δt = 1/30ns,插入后TPmax = 1/2Δt = 1/20ns。

(8)插入前TP = 10/33Δt = 1/33ns,插入后TP = 10/26Δt = 1/26ns,如下图所示。

D2 1 2 3 11 D1 1 2 3 4 10 10 10 10 10 8 t

S4 1 1 2 2 3 S3 1 2 3 10 10 10 10 6 t ……… S2 1 1 2 2 3 10 10 S1 1 2 1 3 2 10

3 9×3 (a) 插入前

S4 1 1 2 2 3 3 S3 1 2 3 4 S2 1 2 1 3 2 4 3 5 S1 1 2 3 4 1 5 2

2 9×2 ……… 10 10 10 (b) 插入后

第六章(P391)

6.6(注意阅读P372倒数第9行-倒数第6行)

已知n=32,k加=6,k乘=7,k访存=6,k倒数=14,启动、输出延迟各1。求各小题总拍数。

(1) V0 ← 存储器 V1 ← V2 + V3 并行 V4 ← V5 * V6 访存 加 乘 9 31 总拍数=40(并行执行,以最长指令为准)(3) V0 ← 存储器 并行

V3 ← V1 + V2 链接

V4 ← V0 * V3 V6 ← V4 + V5 串行 访存 加 乘

8 9 31 8 31

总拍数=87(第4条功能部件冲突)

(2) V2 ← V0 * V1 并行

V3 ← 存储器

V4 ← V2 + V3 串行(P372) 乘 访存 加 9 31 8 31 总拍数=79(第3条错过时机,不能链接)(4) V0 ← 存储器 链接 V1 ← 1 / V0

链接

V3 ← V1 + V2 链接

V5 ← V3 * V4 访存 倒数

加 乘

8 16 8 9 31

总拍数=72(各条依次链接)

(5) V0 ← 存储器 V1 ← V2 + V3 并行 V4 ← V5 * V6 s0 ← s1 + s2 访存 加 乘 9 31 8 总拍数=48(标量看成1个分量的向量) (7) V3 ← 存储器 V4 ← V2 * V3 存储器 ← V4 访存 加 乘

8 9 31 8 31

总拍数=87(第4条功能部件冲突)

6.10 已知向量速率Rv = 10MFLOPS,标量速率Rs = 1MFLOPS,并记α为可向量化百分比。

(1) 推导法1:使用Amdahl定律,在这里可将标量速率Rs作为原速率,局部加速后的速率为向量速率Rv,于是局部加速比Se=10,全局加速比为

串行 并行 串行

(6) V3 ← 存储器 V2 ← V0 + V1 s0 ← s2 + s3 V3 ← V1 * V4 访存 加 乘 8 31 9 31 总拍数=79(标量看成1个分量的向量) (8) V0 ← 存储器 V2 ← V0 + V1 V3 ← V2 * V1 串行 V5 ← V3 * V4 串行 访存 加 乘

8 8 31 9 31 9 31

总拍数=127(Vi冲突,功能部件冲突)

链接 并行

串行 并行

V2 ← V0 + V1 链接

Sn?1(1??)??Se 再根据加速比的定义,Sn?R?Rs,所以有R??Rs?Sn?Rs(1??)??Se?1MIPS1?0.9?。 (若将向量速率Rv作为原速率,局部减速后的速率为标量速率Rs,则局部加速比Se=0.1,推出的全局加速比

Sn同上式。)

推导法2:为了推导,定义T为总时间,N为总任务数。于是有平均速率Ra = 吞吐率TP = N/T。记N = Nv + Ns,且??NvNv?NNv?Ns,则1???NsNs?NNv?Ns,于是有Nv = α·N和Ns = (1-α)·N

显然:总时间T?Tv?Ts?NvNs??N(1??)?N???RvRsRvRs

所以:Ra?NN1??11T??N(1??)?N????(1??)?RvRsRvRs

或者:

111????(1??)?RaRvRs(2) 已知Rv = 10MFLOPS,Rs = 1MFLOPS,

Ra (MFLOPS) 10

1 0

1 α

110Ra?MFLOPS?MFLOPS0.1??(1??)10?9?Ra与α的关系图如右图所示。

(3) 已知Ra = 7.5MFLOPS,解出

??1011013(1?)???0.96?96% 97.5915(4) 已知Ra = 2MFLOPS,α = 0.7,解出

Rv??11?(1??)?RaRs?0.71?0.3?12?3.5(MFLOPS)

第七章(P446)

7.3 已知输入端编号13 = 1101B。 (1)Cube3(1101B) = 0101B = 5

(2)PM2+3(13) = (13 + 2)mod 16 = 21 mod 16 = 5 (3)PM2+0(13) = (13 - 2)mod 16 = 12 (4)Shuffle(1101B) = 1011B = 11

(5)Shuffle(Shuffle(1101B)) = Shuffle(1011B) = 0111B = 7

7.4 用多级混洗―交换网络,n = 4,拓扑结构同教材P410图7.21(e),控制信号=1010B,自左向右各级交换开关状态依次为交换―直连―交换―直连。

03

联系合同范文客服:xxxxx#qq.com(#替换为@)