![]() |
學校地址:湖南省 長沙市 雨花區 車站南路紅花坡路口 |
![]() |
學校地址:湖南省 長沙市 雨花區 車站南路紅花坡路口 |
下面我為大家介紹一下關于奔騰 4技術的核心以及技術改進:
深管線——處理器 重要的管線之一,分支預報和防御管線在Pentium 4中是20個進程的深度,這整整是PIII的兩倍,P4還對每一個管線的復雜進程進行了簡化。
改進的分支預報單元——Intel 聲稱NetBurst 錯誤預報削減了P6設計原預計性能的33%之多。P4處理器改進了其精確度,并存儲更多的關于過去分支信息在一個更大的容量中,4K 分支目標緩沖器是PIII的8倍,這對于分支預報提供了更好的算法。兩倍時鐘的運算器——NetBurst 有一對簡單的算術邏輯單元(ALUs),它用于處理特定的整數運算。這些單元運行速度是處理器的兩倍。例如,在1.5GHz Pentium 4處理器中,他的運行速度是3GHz。兩倍時鐘速度是一個巧妙的設計,深管線的P4 需要它來保持它的工控。
執行軌跡追蹤緩沖——像PIII和Athlon這些同時代的x86處理器的譯碼x86指令更小,處理它們之前執行bite-sized操作(Inter 稱之為微操作)。這允許x86處理器有更多RISC-like 設計,但是譯碼的x86指令執行要用時間。NetBurst 的執行蹤跡緩存代替常規的L1指令緩存,它儲存了micro-ops 而不是x86指令。Intel 關于蹤跡緩存的準確的大小不是很大,但是他們宣稱它可以存儲12,000micro-ops。
P4的NetBurst L1 數據緩存僅僅是奔騰III 的大小的一半, 僅 8K。遠小于Athlon 的64K 數據緩沖。這個設計是因為更較小的緩存有更低的傳輸延遲時間,所以Intel 選擇這個緩存的大小。如果Athlon 和PIII 數據緩存是3周期傳輸延遲時間,那么P4的L1數據緩存傳輸延遲時間是2周期。這是P4保持深管線很好的儲存計劃的一部分。
P4的 L2 緩存是 256K, 和Athlon和PIII相仿, 但是它的發熱更少。P4的L2緩存接口是256比特帶寬,它在每時鐘周期上發送數據。而1.4GHz的奔騰4的帶寬是44.8GB/sec。幾乎是1GHZ的PIII L2緩沖的4倍帶寬。而Athlon它 L2 緩存仍然很慢,但是我看到 AMD 工程師宣稱 Athlon's L2 緩存沒有實際的帶寬限制。無論怎樣,P4的L2緩存仍然驚人。
100MHz的四芯導線泵的前端總線—— NetBurst 總線每一時鐘循環發送數據4次,因此大家總是談論"400MHz 總線" 。但我們只將其作為一個100MHz時鐘頻率來談論,P4拆分處理事務總線在400MHz可以以每秒有3.2GB 數據傳輸,或可以說這是在100MHz下得到的。
SSE2 SIMD 擴展名——一個計算低工控 好的方法是讓每指令執行更多的工作。到P4設計結束為止,Intel 增加了一套括144條新建指令的SSE2指令集。像 早的SIMD 擴展指令集,SSE2涉及了多重的數據目標上立刻執行一單個的指令(即 SIMD)。 重要的是SSE2能處理128位和兩倍精密浮點數學運算。處理更精確浮點數的能力使SSE2成為加速多媒體程序、3D處理工程以及工作站類型任務的基礎配置。但重要的是軟件是否能適當的優化利用它。
相對簡單的浮點處理器—— 奔騰 4的浮點運算單元設計和奔騰 III不同,而是與Athlon 宿主浮點運算器有些相似。P4的FPU 無法與Athlon同樣的執行工作程序,但在一些情況下有更高的傳輸延遲時間。為SSE2優化的程序將能在許多情形中繞過P4的FPU處理弱點。
通過這些對P4設計的分析可以看出,P4確實相當的優秀。P4的管道的深度,與它的less-than-stellar FPU 結合,將保持它的工控或clock-for-clock 性能。由于優化的 SSE2, 多媒體應用軟件在P4上運行如飛。