
根据Intel最新桌面处理器规划, Nehalem产品上市初期最高型号为XE版本的Bloomfield,采用全新LGA 1366处理器接口,原生四核心并支援类似 Hyper-Threading 的 SMT 技术,因此同一时间最高可处理8个Threads。

Bloomfield XE版本内建8MB L3 Cache,放弃FSB设计改用全新Quick Path Interconnect架构,处理器与芯片组的传输速度为6.4GT/s,内建Tri-Channel记忆体控制器,支持最高DDR3-1333模组,FMB版本为08,最高TDP为130W。

值得注意的是,Intel一改以往推出新微架构时,初期仅针对高端市场的作法,Bloomfield除了XE版本外,将会同时发佈两款针对主流级至效能级型号,核心时脉分别为2.66GHz与2.93GHz,同样拥有8MB L3 Cache及支援SMT技术,但Quick Path Interconnect速度下降至4.8GT/s,记忆体支援速度亦下调至最高支援DDR3-1066。

由于改用全新Quick Path Interconnect架构,因此Bloomfield与旧有平台并不相容,除了改用全新LGA 1366处理器接口外,同时搭配全新X58芯片组,新平台加入Quad x8 PCI-Express绘图接口支援,可支援Quad CrossFireX多绘图卡协同运算。
Bloomfield处理器上市后,Core 2 Extreme处理器将即时被取代, Core 2 Quad处理器也会在2009年第1 季退场,旧有LGA775处理器接口的Yorkfield四核心处理器,仍继续保留于主流级市场之中,直至2009年第四季末。
我们知道,Intel在45nm Nehalem架构处理器中放弃前端总线FSB,改用直连总线CSI,并在处理器内部集成内存控制器(IMC)。CSI和IMC结合,可以让Intel更轻松地扩展多路系统和高性能计算(HPC)应用,而Intel现有的处理器架构更关注于指令执行引擎和缓存架构,以便在单线程应用中提高性能,导致双路服务器平台性能受限,也无法在对内存带宽需求甚高的HPC中发挥作用。熟悉AMD内存架构的都可以看出,Intel正在“向AMD学习”,但与此同时,AMD也在吸收Intel的精华,比如在Bulldozer平台上部署更大容量的缓存。

Nehalem 微架构的Building Block设计,可应付各种高性能需要,最高可组合成 8 核心配置,提供最高同时 16 个 Thread 的运算处理能力。Nehalem 微架构採用可扩展的架构,主要是每个处理器单元均採用 Building Block 模组化设计,包括了处理器核心、 Cache 记忆体、内建绘图核心、系统内存控制及 Quick Path Interconnect 均可自由组合,最高可支援 8 核心,提供最高 16 个 Thread 运算能力。此外,处理器内建的 Quick Path interconnect 数目亦可以自由提升,以形合多路的伺服器的需求。
运算设计方面, Nehalem 微架构主要是按照 Core 微架构作出改良,仍是採用 4 1 ALU 设计,但加入了类似 Hyper-Threading 的 2-Way simultaneous multi-Theading ,能更有效地运算处理器资料,减少 Cache 及 Memory Bandwidth 浪费。新增SSE 4.2 指令集,并改良演算法,加快"无排列"缓存使用,并加速同步化动作。
Nehalem 微架构强化了分支预测,加入二级分支预测系统及加入 Renamed Retuen Stack Buffer 功能,预期 Nehalem 微架构将会比 Core 微架构在平行运算表现上有约 33% 的增长。

Nehalem 的规格, 45 奈米 Hi-K 制程,内建 7.31 亿个电晶体,原生四核心设计、同一时间可运算 8 个 Threads ,每个核心拥有 32K L1 Instruction Cache 及 32KB Data Cache 、 256K L2 Cache 虽然容量少但能大幅减低 Latency ,加入第二级 512 Entry TLB (Translation Lookaside buffer) ,并采用共享 8MB L3 Cache 设计,支援 Quick Path Interconnects ,内建 Tri-Channel 的系统记忆体控制器。
在综合各方面资料后,我们归纳出以下数点︰
1. Nehalem 大部份微架构设计仍是沿自 Yorkfield 及 Wolfdale ,并拥有原生四核心设计。
2. Nehalem 将支援类似 Hyper-Threading 的 SMT 技术,而在多线程运算效能是上代 Penryn 微架构高出 1.2 – 2倍 。
3. Nehalem 单线程运算效能将会比上代 Penryn 微架构的 1.1x -1.25x 。
4. Nehalem 大幅强化低负载及閒置状态时的功耗表现,进一步减少漏电情况。
5. Nehalem 在相同功耗下效能比上代 Penryn 提升 30% ,或是在相同效能下功耗下降 30% 。
6. 7 组新增的 SSE4.2 指令,主要是强化 Database 作业,并加速资料传输效率, DB 伺服器效能提升明显。
此外,服务器版本的 Nehalem 处理器最高可拥有 4 组 QuickPath Interconnect ,并至少可组成四颗处理器的资料可直接互换的 4 Ways 伺服器架构。

