Processadores Sandy Bridge

Sandy Bridge é o nome da nova microarquitetura que a Intel usará em seus processadores a partir de 2011. Ela é uma evolução da microarquitetura Nehalem, que foi introduzida com os processadores Core i7 e também usada nos processadores Core i5 e Core i3.

Vamos fazer uma rápida revisão para caso você não acompanhe o mercado de processadores de perto. Após o Pentium 4, que era baseada na microarquitetura de 7ª geração da Intel, chamada Netburst, a Intel decidiu voltar para sua microarquitetura de 6ª geração (a mesma usada nos processadores Pentium Pro, Pentium II e Pentium III, chamada P6), que provou ser mais eficiente. A partir do processador Pentium M (que é um processador Intel de 6ª geração), a Intel desenvolveu a arquitetura Core, que foi usada nos processadores da série Core 2 (Core 2 Duo, Core 2 Quad, etc). Em seguida, a Intel pegou esta arquitetura, melhorou (a principal inovação foi a adição de um controlador de memória integrado) e lançou a microarquitetura Nehalem, que foi usada nos processadores das séries Core i3, Core i5 e Core i7. Tendo como base a microarquitetura Nehalem, a Intel desenvolveu a microarquitetura Sandy Bridge, que será usada em sua nova geração de processadores Core i3, Core i5 e Core i7 lançados em 2011 e 2012.

As principais características da microarquitetura Sandy Bridge são:

  • A ponte norte (controlador de memória, controlador de vídeo e controlador PCI Express) está integrada no mesmo chip do processador. Nos processadores baseados na microarquitetura Nehalem, a ponte norte está localizada no mesmo encapsulamento do processador, mas em uma pastilha de silício separada. Inclusive nos processadores Nehalem de 32 nm o chip ponte norte é fabricado com processo de 45 nm.
  • Os primeiros modelos serão fabricados com tecnologia de 32 nm
  • Arquitetura em anel
  • Novo cache de microinstruções decodificadas (cache L0, capaz de armazenar 1.536 microinstruções, o que equivale a mais ou menos 6 kB)
  • Cache L1 de instruções de 32 kB e cache L1 de dados de 32 kB por núcleo (nenhuma mudança em relação à arquitetura Nehalem)
  • O cache de memória L2 foi renomeado para “cache intermediário” (MLC, Mid-Level Cache) com 256 kB por núcleo
  • O cache L3 agora é chamado “cache de último nível” (LLC, Last Level Cache) e não é mais unificado, e é compartilhado entre os núcleos do processador e o processador gráfico
  • Nova geração da tecnologia Turbo Boost
  • Novo conjunto de instruções AVX (Advanced Vector Extensions ou Extensões de Vetor Avançadas)
  • Controlador de vídeo aprimorado
  • Controlador de memória DDR3 de dois canais redesenhado, suportando memórias até DDR3-1333
  • Controlador de memória PCI Express integrado suportando uma pista x16 e duas pistas x8 (nenhuma mudança em relação à arquitetura Nehalem)
  • Os primeiros modelos utilizarão um novo soquete com 1155 pinos

Existem quatro decodificadores de instruções, o que significa que o processador pode decodificar até quatro instruções por pulso de clock. Esses decodificadores são responsáveis por decodificar instruções IA32 (x86) em microinstruções RISC (µops), que são usadas internamente pelas unidades de execução do processador. Assim como ocorre em outros processadores da Intel, a microarquitetura Sandy Bridge suporta tanto fusão de instruções (“macro-fusion”) quanto fusão de microinstruções (“micro-fusion”). A fusão de instruções permite que o processador decodifique duas instruções x86 relacionadas em apenas uma, enquanto a fusão de microinstruções permite que duas microinstruções relacionadas possam ser fundidas em apenas uma. Obviamente o objetivo dessas tecnologias é aumentar o desempenho.

O que é completamente novo é a adição de um cache de microinstruções decodificadas capaz de armazenar 1.536 microinstruções (o que equivale mais ou menos 6 kB). A Intel chama este cache de “cache L0”. A ideia é óbvia. Quando o programa em execução entra em “loop” (ou seja, precisa repetir a execução de um grupo de instruções várias vezes), o processador não precisa decodificar novamente as instruções x86: elas já estão decodificadas no cache, o que economiza tempo e aumenta o desempenho. De acordo com a Intel, este cache apresenta uma taxa de acerto de 80%, ou seja, o cache é usado pelo menos 80% do tempo.

Agora você pode estar se perguntando se esta não é a mesma ideia usada na microarquitetura Netburst (processadores Pentium 4), que tinha um cache de código (“trace cache”) que também armazenava microinstruções decodificadas. Um cache de código trabalha de forma diferente de um cache de microinstruções: ele armazena as instruções na mesma ordem em que elas foram originalmente executadas. Desta maneira, quando um programa atinge um loop que precisa ser executado, digamos, 10 vezes, o cache de código armazenará as mesmas instruções 10 vezes. Portanto, há muitas instruções repetidas no cache de código, o que não acontece com o cache de microinstruções, que armazena apenas instruções decodificadas individuais.

Quando o cache de microinstruções é usado, o processador coloca o cache de instruções L1 e os decodificadores para “dormir”, o que faz o processador economizar energia e dissipar menos calor.

A unidade de previsão de desvio foi redesenhada e o tamanho do buffer de destino de desvio (Branch Target Buffer ou BTB) foi dobrado em relação à arquitetura Nehalem, além de agora usar uma técnica de compressão que permite que ainda mais dados sejam armazenados. A previsão de desvios é um circuito que tenta “adivinhar” os próximos passos de um programa, carregando para dentro do processador as instruções que ele acha que o processador tentará carregar. Se ele estiver certo, o processador não perderá tempo carregando essas instruções da memória, já que elas já estarão dentro do processador. Aumentando o tamanho desse buffer permite que este circuito carregue antecipadamente ainda mais instruções, aumentando o desempenho do processador.

O agendador usado na microarquitetura Sandy Bridge é similar ao usado na microarquitetura Nehalem, com seis portas de despacho, três delas usadas pelas unidades de execução e três usadas pelas unidades de memória.

Embora esta configuração seja a mesma, a microarquitetura Sandy Bridge tem mais unidades de execução: enquanto a microarquitetura Nehalem tem 12, a Sandy Bridge tem 15, ver Figura 2. De acordo com a Intel, elas foram redesenhadas para aumentar o desempenho de operações envolvendo números de ponto flutuante (operações matemáticas).

Cada unidade de execução é conectada ao agendador de instruções usando um caminho de dados de 128 bits. De modo a executar as novas instruções AVX, que trabalham com dados de 256 bits, em vez de adicionar caminhos de dados de 256 bits e unidades de 256 bits ao processador, duas unidades de execução são “agrupadas” (ou seja, usadas ao mesmo tempo), como você pode ver na Figura abaixo.

Após a execução de uma instrução, ela não é copiada de volta para o buffer de reordenamento como acontecia nas arquiteturas anteriores da Intel: o processador apenas indicada que a instrução terminou de ser executada em uma lista. Isto faz com que o processador economize bits e aumente sua eficiência.

Outra diferença está nas portas de memória. A microarquitetura Nehalem tem uma unidade de carga, uma unidade de armazenamento de endereços e uma unidade de armazenamento de dados, cada uma conectada a uma porta de despacho individual. Isto significa que processadores baseados na microarquitetura Nehalem podem carregar do cache L1 de dados 128 bits de dados por pulso de clock.

Na microarquitetura Sandy Bridge, as unidades de carga e armazenamento de endereços podem ser usadas como uma unidade de carga ou como uma unidade de armazenamento de endereços. Esta mudança permite que duas vezes mais dados possam ser carregados do cache L1 de dados por pulso de clock (usando duas unidades de 128 bits ao mesmo tempo em vez de apenas uma), aumentado assim o desempenho. Desta maneira, os processadores Sandy Bridge podem carregar 256 bits de dados do cache L1 de dados por pulso de clock.

Há algum tempo, a AMD propôs um conjunto de instruções SSE5, mas a Intel decidiu criar sua própria implementação do que seriam as instruções SSE5, chamada AVX (Advanced Vector Extensions ou Extensões de Vetor Avançadas).

Essas instruções utilizam o mesmo conceito SIMD (Single Instruction, Multiple Data ou Instrução Simples com Vários Dados) introduzido com o conjunto de instruções MMX e usado pelas instruções SSE (Streaming SIMD Extensions). Este conceito consiste em usar um registrador grande para armazenar vários dados menores e então processá-los em uma única instrução, acelerando o processamento.

O conjunto de instruções AVX traz 12 novas instruções e aumenta o tamanho dos registradores XMM de 128 para 256 bits.

Os processadores Sandy Bridge terão uma arquitetura em anel para que os componentes internos do processador comuniquem-se. Quando um componente quer “conversar” com outro, ele coloca a informação no anel para que ela chegue até o destinatário. Os componentes não se comunicam diretamente. Toda comunicação é feita através do anel. Os componentes que utilizam o anel são os núcleos de processamento, cada cache de memória L3 (que agora é chamado Cache de Último Nível, Last Level Cache ou LLC, e não é unificado, ver Figura 5), o agente de sistema (controlador de memória integrado, controlador do barramento PCI Express, unidade de controle de alimentação e vídeo 2D) e processador de vídeo 3D.

Na Figura 5 você pode ver o anel (linha preta) e suas “paradas” (caixas vermelhas). É importante entender que o anel está fisicamente localizado acima dos caches de memória (imagine um teleférico onde cada linha vermelha é uma parada) – como a ilustração é bidimensional, você pode ter a impressão de que os fios do anel passam dentro do cache, o que não é o caso.

Além disso, cada cache L3 (LLC) não é ligado a um núcleo de processador em particular. Qualquer núcleo pode usar qualquer um dos caches. Por exemplo, na Figura 5 nós temos um processador de quatro núcleos com quatro caches LLC. O núcleo 1 não está ligado ao cache 1; ele pode usar qualquer um dos caches. Isto também significa que qualquer núcleo de processamento pode acessar dados que estejam armazenados em qualquer um dos caches.

Existem na verdade quatro anéis: anel de dados (“data”), anel de requisição (“request”), anel de confirmação (“acknowledge”) e anel de verificação (“snoop”). Eles trabalham com o mesmo clock interno do processador. Ele é baseado no protocolo QPI (QuickPath Interconnect), o mesmo usado pelos processadores soquete 1366 para se comunicarem com o chipset.

Cada componente decide quando usar o anel, se vazio, e o anel sempre escolhe o menor caminho para o destino.

O Turbo Boost é uma tecnologia que automaticamente faz overclock no processador quando este demanda mais poder de processamento. Na microarquitetura Sandy Bridge esta tecnologia foi revisada para permitir ao processador exceder o seu TDP (Thermal Design Power) por até 25 segundos – ou seja, para dissipar mais calor do que o oficialmente permitido. Isto é possível porque o dissipador de calor e os componentes ainda estão frios.

Além disso, os núcleos do processador e o processador de vídeo “compartilham” TDP entre eles. Por exemplo, o processador de vídeo não estiver dissipando muito calor, ele fornece TDP extra para os núcleos do processador usarem, permitindo que eles trabalhem com um clock maior e um TDP acima do oficial, se as aplicações estão demandando mais poder de processamento.

O processador de vídeo integrado nos processadores Sandy Bridge terá um motor DirectX 10.1. Como explicamos na primeira página deste tutorial, ele estará fisicamente na mesma pastilha de silício do processador, em vez de estar em uma pastilha separada, mas no mesmo encapsulamento do processador.

A quantidade de unidades de execução (“processadores”) dependerá do processador (por exemplo, os processadores Core i5 terão mais unidades de execução do que os modelos Core i3). Os processadores Sandy Bridge podem ter até 12 unidades de execução gráficas.

Se você prestar atenção na Figura 8, verá que “Display” e “Graphics” estão em partes separadas do processador. Isto pode ser lido como “2D” e “3D”, e ajuda o processador a economizar energia desligando o processador gráfico quando você não está rodando jogos.

Outra inovação importante é que o motor gráfico pode usar o cache LLC (cache de memória L3) para armazenar dados, especialmente texturas. Isto aumenta o desempenho 3D, já que o motor gráfico não precisa ir até a memória RAM buscar dados: ele pode buscar dados diretamente do cache (desde que os dados já estejam lá).

Fonte: http://www.clubedohardware.com.br/artigos/Por-Dentro-da-Microarquitetura-Intel-Sandy-Bridge/2146/6

 

==> Os novos processadores são fabricados em 32 nm, possuem tecnologia Turbo Boost 2.0, suportam o conjunto de instruções AVX e utilizam um novo soquete com 1155 pinos. A ponte norte (controlador de memória, controlador de vídeo e controlador PCI Express) está agora integrada no mesmo chip do processador.

Nas tabelas abaixo você confere os modelos lançados e suas respectivas especificações técnicas:

Desktop

Modelo Clock Turbo Clock Núcleos Cache L3 TDP HyperThreading? Preço nos EUA (mil unidades)
Core i7-2600K 3,4 GHz 3,8 GHz 4 8 MB 95 W Sim US$ 317
Core i7-2600S 2,8 GHz 3,8 GHz 4 8 MB 65 W Sim
Core i7-2600 3,4 GHz 3,8 GHz 4 8 MB 95 W Sim US$ 294
Core i5-2500K 3,3 GHz 3,7 GHz 4 6 MB 95 W Não US$ 216
Core i5-2500S 2,7 GHz 3,7 GHz 4 6 MB 65 W Não
Core i5-2500T 2,3 GHz 3,3 GHz 4 6 MB 45 W Não
Core i5-2500 3,3 GHz 3,7 GHz 4 6 MB 95 W Não US$ 205
Core i5-2400S 2,5 GHz 3,3 GHz 4 6 MB 65 W Não
Core i5-2400 3,1 GHz 3,4 GHz 4 6 MB 95 W Não US$ 184
Core i5-2300 2,8 GHz 3,1 GHz 4 6 MB 95 W Não US$ 177
Core i5-2390T 2,7 GHz 3,5 GHz 2 3 MB 35 W Sim
Core i3-2120 3,3 GHz 2 3 MB 65 W Sim US$ 138
Core i3-2100T 2,5 GHz 2 3 MB 35 W Sim
Core i3-2100 2,93 GHz 2 3 MB 65 W Sim US$ 117

Notebook

Modelo Clock Turbo Clock Núcleos Cache L3 TDP HyperThreading? Preço nos EUA (mil unidades)
Core i7-2920XM 2,5 GHz 3,5 GHz 4 8 MB 55 W Sim US$ 1,096
Core i7-2820QM 2,3 GHz 3,4 GHz 4 8 MB 45 W Sim US$ 568
Core i7-2720QM 2,2 GHz 3,3 GHz 4 6 MB 45 W Sim US$ 378
Core i7-2620M 2,7 GHz 3,4 GHz 2 4 MB 35 W Sim US$ 346
Core i7-2635QM 2 GHz 2,9 GHz 4 6 MB 45 W Sim
Core i7-2630QM 2 GHz 2,9 GHz 4 6 MB 45 W Sim
Core i7-2649M 2,3 GHz 3,2 GHz 2 4 MB 25 W Sim US$ 346
Core i7-2629M 2,1 GHz 3 GHz 2 4 MB 25 W Sim US$ 311
Core i7-2657M 1,6 GHz 2,7 GHz 2 4 MB 17 W Sim US$ 317
Core i7-2617M 1,5 GHz 2,6 GHz 2 4 MB 17 W Sim US$ 289
Core i5-2540M 2,6 GHz 3,3 GHz 2 3 MB 35 W Sim US$ 266
Core i5-2520M 2,5 GHz 3,2 GHz 2 3 MB 35 W Sim US$ 225
Core i5-2410M 2,3 GHz 2,9 GHz 2 3 MB 35 W Sim
Core i5-2537M 1,4 GHz 2,3 GHz 2 3 MB 17 W Sim US$ 250
Core i3-2310M 2,1 GHz 2 3 MB 35 W Sim

Fonte: Internet, Inter, http://www.clubedohardware.com.br/noticias/Intel-Lanca-Processadores-Sandy-Bridge/2916

2011 03 04

 

 

 

 

 

Modelo Clock Turbo Clock Núcleos Cache L3 TDP HyperThreading? Preço nos EUA (mil unidades)
Core i7-2600K 3,4 GHz 3,8 GHz 4 8 MB 95 W Sim US$ 317
Core i7-2600S 2,8 GHz 3,8 GHz 4 8 MB 65 W Sim
Core i7-2600 3,4 GHz 3,8 GHz 4 8 MB 95 W Sim US$ 294
Core i5-2500K 3,3 GHz 3,7 GHz 4 6 MB 95 W Não US$ 216
Core i5-2500S 2,7 GHz 3,7 GHz 4 6 MB 65 W Não
Core i5-2500T 2,3 GHz 3,3 GHz 4 6 MB 45 W Não
Core i5-2500 3,3 GHz 3,7 GHz 4 6 MB 95 W Não US$ 205
Core i5-2400S 2,5 GHz 3,3 GHz 4 6 MB 65 W Não
Core i5-2400 3,1 GHz 3,4 GHz 4 6 MB 95 W Não US$ 184
Core i5-2300 2,8 GHz 3,1 GHz 4 6 MB 95 W Não US$ 177
Core i5-2390T 2,7 GHz 3,5 GHz 2 3 MB 35 W Sim
Core i3-2120 3,3 GHz 2 3 MB 65 W Sim US$ 138
Core i3-2100T 2,5 GHz 2 3 MB 35 W Sim
Core i3-2100 2,93 GHz 2 3 MB 65 W Sim US$ 117
Anúncios