2Содержаніе p>
Вступ 2 p>
Два кристала в одному корпусі 3 p>
Pentium як точка відліку 4 p>
Основна проблема на шляху підвищення продуктивності 5 p>
Рішення прийняте в P6 6 p>
Архітектура P6 7 p>
1. Пристрій вибірки/декодування 7 p>
2. Пристрій диспетчеризація/виконання 8 p>
3. Пристрій відкату 9 p>
4. Інтерфейс шини 10 p>
5. Висновок 11 p>
P6 як платформа для побудови потужних серверів 12 p>
Системи на основі P6 13 p>
Наступне покоління процесорів 14 p>
Висновок 17
Програми 18 p>
Література 22
. p>
. 2 - p>
ш1.1 p>
2Вступленіе p>
Всі IBM-сумісні персональні комп'ютери укомплектовані Intel -сумісними процесорами. Історія розвитку мікропроцеси-рів сімейства
Intel коротенько така. Перший універсальний мікро-процесор фірми Intelз'явився в 1970 р. Він називався Intel 4004, був чотирирозрядний і мавможливість введення/виводу і обробки четирехбітних слів. Швидкодія йогостановило 8000 операцій в секунду. Мікропроцесор Intel 4004 буврозрахований на застосування в програмованих калькуляторах з пам'яттю розміромв 4 Кбайт. p>
Через три роки фірма Intel випустила процесор 8080, який p>
міг виконувати вже 16-бітові арифметичні операції, мав 1б-раз- p>
рядну адресну шину і, отже, міг адресувати до 64 Кбайт p>
пам'яті (2 516 0 = 65536). 1978 ознаменувався випуском процесора p>
8086 з розміром слова в 16 біт (два байти), 20-розрядної шиною і p>
міг оперувати вже з 1 Мбайт пам'яті (2 520 0 = 1048576, або 1024 p>
Кбайт), поділеної на блоки (сегменти) за 64 Кбайт кожен. Про- p>
цессора 8086 комплектувалися комп'ютери, сумісні з IBM PC і p>
IBM PC/XT. Наступним великим кроком у розробці нових мікропро- p>
цессора став що з'явився в 1982 році процесор 8028б. Він володів p>
24-розрядної адресної шиною, міг розпоряджатися 16 мегабайтами ад- p>
РЕКН простору і ставився на комп'ютери, сумісні з IBM p>
PC/AT. У жовтні 1985 року був випущений 80386DX з 32 - розрядної p>
шиною адреси (максимальний адресний простір - 4 Гбайт), а в p>
червні 1988 року - 80386SX, дешевший в порівнянні з 80386DX і p>
що володів 24-розрядної адресної шиною. Потім у квітні 1989 року p>
з'являється мікропроцесор 80486DX, а в травні 1993 - перший варіант p>
процесора Pentium (обидва з 32-розрядної шиною адреси). P>
В травні 1995 року в Москві на міжнародній виставці Комтек-95 p>
фірма Intel представила новий процесор - P6. p>
Однією з найважливіших цілей, поставлених при розробці P6, p>
було подвоєння продуктивності в порівнянні з процесором Pen- p>
tium. При цьому виробництво перших версій P6 буде здійснюватися p>
по вже налагодженій «Intel» і що використовується при виробництві останнім p>
них версій Pentium напівпровідникової технології (О, 6 мкм, З, З В) . p>
Використання того ж самого процесу виробництва дає гарантію p>
того, що масове виробництво P6 буде налагоджено без серйозних p>
проблем. Разом з тим це означає, що подвоєння виробник- p>
ності досягається тільки за рахунок всебічного поліпшення мікроар- p>
хітектури процесора. При розробці мікроархітектури P6 викорис- p>
тися ретельно продумана і налаштована комбінація різних p>
архітектурних методів. Частина з них була раніше випробувана в про- p>
цессора «великих» комп'ютерів, частина запропонована академічними p>
інститутами, що залишилися розроблені інженерами фірми «Intel». Ця p>
унікальна комбінація архітектурних особливостей, яку в «In- p>
tel» визначають словами «динамічне виконання», дозволила пер- p>
вим кристалам P6 перевершити спочатку планувався рівень p>
продуктивності. p>
При порівнянні з альтернативними «Intel» процесорами семейс -тва х86 з'ясовується, що мікроархітектура Р6 має багато спільного змікроархітектури процесорів Nx586 фірми NexGen і K5 фірми AMD,і, хоча й у меншій мірі, з M1 фірми «Cyrix». Ця спільність p>
. 3 - p>
пояснюється тим, що інженери чотирьох компаній вирішували одне й те p>
ж завдання: впровадження елементів RISC-технології при збереженні p>
сумісності з CISC-архітектурою Intel х86. p>
2Два кристала в одному корпусі p>
Головна перевага і унікальна особливість Р6 - розміщений-ва в одномукорпусі з процесором вторинна статична кеш-па-м'яти розміром 256 кб,з'єднана з процесором спеціально виокрем-ленній шиною. Така конструкціяповинна суттєво спростити про-ектировании систем на базі Р6. Р6 --перший призначений для масового виробництва мікропроцесор,що містить два чіпи в од-ному корпусі. p>
Кристал ЦПУ в Р6 містить 5,5 мільйонів транзисторів; крис- p>
Талл кеш-пам'яті другого рівня - 15,5 мільйонів. Для порівняння, p>
остання модель Pentium включала близько 3,3 мільйона транзісто- p>
рів, а кеш-пам'яті другого рівня реалізовувалася за допомогою зовн- p>
нього набору кристалів пам'яті. p>
Така велика кількість транзисторів в кеші пояснюється його ста- p>
тичної природою. Статична пам'ять в P6 використовує шість тран- p>
зісторов для запам'ятовування одного біта, у той час як динамічної p>
пам'яті було б достатньо одного транзистора на біт. Статична p>
пам'ять швидше, але дорожче. P>
Хоча число транзисторів на кристалі з вторинним кешем втричі p>
більше, ніж на кристалі процесора, фізичні розміри кеша p >
менше: 202 квадратних міліметра проти 306 у процесора. Обидва p>
кристала разом укладені в керамічний корпус з 387 контактами p>
( "dual cavity pin-drid array"). Обидва кристала виробляються з при- p>
трансформаційних змін однією і тією ж технологією (0,6 мкм, 4 - шарова ме- p>
Таль-БіКМОП, 2,9 В). Передбачуване максимальне споживання p>
енергії: 20 Вт при частоті 133 МГц. P>
Перша причина об'єднання процесора і вторинного кеша в p>
одному корпусі - полегшення проектування та виробництва високоп - p>
роізводітельних систем на базі Р6. Продуктивність обчислювальному p>
котельної системи, побудованої на швидкому процесорі, дуже сильно p>
залежить від точної настройки мікросхем оточення процесора, в p>
зокрема вторинного кеша. Далеко не всі фірми-виробники p>
комп'ютерів можуть дозволити собі відповідні дослідження. В p>
Р6 вторинний кеш вже налаштований на процесор оптимальним чином, p>
що полегшує проектування материнської плати. P>
Друга причина об'єднання - підвищення продуктивності. P> < p> КЗШ другого рівня пов'язаний з процесором спеціально виділеній ши- p>
ної шириною 64 біта і працює на тій же тактовою частотою, що і p>
процесор. p>
Перші процесори Рentium з тактовою частотою 60 і 66 МГцзверталися до вторинного кешу по 64-розрядної шини з тієї ж такт -вої частотою. Однак зі зростанням тактової частоти Pentium для проек -тіровщіков стало дуже складно і дорого підтримувати таку годину -тоту на материнській платі. Тому стали застосовуватися дільникичастоти. Наприклад, у 100 МГц Pentium зовнішня шина працює начастоті 66 МГц (у 90 МГц Pentium - відповідно 60 МГц). Penti -um використовує цю шину як для звернень до вторинного кешу, так і p>
. 4 - p>
для звернення до основної пам'яті та інших пристроїв, наприклад, до p>
набору чіпів PCI. P>
Використання спеціально виділеній шини для доступу до дру- p >
ричного кешу покращує продуктивність обчислювальної системи. p>
По-перше, при цьому досягається повна синхронізація швидкостей p>
процесора і шини, по-друге, виключається конкуренція з іншими p >
операціями вводу-виводу і пов'язані з цим затримки. Шина кеша p>
другого рівня повністю відділена від зовнішньої шини, через яку p>
відбувається доступ до пам'яті і зовнішніх пристроїв. 64-бітова p>
зовнішня шина може працювати зі швидкістю, яка дорівнює половині, однією p>
третього або однієї четвертої від швидкості процесора, при цьому шина p>
вторинного кеша працює незалежно на повній швидкості. p>
Об'єднання процесора і вторинного кеша в одному корпусі і p>
їх зв'язок через виділену шину є кроком у напрямку до p>
методів підвищення продуктивності, використовуваним в найбільш p>
потужних RISC-процесорах. Так, в процесорі Alpha 21164 фірми «Di- p>
gital» кеш другого рівня розміром 96 кб розміщений в ядрі процес- p>
сміття, як і первинний кеш. Це забезпечує дуже високу вироби, p>
водітельность кеша за рахунок збільшення кількості транзисторів на крис- p>
Талль до 9,3 мільйона. Продуктивність Alpha 21164 становить p>
330 SPECint92 при тактовій частоті 300 МГц. Продуктивність Р6 p>
нижче (за оцінками «Intel» - 200 SPECint92 при тактовою частотою 133 p>
МГц), однак Р6 забезпечує найкраще співвідношення стоімость/проіз- p>
водітельность для свого потенційного ринку. p>
При оцінці співвідношення вартість/продуктивність слід p>
враховувати, що, хоча Р6 може виявитися дорожче своїх конкурентів, p>
більша частина інших процесорів повинна бути оточена додаткового- p>
тільних набором чипів пам'яті і контролером кеша. Крім того, для p>
досягнення порівнянної продуктивності роботи з кешом, інші p>
процесори повинні будуть використовувати кеш більшого, ніж 256 кб p>
розміру. P> < p> «Intel», як правило, пропонує численні варіації p>
своїх процесорів. Це робиться з метою задовольнити розмаїтості- p>
вим вимогам проектувальників систем і залишити менше простий- p>
ранства для моделей конкурентів. Тому можна припустити, що p>
незабаром після початку випуску Р6 з'являться як модифікації з відвели- p>
ченним об'ємом вторинної кеш-пам'яті, так і більш дешеві модиф- p>
каціі із зовнішнім розташуванням вторинного кеша, але при збереженої p>
виділеної шині між вторинним кешом і процесором. p>
2Pentium як точка відліку p>
Процесор Pentium зі своєю конвеєрної і суперскалярної ар-хітектуройдосяг вражаючого рівня продуктивності. p>
Pentium містить два 5-стадійний конвеєра, які можуть p>
працювати паралельно і виконувати дві цілочисельні команди за ма- p>
шинний такт. При цьому паралельно може виконуватися тільки пара p>
команд, що слідують у програмі один за одним і задовольняють p>
певними правилами, наприклад, відсутність реєстрових залежність p>
мосту типу « запис після читання ». p>
У P6 для збільшення пропускної здатності здійснено пере- p>
хід до одного 12-стадійним конвеєру. Збільшення числа стадій p>
. 5 - p>
призводить до зменшення виконуваної на кожній стадії роботи і, як p>
наслідок, до зменшення часу перебування команди на кожній ста- p>
дии на 33 відсотка в порівнянні з Pentium. Це означає, що ви- p>
користування при виробництві P6 тією ж технологією, що і при про- p>
ізводстве 100 МГц Pentium, призведе до отримання P6 з тактовою p>
частотою 133 МГц. p>
Можливості суперскалярної архітектури Pentium, з її спосіб- p>
ністю до виконання двох команд за такт, було б важко перевершити p>
без абсолютно нового підходу. Застосований в P6 новий підхід уст- p>
ранячи жорстку залежність між традиційними фазами «вибірки» і p>
«виконання», коли послідовність проходження команд через p>
ці дві фази відповідає послідовності команд у програмі. p>
Новий підхід пов'язаний з використанням так званого пулу команд p>
і з новими ефективними методами передбачення майбутньої поведінки p>
програми. При цьому традиційна фаза «виконання» замінюється на p>
дві: «диспетчеризація/виконання» і «відкат». В результаті команди p>
можуть починати виконуватися в довільному порядку, але завершують p>
своє виконання завжди відповідно до їх вихідним порядком у p>
програмі. Ядро P6 реалізовано як три незалежних пристрої, p>
взаємодіючих через пул команд (рис. 1). P>
2Основная проблема на шляху підвищення p>
2проізводітельності p> < p> Рішення про організацію P6 як трьох незалежних і взаємодією-твующіх черезпул команд пристроїв було прийнято після ретельного аналізу факторів,обмежують продуктивність сучасних мікропроцесорів.
Фундаментальний факт, справедливий для Pentium і багатьох інших процесорів, полягає в тому, що при виконанні реальних програм потужністьпроцесора не використовується повною мірою. Розглянемо як прикладнаступний фрагмент програми, записаний на певному умовному мовою: p>
r1 p>