Прогноз розвитку супер ЕОМ

ПОРІВНЯЛЬНИЙ АНАЛІЗ І ОЦІНКА СТАНУ РІВНЯ, тенденцій та перспектив

РОЗВИТКУ суперЕОМ

В даний час перехід до нових поколінь обчислювальних засобівнабуває особливої актуальності. Це пов'язано з потребами рішенняскладних задач великих розмірностей. Безперервне зростання характеристик новихзразків озброєнь вимагає розробки і створення принципово новихобчислювальних засобів для підтримки їх ефективного функціонування. Узв'язку з цим, усе більш зростають вимоги до продуктивності інадійності обчислювальних засобів для вирішення військово-прикладних задач.
Однопроцесорні обчислювальні системи вже не справляються з рішеннямбільшості військово-прикладних задач у реальному часі, тому дляпідвищення продуктивності обчислювальних систем військового призначення всічастіше використовуються багатопроцесорні обчислювальні системи (МВС).

Найбільший внесок у розвиток обчислювальних засобів завжди вносилитехнологічні рішення, при цьому основною характеристикоюпокоління обчислювальних систем була елементна база, тому що перехідна нову елементну базу добре корелюється з новим рівнем показниківпродуктивності та надійності обчислювальних систем. Бурхливий розвитоктехнології НВІС, розробка все нових і нових поколінь мікропроцесорівкілька припинило пошуки принципово нових архітектурних рішень. УВодночас стає очевидним, що чисто технологічні рішеннявтратили своє монопольне становище. Так, наприклад, у найближчій перспективіпомітно зростає значення проблеми подолання розриву між апаратнимизасобами і методами програмування. Ця проблема вирішується чистоархітектурними засобами, при цьому роль технології є непрямої:висока ступінь інтеграції створює умови для реалізації новихархітектурних рішень. При цьому стало очевидним, що без кардинальноїперебудови архітектурних принципів підтримувати інтенсивні темпи розвиткузасобів обчислювальної техніки вже неможливо.

За найбільш оптимістичними прогнозами тактові частоти сучасних іперспективних НВІС можуть бути збільшені в доступному для огляду майбутньому до 5 ГГц. У тойже час, досягнута ступінь інтеграції дозволяє будувати паралельнісистеми, в яких число процесорів може досягати десятків тисяч. Угалузі підвищення продуктивності обчислювальних систем резервтехнологічних рішень обмежується одним порядком. Освоєння жмасового паралелізму і нових архітектурних рішень містить резервпідвищення продуктивності на кілька порядків.

Основними вимогами, що пред'являються до багатопроцесорним системам змасовим паралелізмом, є: необхідність високої продуктивностідля будь-якого алгоритму; узгодження продуктивності пам'яті зпродуктивністю обчислювальної частини; здатність мікропроцесорівзлагоджено працювати при непередбачуваних затримки даних від будь-якогоджерела і, нарешті, машинно-незалежне програмування.

Збільшення ступеня паралелізму викликає збільшення числа логічнихсхем, що супроводжується збільшенням фізичних розмірів, в результаті чогозростають затримки сигналів на межз'єднань. Цей чинник призводить або дозниження тактової частоти, або до створення додаткових логічнихсходинок і, в результаті, до втрати продуктивності. Зростання числалогічних схем також призводить до зростання споживаної енергії і відводитьсятепла. Крім того, слід підкреслити, що більш високочастотнілогічні схеми при інших рівних умовах споживають велику потужність наодин вентиль. В результаті виникає теплофізичні бар'єр,обумовлений двома факторами: високою питомою щільністю тепловогопотоку, що вимагає застосування складних засобів відведення тепла, і високоїзагальною потужністю системи, що викликає необхідність використання складноїсистеми енергозабезпечення та спеціальних приміщень.

Іншим фактором, що впливає на архітектуру високопродуктивнихобчислювальних систем, є взаємозалежність архітектури та алгоритмівзавдань. Цей фактор часто призводить до необхідності створення проблемно -орієнтованих систем, при цьому може бути досягнута максимальнапродуктивність для даного класу задач. Зазначена взаємозалежністьє стимулом для пошуку алгоритмів, які найкраще відповідаютьможливим формам паралелізму на рівні апаратури. А так як для написанняпрограм використовуються мови високого рівня, необхідні певнізасоби автоматизації процесів розпаралелювання і оптимізації програм.

Класифікація паралельних обчислювальних систем, запропонована
Т. Джоном, заснована на поділі МВС за двома критеріями: способом побудовипам'яті (загальна або розподілена) і способу передачі інформації. Основнітипи машин за класифікацією Т. Джона представлені в таблиці 1. Тутприйняті наступні позначення: p-елементарний процесор, M - елементпам'яті, K-комутатор, С - кеш-пам'ять.

Паралельна обчислювальна система з загальною пам'яттю і шинноїорганізацією обміну (машина 1) дозволяє кожному процесору системи
"бачити", як вирішується завдання в цілому, а не тільки ті частини, над якимивін працює. Загальна шина, пов'язана з пам'яттю, викликає серйозні проблемидля забезпечення високої пропускної спроможності каналів обміну. Одним зспособів обійти цю ситуацію є використання кеш-пам'яті (машина 2).
У цьому випадку виникає проблема вмісту когерентності кеш-пам'яті іосновної. Іншим способом підвищення продуктивності систем євідмова від центральної пам'яті (машина 3).

Таблиця 1 - Класифікація МВС за типами пам'яті і передачі повідомлень

Ідеальною машиною є обчислювальна система, у якій коженпроцесор має прямі канали зв'язку з іншими процесорами, але в цьомувипадку потрібно надзвичайно великий обсяг обладнання для організаціїміжпроцесорних обмінів. Певний компроміс представляє мережу зфіксованого топологією, в якій кожен процесор сполучений з деякимпідмножиною процесорів системи. Якщо процесорів, які не маютьбезпосереднього каналу обміну, необхідно взаємодіяти, вони передаютьповідомлення через проміжні процесори. Одна з переваг такогопідходу - не обмежується зростання кількості процесорів в системі. Недолік --потрібна оптимізація прикладних програм, щоб забезпечити виконанняпаралельних процесів, для яких необхідно активний вплив насусідні процесори.

Найбільш цікавим варіантом для перспективних паралельнихобчислювальних комплексів є поєднання гідності архітектур зрозподіленою пам'яттю та каналами міжпроцесорного обміну. Один зможливих методів побудови таких комбінованих архітектур --конфігурація з комутацією, коли процесор має локальну пам'ять, апроцесори з'єднуються між собою за допомогою комутатора (машина 9).
Коммутатор може виявитися дуже корисним для групи процесорів зрозподіленою пам'яттю (машина 8). Дана конфігурація схожа на машину ззагальною пам'яттю (машина 7), але тут виключені проблеми пропускноїздатності шини.

Недоліками класифікації Т. Джона є приховування рівняпаралелізму в системі.

Паралелізм будь-якого роду вимагає одночасної роботи, по крайней мере,двох пристроїв. Такими пристроями можуть бути: арифметико-логічніпристрою (АЛП), пристрою керування (УУ). У ЕОМ класичноїархітектури УУ та АЛП утворюють процесор. Збільшення кількості процесорів абочисла АЛУ в кожному з них призводить до відповідного зростання паралелізму.
Наявність в ЕОМ декількох процесорів означає, що одночасно
(паралельно) можуть виконуватися кілька програм або кілька фрагментіводнієї програми. Робота декількох АЛУ під керуванням одного УУозначає, що безліч даних може оброблятися паралельно по однійпрограмі. Відповідно до цього опис структур паралельних системможна представити у вигляді впорядкованої трійки:

де k - кількість пристроїв управління, тобто найбільшу кількістьнезалежно і одночасно виконуваних програм в системі; d - кількість АЛП, що припадають на один пристрій управління; w - кількість розрядів, вміст яких обробляєтьсяодночасно (паралельно) одним арифметико-логічним пристроєм.

Інша форма розпаралелювання - конвейеризації, також вимагає наявностідекількох ЦП або АЛП. У той час, як безліч даних обробляється наодному пристрої, інше безліч даних може оброблятися на наступномупристрої і т.д., при цьому в процесі обробки виникає потік даних відодного пристрою (ЦП або АЛП) до наступного. Протягом усього процесу надодним безліччю даних виконується одне за одним n дій. Одночаснов конвеєрі на різних стадіях обробки можуть знаходитися від 1 до n даних.

Паралелізм і конвейеризації можна розглядати на трьох різнихрівнях, представлених в таблиці 2. Шість основних форм паралелізму, вширокому сенсі цього слова, дозволяють побудувати схему класифікації, врамках якої можна описати різноманітність високопродуктивнихобчислювальних систем та відобразити їх еволюцію.

Таблиця 2 - Класифікація МВС за типом розпаралелювання

У векторних суперЕОМ забезпечена гранична продуктивність дляпроцесів скалярною і векторної обробки, яка присутня вбільшості завдань. Завдання, які містять високий ступінь внутрішньогопаралелізму, можуть бути добре адаптовані до систем масовогопаралелізму. Реальні завдання і, тим більше, пакети завдань містять цілий рядалгоритмів, що мають різні рівні паралелізму.

Все це говорить про те, що замість спроб пристосувати всі типиалгоритмів до однієї архітектурі, що відбивається на конфігурації архітектур ісупроводжується не завжди коректними порівняннями піковоїпродуктивності, більш продуктивним є взаємодоповнення архітектурв єдиній системі. Одним з перших прикладів такої системи єоб'єднання векторної системи Cray Y-XM з системою Cray T3D. Однак, цеоб'єднання за допомогою високошвидкісного каналу призводить до необхідностірозбиття задач на великі блоки і до втрати часу і пам'яті на обмінінформацією.

Ситуація в даному випадку подібна до тієї, яка існувала допояви векторних машин. Для вирішення завдань, які містять велику кількістьоперацій над векторами і матрицями, використовувалися так звані матричніпроцесори, наприклад, фірми FSP, які підключалися до універсальноїмашині за допомогою каналу введення/виводу. Інтеграція скалярною і векторноїобробки в одному процесорі поряд із забезпеченням високої швидкості роботисинхронного конвеєра забезпечила успіх векторних машин.

Наступним логічним кроком є інтеграція скалярною, векторної тапаралельної обробки. Завдяки цьому, може бути досягнута високареальна продуктивність за рахунок розподілу окремих частинпрограми з підсистем з різною архітектурою. Природно, церозподіл роботи має бути підтримано апаратно-програмнимизасобами автоматизації програмування. Ці кошти повинні міститиможливість інтерактивного втручання програміста на етапі аналізузавдання і можливість моделювання або пробного запуску програми звиміром параметрів ефективності. Слід підкреслити, що формипаралелізму в алгоритмах досить різноманітні, тому й їхнє апаратневідображення може бути різним. До найбільш простим можна віднести системи зодним потоком команд і множинними потоками даних, системи змножинними потоками команд і даних, систолічний системи.

Одним з перспективних підходів, що забезпечують автоматичнерозпаралелювання, є принцип потоку даних, при якомупослідовність або одночасність обчислень визначається некомандами, а готовністю операндів і наявністю вільного функціональногоарифметичного пристрою. Однак, і в цьому випадку ступінь реальногорозпаралелювання залежить від внутрішнього паралелізму алгоритму і,очевидно, потрібні ефективні способи підготовки завдань. Крім того, дляреалізації таких систем необхідне створення асоціативної пам'яті для пошукуготових до роботи пар операндів і систем розподілу обчислень повеликій кількості функціональних пристроїв.

Апаратна реалізація паралельних підсистем повністю залежить відобраних мікропроцесорів, БІС пам'яті і інших компонентів. В данийчас з економічних причин доцільно використовувати найбільшвисокопродуктивні мікропроцесори, розроблені для уніпроцессорнихмашин.

Разом з тим, існують підходи, пов'язані із застосуваннямспеціалізованих мікропроцесорів, орієнтованих на використання впаралельних системах. Типовим прикладом є серія трансп'ютерів фірми
Inmos. Проте, із-за обмеженого ринку ця серія по продуктивностірізко відстала від універсальних мікропроцесорів, таких, як Alpha, Power
PC, Pentium. Спеціалізовані мікропроцесори зможуть бутиконкурентноспроможними тільки за умови скорочення витрат напроектування та освоєння у виробництві, що у великій мірі залежить відпродуктивності інструментальних обчислювальних засобів, що використовуються всистемах автоматизованого проектування.

У різних обчислювальних машинах використовувалися різні підходи,спрямовані на досягнення, в першу чергу, однією з наступних цілей:

- максимальна арифметична продуктивність процесора;

- ефективність роботи операційної системи і зручність спілкування з неюдля програміста;

- ефективність трансляції з мов високого рівня і виключеннянаписання програм на автокодом;

- ефективність розпаралелювання алгоритмів для паралельнихархітектур.

Однак, у будь-якій машині необхідно в тій чи іншій формі вирішувати всівказані завдання. Відзначимо, що спочатку намагалися досягти цього за допомогоюодного або декількох однакових процесорів.

Диференціація функцій і спеціалізація окремих підсистем початкурозвиватися з появи окремих підсистем і процесорів для обслуговуваннявведення/виводу, комунікаційних мереж, зовнішньої пам'яті і т.п.

У суперЕОМ крім основного процесора (машини) включалися зовнішнімашини. У різних системах можна спостерігати елементи спеціалізації внапрямках автономного виконання функцій операційної системи, системипрограмування і підготовки завдань.

По-перше, ці додаткові функції можуть виконуватися паралельно зосновними обчисленнями. По-друге, для реалізації не потрібні багато хто зтих коштів, які забезпечують високу продуктивність основногопроцесора, наприклад, можливість виконання операцій з плаваючою комоюі векторних операцій. Надалі, при інтеграції скалярною, векторної тапаралельної обробки в рамках єдиної обчислювальної підсистеми складцих допоміжних функцій має бути доповнений функціями аналізупрограм з метою забезпечення необхідного рівня паралелізму і розподілуокремих частин програми з різних гілок обчислювальної підсистеми.

Поява суперЕОМ супроводжувалося підвищенням їх загальної потужностіспоживання (вище 100 кВт) і збільшенням щільності теплових потоків нарізних рівнях конструкції. Їх створення не в останню чергу виявилосяможливим, завдяки використанню ефективних рідинних і фреоновихсистем охолодження. Чи є значна потужність істотною ознакоюсуперЕОМ? Відповідь на це питання залежить від того, що вкладається в поняттясуперЕОМ.

Якщо вважати, що суперЕОМ або, точніше, суперсистема - це система знайвищою можливою продуктивністю, то енергетичний чинник залишаєтьсяодним з визначальних цю продуктивність. У міру розвитку технологіїпотужність одного вентиля в мікропроцесорах зменшується, але при підвищенням темпівіпродуктивності процесора за рахунок паралелізму загальна потужність в рядівипадків зростає. При об'єднанні великої кількості мікропроцесорів в системі змасовим паралелізмом інтегральна потужність і тепловиділення стаютьпорівнянними з аналогічними показниками для векторно-конвеєрних систем.
Однак, іноді в рекламних цілях паралельні системи з невеликим числомпроцесорів порівнюються з суперкомп'ютерами попереднього або більш ранньогопоколінь, щоб показати їх переваги в сенсі простоти і зручностіексплуатації. Природно, з такого некоректного порівняння не можна зробитивисновок про доцільність створення сучасних суперсистем.

Основним стимулом створення суперсистем є потреби рішеннявеликих завдань. У свою чергу, дослідження і розробки по суперсистемстимулюють цілий комплекс фундаментальних і прикладних досліджень,результати яких використовуються надалі в інших областях. Першза все, це стосується архітектури та схемотехніки обчислювальних машин,високочастотних інтегральних схем і засобів межз'єднань, ефективнихсистем відводу тепла. Не менш важливі результати за методами розпаралелюванняпри виконанні окремих операцій і ділянок програм на апаратному рівні,методам побудови паралельних алгоритмів, мов і програмних систем дляефективного вирішення великих завдань.

У розвитку обчислювальних засобів можна виділити три основніпроблеми:

- підвищення продуктивності;

- підвищення надійності;

- покриття семантичного розриву.

Етапи розвитку обчислювальних засобів прийнято розрізняти за поколінняммашин. Характеристика покоління визначається конкретними показниками,відображають досягнутий рівень у вирішенні трьох перерахованих проблем.
Оскільки переважний внесок у розвиток обчислювальних засобів завждиналежав технологічним рішенням, основною характеристикоюпокоління машин вважалася елементна база. І дійсно, перехід нанову елементну базу добре корелюється з новим рівнем показниківпродуктивності, надійності і скорочення семантичного розриву.

В даний час актуальним є перехід до нових поколіньобчислювальних засобів. За традицією, що склалася вирішальна роль відводитьсятехнології виробництва елементної бази. У той же час стаєочевидним, що технологічні рішення втратили монопольне становище. Так,наприклад, у найближчій перспективі помітно зростає значення проблемипокриття семантичного розриву, що відображається у необхідності створеннявисокосложних програмних продуктів і вимагає кардинального зниженнятрудоемкотсі програмування. Ця проблема вирішується переважноархітектурними засобами. Роль технології тут може бути тількинепрямої: високий ступінь інтеграції створює умови для реалізаціїархітектурних рішень.

В даний час одним з домініруюшіх напрямків розвитку суперЕОМє обчислювальні системи c MIMD-паралелізмом на основі матрицімікропроцесорів. Для створення подібних обчислювальних систем, що складаються зсотень і тисяч пов'язаних процесорів, треба було подолати ряд складнихпроблем як в програмному забезпеченні (мови Parallel Pascal, Modula-2,
Ada), так і в апаратних засобах (ефективна комутаційна середу,високошвидкісні засоби обміну, потужні мікропроцесори). Елементна базасучасних виcокопроізводітельних систем характеризується виcокой ступенемінтеграції (до 3,5 млн. транзисторів на кристалі) і високими тактовимичастотами (до 600 МГц).

В даний час всі фірми і всі університети США, Західної Європи та
Японії, які розробляють суперЕОМ, ведуть інтенсивні дослідження в областібагатопроцесорних суперЕОМ з масовим паралелізмом, створюють безліч їхтипів, організують їх виробництво і прискореними темпами освоюють світовоїринок у цій області. Багатопроцесорні ЕОМ з масовим паралелізмом вженині суттєво випереджають по продуктивності традиційні суперЕОМ звекторно-конвеєрної архітектурою. Системи з масовим паралелізмомвисувають менші вимоги до мікропроцесорах та елементної бази та маютьзначно меншу вартість при будь-якому рівні продуктивності, ніжвекторно-конвеєрні суперЕОМ. Вже в поточному десятиріччі продуктивністьсуперЕОМ з масовим паралелізмом досягне колосальної величини (десятків тисяч мільярдів операцій у секунду з плаваючою комою над 64 --розрядними числами (десятків Тфлопс).

На щорічній конференції в Чепел-Хілл (Сев.Кароліна) представлений проектфірми IBM, метою якого є створення гіперкубіческого паралельногопроцесора в одному корпусі. Конструкція, названа Execube, має 8 16 --розрядних мікропроцесоров, вбудованих в кристал 4Мбіт динамічного
ЗУ (ДЗУ). При цьому ступінь інтегр становить 5 млн. транзисторів.
Мікросхема виготовлена за КМОП-технології з трьома рівнями металізації назаводі IBM Microelectronic (Ясу, Японія). Execube являє собою спробупідвищення ступеня інтеграції процесора з пам'яттю шляхом більш ефективногодоступу до інформації ДЗУ. По суті, пам'ять перетворюється на розширенірегістри процесорів. Продуктивність мікросхеми складає 50 млн оп/с.

Фірма CRAY Research обеявіла про початок випуску суперкопьютеров CRAY
T3/E. Основна характеристика, на якій акцентували увагурозробники - масштабність. Мінімальна конфігурація становить 8мікропроцесорів, максимальна-2048. У порівнянні з попередньою моделлю
T3/D співвідношення ціна/продуктивність знижена в 4 рази і становить 60дол/Мфлопс, чому сприяло застосування недорогих процесорів DEC Alpha
EVC, виготовлених за КМОП-технології. Орієнтовна вартість моделі Т3/Ена основі 16 процесорів з 1-Гбайт ЗУ складе 900 тис. доларів, а цінанайбільш потужної конфігурації (1024 процесора, ЗП 64 Гбайт) -39,7 млн.доларів при пікової продуктивності 600 Гфлопс.

Одним із способів подальшого підвищення продуктивностіобчислювальної системи є об'єднання суперкомп'ютерів у кластери придопомоги оптоволоконних з'єднань. З цією метою комп'ютери CRAY T3/Eзабезпечені каналами введення/виводу з пропускною здатністю 128 Гб/с.
Потенційні замовники виявляють підвищений інтерес до нової розробкифірми. Бажання придбати комп'ютер виявили такі організації як
Pittsburgh Supercomputer Center, Mobile Oil, Департамент з океанографії іатмосферних досліджень США. При цьому підписано кілька контрактів навиготовлення декількох комп'ютерів 512-процесорній конфігурації.

Серед японських компаній слід виділити фірму Hitachi, якавипустила суперкомп'ютер SR2201 з масовим паралелізмом, що містить до
2048 процесором. В основі системи перероблена компанією процесорнаархітектура RA-RISC від фірми Hewlett-Paccard. Псевдовекторний процесорфункціонує під управлінням ОС HP-UX/MPP Mash 3.0. У комп'ютері, крімтого, використана система підтримки паралельного режиму роботи Express,створена корпорацією Parasoft і отримала назву ParallelWare.
Продуктивність нового комп'ютера складає 600 Гфлопс. До березня 1999фірма планує продати 30 суперкомп'ютерів.

Одним з найбільш масштабних проектів у галузі створенняобчислювальних засобів з масовим паралелізмом є проект фірми Intelз розробки самого швидкодіючого комп'ютера на основімікропроцесорів шостого покоління P6. Нова система, яку плануєтьсявстановити в Sandia National Laboratories складатиметься з 9000процесорів Pentium P6 і мати пікову продуктивність 1000 Гфлопс.
Замовником системи є міністерство енергетики США. При цьому основнийобластю застосування буде моделювання підземних ядерних вибухів
, Що дозволить витрачати 25 млн. доларів на рік замість 300 млн.

За останнє десятиріччя має місце наступна днінаміка зростанняпродуктивності паралельних обчислювальних систем в США:
1987 р. - 50 Мфлопс

1989 р. - 1 Гфлопс (суперкомп'ютери РМ)

1991 р. - 10 Гфлопс (векторні процесори і процесори серії 528)

1994р. - 100 Гфлопс (CRAY, PARAGON)

1996-1997рр. - 200-500 Гфлопс (комбінація векторного процесора і куба потокової обробки).

1998-1999 рр.. -1000-3000 Гфлопс (ASCI, T3E)
Особливо видатними характеристиками відрізняються суперкомп'ютери в середині 90 --х років:

- Фірма IBM ALPS (1024 процесора RS6000, продуктивність 50 Гфлопс);
-Intel Paragon XPS (1872 процесора, продуктивність 72,9 Гфлопс);
- Thinking Mashines CM5 (512 процесорів Super Spark, продуктивність 83
Гфлопс);
- NCube 2SM80 (8192 процесора, продуктивність 84Гфлопс);
- Numerical Wind Tunnel (140 процесорів, продуктивність 124 Гфлопс натестах LINPACK);
- Intel Paragon XPS Supercomputer (4000 процесорів 1860XP,продуктивність 300 Гфлопс)
- Сray Research MPP System (2048 процесорів Alpha, продуктивність -
300 Гфлопс)
- Thinking Mashines CM5 (16384 процесора Super Spark, продуктивність
1000 Гфлопс)

Короткі харатеристик найпоширеніших сучаснихсуперкомп'ютерів наведені нижче

IBM RS/6000 SP2

Виробник-International Business Machines (IBM), відділення
RS/6000.

Клас архітектури: Масштабована масивно-паралельна обчислювальнасистема (MPP).

Вузли мають архітектуру робочих станцій RS/6000. Існують декількатипів "SP-вузлів", які комплектуються різними процесорами: PowerPC
604e/332MHz, P2SC/160MHz, POWER3/MHz (більш ранні системи комплектувалисяпроцесорами POWER2/66 і 77MHz). Можливе встановлення вузлів з SMP -архітекутурой - до 4 процесором PowerPC. Об'єм пам'яті для POWER3-вузлів - до
4GB, для PowerPC-вузлів - до 3GB.

Доступні конфігурації SP від 2 до 128 вузлів (і до 512 за спеціальнимзамовленням). Вузли встановлюються в "стійки" (до 16 вузлів у кожній). Одна SP -система може містити вузли різних типів.

Вузли зв'язані між собою високопродуктивних комутатором (IBM high -performance switch), який має багатостадійну структуру і працює зкомутацією пакетів.
Cистемное ПО: OC AIX (встановлюється на кожному вузлі). LoadLeveler --система підтримки пакетної обробки. Паралельні програми виконуютьсяпід керуванням Parallel Operating Environment (POE).
Засоби програмування: поставляється оптимізована реалізаціяінтерфейсу MPI (раніше - MPL).

HP 9000 (Exemplar)

Виробник: Hewlett-Packard, High-performance systems division.

Клас: багатопроцесорні сервера із загальною пам'яттю (SMP).

В даний час доступні декілька "класів" систем сімейства HP
9000: сервера початкового рівня (D, K-class), середнього рівня (N-class) інайбільш потужні системи (V-class).
Процесори: 64-бітові процесори c архітектурою PA-RISC 2.0 (PA-8200, PA-
8500).

Число процесорів: N-class - до 8 процесорів. V-class - до 32процесорів. В подальшому очікується збільшення кількості процесорів до 64, апотім до 128.

Можливе об'єднання до 16 SMP-гіперузлов V-class або K-class вкластер "HP Enterprise Parallel Server". Для зв'язку вузлів використовуєтьсякомутатор HP HyperFabric.
Системне ПО: встановлюється операційна система HP-UX (сумісна нарівні двійкового коду з ОС SPP-UX комп'ютерів Convex SPP).
Засоби програмування: HP MPI - реалізація MPI 1.2, оптимізованадо архітектури Exemplar. Распараллелівающіе компілятори Fortran/C,математична бібліотека HP MLIB. CXperf - засіб аналізупродуктивності програм.

Cray T3E

Виробник: Silicon Graphics

Клас архітектури: масштабована масивно-паралельна система,складається з процесорних елементів (PE).

В даний час існують дві модифікації: T3E-900 і T3E-1200.

Процесорний елемент PE складається з процесора, блоку пам'яті іпристрою сполучення з мережею. Використовуються процесори Alpha 21164 (EV5) зтактовою частотою 450 MHz (T3E-900) і 600 MHz (T3E-1000), піковапродуктивність яких становить 900 і 1200 MFLOP/sec відповідно.
Процесорний елемент має в своєму розпорядженні своєю локальною пам'яттю (DRAM) обсягом від
256MB до 2GB.

Системи T3E масштабуються до 2048 PE.

Процесорні елементи пов'язані високопродуктивної мережею зтопологією тривимірного тора і двонаправленими каналами. Швидкість обмінівпо мережі досягає 480MB/sec в кожному напрямку.

Використовується операційна система UNICOS/mk.

Підтримується явне паралельне програмування c допомогою пакета
Message Passing Toolkit (MPT) - реалізації інтерфейсів передачі повідомлень
MPI, MPI-2 і PVM, бібліотека Shmem. Для Фортран-програм можливо такожнеявне розпаралелювання в моделях CRAFT і HPF. Середа розробки включаєтакож набір візуальних засобів для аналізу та налагодження паралельних програм.

Cray T90

Виробники: Silicon Graphics, Cray Research.

Клас архітектури: багатопроцесорна векторна система (кількавекторних процесорів працюють на загальній пам'яті).

Моделі T90 Серія включає моделі T94, T916 і T932.

Процесор Системи серії T90 базуються на векторно-конвеєрномупроцесорі Cray Research з пікової продуктивністю 2GFlop/s.
Число процесорів Система T932 може включати до 32 векторних процесорів
(до 4-х в моделі T94, до 16 моделі T916), забезпечуючи піковупродуктивність більш 60GFlop/s.

Можливе об'єднання декількох T90 в MPP-системи.

Система T932 містить від 1GB до 8GB (до 1 GB в моделі T94 і до 4GB вмоделі T916) оперативної пам'яті і забезпечує швидкість обмінів з пам'яттюдо 800MB/sec.

Використовується операційна система UNICOS.

Cray SV1

Виробник: Silicon Graphics

Клас архітектури: масштабований векторний суперкомп'ютер .

Використовуються 8-конвеєрні векторні процесори MSP (Multi-Streaming
Processor) з пікової продуктивністю 4.8 GFLOP/sec, кожен MSP можебути поділені на 4 стандартних 2-конвеєрних процесора з піковоїпродуктивністю 1.2 GFLOP/sec. Тактова частота процесорів - 250MHz.

Процесори об'єднуються у SMP-вузли, кожен з яких може містити
6 MSP і 8 стандартних процесорів. Система (кластер) може містити до 32таких вузлів.

SMP-сайт може містити від 2 до 16GB пам'яті. Система може міститидо 1TB пам'яті. Вся пам'ять глобально адресуються (архітектура DSM).

Використовується операційна система UNICOS.

Поставляється векторізующій і распараллелівающій компілятор CF90.
Підтримується також явна паралельне програмування з використаннямінтерфейсів MPI, OpenMP або Shmem.

Cray Origin2000

Виробник Silicon Graphics

Клас архітектури: модульна система з загальною пам'яттю (cc-NUMA).

Використано 64-розрядні RISC-процесори MIPS R10000, R12000/300MHz

Основний компонент системи - модуль Origin, що включає від 2 до 8процесорів MIPS R10000 і до 16GB оперативної пам'яті. Поставляються системи
Origin2000, що містять до 256 процесорів (тобто до 512 модулів). Вся пам'ятьсистеми (до 256GB) глобально адресуються, апаратно підтримуєтьсякогерентність кешей. Модулі системи з'єднані за допомогою мережі CrayLink,побудованої на маршрутизаторах MetaRouter.

Використовується операційна система SGI IRIX. Поставляєтьсяраспараллелівающій компілятор Cray Fortran 90. Підтримується стандарт
OpenMP.

Onyx2 InfiniteReality2

Виробник Silicon Graphics

Клас архітектури: багатопроцесорна система візуалізації; поапаратної архітектурі дуже схожа на Origin2000.

Система може включати до 128 процесорів MIPS R10000.

Графічні можливості системи забезпечують спеціальні пристроїтрьох типів: геометричні (векторні) процесори, растрові процесори,генератори аналогових сигналів. Система може бути обладнана 16незалежними каналами графічного виводу (visualization pipelines). Наапаратному рівні підтримується графічний інтерфейс OpenGL.

Використовується операційна система SGI IRIX.

Sun HPC 10000 (StarFire)

Виробник Sun Microsystems, серія Sun HPC.

Клас архітектур: багатопроцесорний SMP-сервер.

Процесор UltraSPARC II/336MHz

Система StarFire поєднує від 16 до 64 процесорів.

Система включає від 2GB до 64GB пам'яті.

Системне ПЗ: ОС Solaris, ПО розподілу ресурсів Load Sharing
Facility (LSF). Поставляється пакет підтримки паралельних програм Sun
HPC 2.0, що включає такі засоби як HPF, MPI, PVM, PFS (паралельнафайлова система), Prism (візуальне середовище розробки), S3L (бібліотекаматематичних підпрограм), та ін

NEC SX-5

Виробник NEC, серія SX.

Клас архітектури: паралельний векторний суперкомп'ютер (PVP).

Кожен вузол системи є векторно-конвеєрним SMP -суперкомп'ютером, що об'єднує до 16 індивідуальних векторних процесорів
(кожен з пікової векторної продуктивністю 8 Gflop/s і скалярноюпродуктивністю 500 MFlop/s).

Об'єм пам'яті кожного вузла - до 128GB, продуктивність обмінів зпам'яттю досягає 1TB/sec. Система може включати до 32 вузлів, забезпечуючисукупну пікову продуктивність до 4 TFlop/s.

Для зв'язку вузлів використовується високошвидкісний комутатор (IXS
Internode Crossbar Switch).

Використовується операційна система SUPER-UX.

Поставляються компілятор мови HPF, реалізація інтерфейсу MPI,компілятори Fortran77/SX і Fortran90/SX з автоматичним розпаралелюваннямі векторизація, а також інтегроване середовище розробки та оптимізації
PSUITE.

Fujitsu VPP

Виробник Fujitsu

Клас архітектури паралельний векторний суперкомп'ютер (PVP).

Модифікації VPP300, VPP700, VPP5000

Кожен процесорний елемент (PE) системи VPP700E складається скалярногопристрої (SU), векторного пристрої (VU), блоку пам'яті та устаткуваннясполучення. Для VPP700: VU складається з 7 конвеєрів і забезпечує піковупродуктивність до 2.4 GFLOP/sec. Об'єм пам'яті - до 2GB. Для VPP5000:
VU складається з 4 конвеєрів, пікова продуктивність - 9.6 GFLOP/sec.
Об'єм пам'яті - до 16GB.

Для VPP700: cистема може включати від 8 до 256 PE, сумарна піковапродуктивність до 14.4 GFLOP/sec Для VPP5000: до 512 PE, сумарнапікова продуктивність до 4.9 TFLOP/sec.

Процесорні елементи пов'язані комутатором (crossbar network), якийпроводити двосторонні обміни, не перериваючи обчислень. Пропускнаспроможність каналів комутатора: для VPP700 - 615MB/sec, для VPP5000 -
1.6GB/sec. Використовується операційна система UXP/V, заснована на UNIX
System VR4.

Серед засобів розробки поставляються: распараллелівающій івекторізующій компілятор Fortran90/VPP, оптимізована для VPP бібліотекаматематичних підпрограм SSLII/VPP, бібліотеки передачі сообшеній MPI-2 і
PVM 3.3.

AlphaServer

Виробник Compaq, Digital.

Високопродуктивний SMP-сервер, AlphaServer Array - кластернасистема.

Процесори GS140 і GS60 - Alpha 21264, 8400 і 8200 - Alpha 21164

Число процесорів GS140 і 8400 - до 14, GS60 і 8200 - до 6 < p> Об'єм пам'яті GS140 - до 28GB.

Кластери AlphaServer Array можуть поєднувати до 8 вузлів AlphaServer,тобто в цілому до 112 процесорів. Можуть комбінуватися вузлирізних типів. Вузли зв'язуються між собою комутатором MEMORY CHANNEL,який забезпечує швидкість обмінів до 66MB/sec і латентність порядку 3мкс.

На платформі AlphaServer підтримуються операційні системи Tru64
UNIX (це нове ім'я Digital UNIX), OpenVMS і Windows NT. Поставляється ПОкластеризації TruCluster Software.

Використовуються комунікаційні бібліотеки TruCluster MEMORY CHANNEL
Software і MPI. Підтримується розпаралелювання в стандарті OpenMP.

Особливо видатними характеристиками відрізняються суперкомп'ютери наприкінці
90-х років предстіавлени в таблиці 3.

Таблиця 3 - найбільш швидкодіючі суперекомпьютери

| № | Виготовити | Суперкомп'ютер | Країна | Рік | Число | Пікова | Реальна |
| | Ль | | | створення | процесор | виробниц | виробниц |
| | | | | Я | ів | і-тельно | і-тельно |
| | | | | | | Сть, | сть на |
| | | | | | | Гфлопс | пакеті |
| | | | | | | | LINPAK, |
| | | | | | | | Гфлопс |
| 1 | Intel | ASCI Red | USA | 1999 | 9472 | 3154 | 2121.3 |
| 2 | SGI | ASCI Blue | USA | 1998 | 6144 | 3072 | 1608 |
| | | Mountain | | | | | |
| 3 | SGI | T3E1200 | USA | 1998 | 1084 | 1300.8 | 891.5 |
| 4 | Hitachi | SR8000/128 | Japan | 1999 | 128 | 1024 | 873.6 |
| 5 | SGI | T3E900 | USA | 1997 | 1324 | 1191.6 | 815.1 |
| 6 | SGI | ORIGIN2000 | USA | 1999 | 2048 | 1024 | 690.9 |
| 7 | SGI | T3E900 | UK | 1997 | 876 | 788.4 | 552.92 |
| 8 | IBM | SP Silver | USA | 1998 | 1952 | 1296 | 547 |
| 9 | SGI | T3E900 | USA | 1999 | 812 | 730.8 | 515.1 |
| 10 | SGI | T3E1200 | UK | 1998 | 612 | 734 | 509.9 |
| 11 | IBM | ASCI Blue | USA | 1998 | 1344 | 892 | 468.2 |
| | | Pacific CTR SP | | | | | |
| | | Silver | | | | | |
| 12 | Hitachi | SR8000/64 | Japan | 1999 | 64 | 512 | 449.7 |