Параллельные системы баз данных

⇐ ПредыдущаяСтр 5 из 5

Параллельные системы баз данных начинают вытеснять традиционные компьютеры основного класса, так как они позволяют работать со значительно более крупными базами данных в режиме, поддерживающем транзакции.

Десять лет назад будущее параллельных машин баз данных выглядело неопределенным даже для самых верных их сторонников. Большинство проектов разработки машин баз данных концентрировалось вокруг специализированного аппаратного обеспечения, находящегося еще в стадии разработки, такого как CCD-память (charge-coupled device, устройство с зарядовой связью), пузырьковая память (bubble memory), диски с фиксированными головками и оптические диски. Ни одна из этих технологий себя не оправдала.

Таким образом, создалось впечатление, что традиционые центральные процессоры, электронная основная память и магнитные диски с подвижными головками будут доминировать в течение еще многих лет. В то время прогнозы сходились на том, что пропускную способность диска удастся увеличить в два раза, а скорость процессоров возрастет намного больше. Следовательно, скептики предрекали, что многопроцессорные системы вскоре столкнутся с проблемами ограниченной пропускной способности при вводе-выводе, если только не будет найден способ расширения этого узкого места.

В то время как прогноз о будущем аппаратного обеспечения оказался достаточно точным, скептики ошиблись в предсказании будущего параллельных систем баз данных. За последние десять лет компании Teradata, Tandem и ряд новоявленных компаний успешно разрабатывали и продавали параллельные машины.

Каким образом параллельным системам баз данных удалось избежать участи экспоната в кунсткамере компьютерных неудач? Одно из объяснений – широкое распространение реляционных баз данных.

Реляционные базы данных, как мы уже знаем, состоят из таблиц. Каждая таблица состоит из столбцов (их называют полями или атрибутами) и строк (их называют записями или кортежами).

Таблицы в реляционных базах данных обладают рядом свойств. Основными являются следующие:
В таблице не может быть двух одинаковых строк. В математике таблицы, обладающие таким свойством, называют отношениями - по-английски relation, отсюда и название - реляционные.

Столбцы располагаются в определенном порядке, который создается при создании таблицы. В таблице может не быть ни одной строки, но обязательно должен быть хотя бы один столбец.

У каждого столбца есть уникальное имя (в пределах таблицы), и все значения в одном столбце имеют один тип (число, текст, дата...).

На пересечении каждого столбца и строки может находиться только атомарное значение (одно значение, не состоящее из группы значений). Таблицы, удовлетворяющие этому условию, называют нормализованными.

Две операции могут работать последовательно, если направить вывод одной операции на вход другой. Это так называемый конвейерный параллелизм (pipelined parallelism). Если разделять вводимые данные между несколькими процессорами и памятью, часто оказывается возможным разбить операцию на несколько независимых операций, каждая из которых работает с частью данных. Такое разделение данных и обработки называется раздельным параллелизмом (partitioned рarallelism) (смотри рисунок).

Рисунок конвеерный параллелизм

Потоковый подход к реляционным операторам включает как конвейерный, так и разделенный параллелизм. Реляционные операции принимают отношения (однородные наборы записей) в качестве ввода и производят отношения на выходе. Это позволяет составлять из них графы потоков данных, что делает возможным конвейерный параллелизм (слева), при котором одна операция вычисляется параллельно с другой, и раздельный параллелизм, при котором операции (сортировка и просмотр на диаграмме справа) дублируются для каждого источника данных и дубли выполняются параллельно.

При потоковом подходе к организации систем баз данных необходима операционная система типа клиент-сервер, основанная на передаче сообщений для взаимосвязи параллельных процессов, в которых выполняются реляционные операции. Для этого, в свою очередь, требуется высокоскоростная сеть, обеспечивающая взаимосвязь параллельных процессоров. Такие средства казались экзотическими еще десять лет назад, теперь же они находятся в основном русле компьютерной архитектуры. В парадигме " клиент-сервер" высокоскоростные локальные сети (LAN) рассматриваются как основа для большей части персональных компьютеров, рабочих станций и программного обеспечения рабочих групп. В то же время механизмы " клиент-сервер" являются превосходным базисом для разработки распределенных баз данных.

Перед разработчиками машин основного класса встала трудноразрешимая задача создания достаточно мощных компьютеров, способных удовлетворить требования к ЦПУ и вводу/выводу, предъявляемые реляционными базами данных, которые обслуживают одновременно большое число пользователей или осуществляют поиск в терабайтных базах данных. Тем временем стали широко доступны мультипроцессоры разных поставщиков, основанные на быстрых и недорогих микропроцессорах, включая Encore, Intel, NCR, nCUBE, Sequent, Tandem, Teradata и Thinking Machines. Эти машины обладают большей мощностью за меньшую цену, чем их аналоги класса мэйнфрейм. Модульная архитектура мультипроцессоров позволяет при необходимости наращивать систему, увеличивая скорость процессоров, расширяя основную и внешнюю память для ускорения выполнения какой-либо конкретной работы или для расширения системы с целью выполнить большую работу за то же время.

⇐ Предыдущая 1 2 3 45