Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


ИТ хранилищ и баз данных. Отличительные особенности современных СУБД. Облачные технологии



 

Базы данных (БД) представляют собой информационные модели, содержащие данные об объектах и их свойствах. Базы данных хранят информацию о группах объектов с одинаковым набором свойств. Информация в БД хранится в упорядоченном виде. Например, в записной книжке все записи упорядочены по алфавиту, в библиотечном каталоге – либо по алфавиту (алфавитный каталог), либо по области знания (предметный каталог).

База данных – это информационная модель, позволяющая в упорядоченном виде хранить данные о группе объектов, обладающих одинаковым набором свойств.

Существует несколько различных структур информационных моделей и соответственно различных типов баз данных: табличные, иерархические и сетевые.

Табличная БД содержит перечень объектов одного типа. Такую БД удобно представлять в виде двумерной таблицы: в каждой ее строке последовательно размещаются значения свойств одного из объектов; каждое значение свойства – в своем столбце, озаглавленном именем свойства.

Столбцы такой таблицы называют полями; каждое поле характеризуется своим именем (именем соответствующего свойства) и типом данных, представляющих значения данного свойства.

Строки таблицы являются записями об объекте; эти записи разбиты на поля столбцами таблицы, поэтому каждая запись представляет собой набор значений, содержащихся в полях.

Каждая таблица должна содержать, по крайней мере, одно ключевое поле, содержимое которого уникально для каждой записи в этой таблице. Ключевой поле позволяет однозначно идентифицировать каждую запись в таблице.

Тип поля определяется типом данных, которые оно содержит. Поля могут содержать данные следующих основных типов:

· счетчик – целые числа, которые задаются автоматически при вводе записей. Эти числа не могут быть изменены пользователем;

· текстовый – тексты, содержащие до 255 символов;

· числовой – числа;

· дата/время – дата или время;

· денежный – числа в денежном формате;

· логический – значения Истина (Да) или Ложь (Нет);

· гиперссылка – ссылки на информационный ресурс в Интернете (например, Web-сайт).

Поле каждого типа имеет свой набор свойств. Наиболее важными свойствами полей являются:

· размер поля – определяет максимальную длину текстового или числового поля;

· формат поля – устанавливает формат данных;

· обязательное поле – указывает на то, что данное поле обязательно надо заполнить.

Иерархические БД графически могут быть представлены как перевернутое дерево, состоящее из объектов различных уровней. Верхний уровень (корень дерева) занимает один объект, второй – объекты второго уровня и т. д.

Между объектами существуют связи, каждый объект может включать в себя несколько объектов более низкого уровня. Такие объекты находятся в отношении предка (объект, более близкий к корню) к потомку (объект более низкого уровня), при этом объект-предок может не иметь потомков или иметь их несколько, тогда как объект-потомок обязательно имеет только одного предка. Объекты, имеющие общего предка, называются близнецами.

Сетевая БД является обобщением иерархической за счет допущения объектов, имеющих более одного предка. Вообще, на связи между объектами в сетевых моделях не накладывается никаких ограничений.

Сетевой базой данных фактически является Всемирная паутина глобальной компьютерной сети Интернет. Гиперссылки связывают между собой сотни миллионов документов в единую распределенную сетевую БД.

Пользователями базы данных могут быть прикладные программы, программные комплексы, специалисты предметной области, выступающие в роли потребителей или источников данных, называемые конечными потребителями.

В современной технологии баз данных предполагается, что ее поддержка и обеспечение доступа пользователей к ней осуществляется централизованно с помощью специального программного инструментария системы управления базами данных.

Система управления базами данных (СУБД) – комплекс программных и языковых средств, необходимых для создания баз данных, поддержания их в актуальном состоянии и организации поиска в них необходимой информации.

Технологию работы с базами данных следует изучить на примере рассмотрения программного средства Access. Здесь можно выделить такие этапы как:

· создание структуры таблиц базы данных;

· ввод и редактирование данных в таблицах;

· обработка данных, содержащихся в таблицах;

· ввод информации из базы данных.

В Access используется стандартный многооконный интерфейс, но в отличие от других приложений, не многодокументальный. Единовременно может быть открыта только одна база данных, содержащая обязательное окно базы данных и окна для работы с объектами базы данных. В каждый момент времени одно из окон является активным и в нем курсивом отмечается активный объект.

Окно базы данных – один из главных элементов интерфейса Access. Здесь систематизированы все объекты БД: таблицы, запросы, формы, отчеты, макросы и модули.

Таблица. В базах данных вся информация хранится в двумерных таблицах. Это базовый объект БД, все остальные объекты создаются на основе существующих таблиц (производные объекты). Каждая строка в таблице – запись БД, а столбец – поле. Запись содержит набор данных об одном объекте, а поле – однородные данные обо всех объектах.

Запросы. В СУБД запросы являются важнейшим инструментом. Главное предназначение запросов – отбор данных на основании заданных условий. С помощью запроса из базы данных можно выбирать информацию, удовлетворяющую определенным условиям.

Формы. Формы позволяют отображать данные, содержащиеся в таблицах и запросах, в более удобном для восприятия виде. При помощи форм можно добавлять в таблицы новые данные, а также редактировать или удалять существующие. Форма может содержать рисунки, графики и другие внедренные объекты.

Отчеты. Отчеты предназначены для печати данных, содержащихся в таблицах и запросах, в красиво оформленном виде.

Макросы. Макросы служат для автоматизации повторяющихся операций. Запись макроса производится так же, как в других приложениях, например, как в приложении Word.

Модули. Модули также служат для автоматизации работы с БД. Модули еще называют процедурами обработки событий и пишутся на языке VBА.

 

В настоящее время наибольшее распространение получили следующие СУБД, реализующие реляционную модель данных:

· dBASE IV (Borland International)

· Microsoft FoxPro for DOS

· Microsoft FoxPro for Windows

· Microsoft Access

· Paradox for DOS (Borland)

· Paradox for Windows

В табл. 3 показаны места (условные), которые занимают рассматриваемые программные средства относительно друг друга. Например, 1 означает, что в указанной позиции данная программа обладает лучшими характеристиками, 5 - худшими, нет - указанной характеристикой данная программа не обладает.

Наименование dBASE IV Microsoft Access 2.0 Microsoft FoxPro 2.6 for DOS Microsoft FoxPro 2.6 Windows Paradox for DOS 4.5 Paradox for Windows
Производительность
Обеспечение целостности данных на уровне базы данных нет нет нет
Обеспечение безопасности
Работа в многопользовательских средах
Импорт-экспорт
Доступ к данным SQL нет
Возможность запросов и инструментальные средства разработки прикладных программ

 

Кроме перечисленных СУБД применяются также Clarion, Clipper, RBase, DataEase, SuperBase и другие.

 

Использование баз данных на предприятии не дает желаемого результата от автоматизации деятельности предприятия. Причина проста: реализованные функции значительно отличаются от функций ведения бизнеса, так как данные, собранные в базах, не адекватны информации, которая нужна лицам, принимающим решения. Решением данной проблемы стала реализация технологии информационных хранилищ.

Информационное хранилище (data warehouse) — это автоматизированная система, которая собирает данные из существующих баз и внешних источников, формирует, хранит и эксплуатирует информацию как единую. Оно обеспечивает инструментарий для преобразования больших объемов детализированных данных в форму, которая удобна для стратегического планирования и реорганизации бизнеса и необходима специалисту, ответственному за принятие решений. При этом происходит " слияние" из разных источников различных сведений в требуемую предметно-ориентированную форму с использованием различных методов анализа.

Особенность новой технологии в том, что она предлагает среду накопления данных, которая не только надежна, но по сравнению с распределенными СУБД оптимальна, с точки зрения доступа к данным и манипулирования ими.

Для данных информационного хранилища характерны:

• предметная ориентация; данные организованы в соответствии со способом их применения;

• интегрированность; данные согласуются с определенной системой наименований, хотя могут принадлежать различным источникам и их формы представления могут не совпадать;

• упорядоченность во времени; данные согласуются во времени для использования в сравнениях, трендах и прогнозах;

• неизменяемость и целостность; данные не обновляются и не изменяются, а только перезагружаются и считываются, поддерживая концепцию " одного правдивого источника".

Использование метабазы для описания и управления данными, операции суммирования для уменьшения объема данных увеличивают скорость доступа к данным, позволяя руководителю быстро получить обзор ситуации или в деталях рассмотреть нужный предмет. При этом обеспечивается секретность данных, предназначенных различным уровням руководителей.

Метабаза содержит метаданные, которые описывают, как устроены данные, частоту изменения, откуда приходят существенные части данных (разрешаются ссылки на распределенные базы данных на разных платформах), как они могут быть использованы, кто может пользоваться данными.

Управленческому персоналу метабаза предлагает предметно-ориентированный подход, показывая, какая информация имеется в наличии, как она получена, как может быть использована. Приложениям метабаза обеспечивает интеллектуальный выбор требуемой им информации.

В информационных хранилищах используются статистические технологии, генерирующие " информацию об информации"; процедуры суммирования; методы обработки электронных документов, аудио-, видеоинформации, графов и географических карт.

Для уменьшения размера информационного хранилища до минимума при сохранении максимального количества информации применяются эффективные методы сжатия данных.

Для преобразования данных из хранилища в предметно-ориентированную форму требуются языки запросов нового поколения. Язык SQL не обеспечивает выборку требуемых данных из хранилища.

Руководителям предприятия данные доступны посредством SQL-запросов, инструментов создания интерактивных отчетов на экране, более развитых систем поддержки принятия решений, многомерного просмотра данных посредством гипертекстовой технологии.

Для хранения данных обычно используются выделенные серверы, или кластеры серверов (группа накопителей, видеоустройств с общим контроллером). В последнее время появилось много оптических устройств хранения данных с высокой емкостью. Среди них можно выделить CD-RОМ (оптические диски только для чтения), WORM (диски с однократной записью), МО (магнитооптические диски стираемые и перезаписываемые), оптические библиотеки (позволяют вручную менять диски в дисководах), библиотеки – автоматы (смена дисков производится автоматически, так называемая технология Jukebox). Для доступа и размещения данных на таких устройствах разработано много файловых систем. Из них можно выделить Hierarchical Storage Management (HSM), реализующую функции иерархического хранилища и миграции данных (Data Migration). HSM-система создает как бы " продолжение" дискового пространства файлового сервера, доступного приложениям. При конфигурации HSM указывается, какая часть пространства сервера отводится для обмена с библиотеками. Как только это пространство становится занятым и требуется подкачка данных, из библиотеки реализуется миграция данных. Наименее используемые файлы переносятся в библиотеку - автомат, а из последней перекачиваются на сервер требуемые файлы. Если приложение потребует обращения к " унесенному" файлу, HSM попросит приложение подождать, пока не вернет файл на сервер. Все перемещения выполняются автоматически и приложения не подозревают о наличии вторичных устройств хранения.

Для доступа к серверам и их взаимосвязи требуются технологии, удовлетворяющие следующим условиям:

• малая задержка. Хранилища данных порождают два типа трафика. Первый содержит запросы пользователя, второй - ответы. Для формирования ответа требуется время. Но так как число пользователей велико, время ответа становится неопределенным. Для обычных данных такая задержка не существенна, а для мультимедийных, -.существенна;

• высокая пропускная способность. Так как данные могут находиться в разных базах, требуется синхронизация при формировании ответа, тем более, что рассмотренные базы могут находиться на значительных расстояниях друг от друга. Поэтому для обеспечения сбалансированной нагрузки требуется скорость передачи не менее 100 Мбит/с;

• надежность. При работе с кластерами серверов интенсивный обмен данными требует, чтобы вероятность потери пакета была очень мала;

• возможность работы на больших расстояниях. Если серверы кластера удалены друг от друга, то требуется технология, обеспечивающая передачу со скоростью 100 Мбит/с на расстояние не менее 1 км.

Всем этим требованиям удовлетворяет ATM-технология, хотя распространены и по многим показателям дают хорошие результаты технологии Fast Ethernet, Fibre Channel и др.

Примером информационного хранилища может служить Oracle VLM, разработанная фирмами Oracle и Digital. Платформой является Digital Unix для 64-разрядной архитектуры Digital AXP, преодолевшей на аппаратном уровне четырехгигабайтовый барьер адресного пространства оперативной памяти. Платформы Digital AlphaServer 8200 и AlphaServer 8400 уже сейчас позволяют адресоваться к оперативной памяти емкостью 14 Гбайт, и планируется расширить эту границу за 50 Гбайт. Вторая базовая операционная система фирмы Digital Open - VMS 7.0.

В информационном хранилище Oracle VLM увеличился o6ъем кэш-памяти (быстродействующей памяти) для обмена с сервером базы данных, что сократило время обращения к диску с миллисекунд до микросекунд. Например, " маленькая" база данных объемом 5 Гбайт целиком загружается в кэш-память. Поскольку кэш-память базы данных является частью системной области памяти SGA, Oracle VLM фактически снимает ограничения на ее размер и оперирует с " большой системной областью памяти LSGA".

Увеличился максимальный размер обрабатываемого блока базы данных до 32 Кбайт. Обычно он равнялся 2 Кбайтам, а максимальный -— 8 Кбайтам. Обрабатываемый блок базы данных содержит управляющую часть (заголовок) и собственно данные. Если данные (графика, аудио-, видеоданные, изображения) не помещаются в блок целиком, строится цепочка блоков.

Использование информационных хранилищ дает существенный выигрыш по производительности в системах принятия решений, в системах обработки большого числа транзакций с большим объемом обновления данных.

Технологию VLM можно рассматривать как альтернативу использованию SMP (мультипроцессорных систем), получая выигрыш в производительности.

Корпорация Red Brick Systems (Лос-Гатос, штат Калифорния) выпустила Red Brick Warehouse 5.0 - информационное хранилище, имеющее средства оперативной аналитической обработки информации, поддержки принятия решений и многомерных баз данных. Поддерживается обработка SQL-запросов. Кроме того, разработано специальное расширение языка SQL, получившее название RISQL, ориентированное на организацию анализа деловой информации. Обеспечен графический интерфейс для работы с приложениями Windows NT. Посредством программного компонента Data Mine Builder, разработанного в компании Data Mine (Редвуд-Сити, штат Калифорния), обеспечиваются поиск закономерностей, выявление тенденций и взаимозависимостей, а также другие аналитические операции на очень крупных массивах данных для множества одновременно работающих пользователей.

 

 

Облачные (рассеяные) вычисления (англ. cloud computing, также используется термин Облачная (рассеянная) обработка данных) — технология обработки данных, в которой компьютерные ресурсы и мощности предоставляются пользователю как Интернет-сервис. Пользователь имеет доступ к собственным данным, но не может управлять и не должен заботиться об инфраструктуре, операционной системе и собственно программном обеспечении, с которым он работает. Термин «Облако» используется как метафора, основанная на изображении Интернета на диаграмме компьютерной сети, или как образ сложной инфраструктуры, за которой скрываются все технические детали. Согласно документу IEEE, опубликованному в 2008 году, «Облачная обработка данных — это парадигма, в рамках которой информация постоянно хранится на серверах в интернет и временно кэшируется на клиентской стороне, например, на персональных компьютерах, игровых приставках, ноутбуках, смартфонах и т. д.».

Облачная обработка данных как концепция включает в себя понятия:

· инфраструктура как услуга,

· платформа как услуга,

· программное обеспечение как услуга,

· данные как услуга,

· рабочее место как услуга

и другие технологические тенденции, общим в которых является уверенность, что сеть Интернет в состоянии удовлетворить потребности пользователей в обработке данных.

Например, Google Apps обеспечивает приложения для бизнеса в режиме онлайн, доступ к которым происходит с помощью Интернет-браузера, в то время как ПО и данные хранятся на серверах Google.


Терминология

Хотя термин «облачные вычисления» является устоявшимся, в русском языке он имеет другое значение, нежели оригинал. «Cloud» помимо облака имеет и иное значение, а именно рассеяный; собственно значение «рассеянный» и подразумевается в англоязычной терминологии.

Платформы

Для обеспечения согласованной работы ЭВМ, которые предоставляют услугу облачных вычислений используется специализированное ПО, обобщённо называющееся " middleware control". Это ПО обеспечивает мониторинг состояния оборудования, балансировку нагрузки, обеспечение ресурсов для решения задачи.


Облачные вычисления и виртуализация


Для облачных вычислений основным предположением является неравномерность запроса ресурсов со стороны клиента(ов). Для сглаживания этой неравномерности для предоставления сервиса между реальным железом и middleware помещается ещё один слой - виртуализация серверов. Серверы, выполняющие приложения виртуализируются и балансировка нагрузки осуществляется как средствами ПО, так и средствами распределения виртуальных серверов по реальным


 


Поделиться:



Последнее изменение этой страницы: 2017-03-15; Просмотров: 843; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.029 с.)
Главная | Случайная страница | Обратная связь