Научная рота войсковой части 36360 (ГУ ГШ)

⇐ ПредыдущаяСтр 32 из 37Следующая ⇒

Аннотация. Большой объем данных сети Интернет содержит в себе знания представляющие интерес для Вооруженных Сил Российской Федерации. Однако их обработка является сложной задачей. Предложенная в статье система позволит решить проблему обработки и хранения больших объемов данных сети Интернет и выявить различные закономерности.

Ключевые слова: Hadoop, большие данные, ActiveMQ, MapReduce, HDFS, лингвистическая обработка.

егодня наблюдается стремительный рост объема данных в сети Интернет. По оценкам IDC, размер «цифровой Вселенной» составляет около 4,4 зеттабайт в 2013 году, а к 2020 прогнозируется его увеличение до 44 зеттабайт [4, с.1]. За рост объема данных отвечают различные источники: информационные и развлекательные ресурсы, новостные порталы, социальные сети. Например, Нью-Йоркская фондовая биржа генерирует около одного терабайта коммерческих данных в день [6, с.1], а на Facebook хранится приблизительно 10 миллиардов фотографий, занимающих около одного петабайта [7, с.1].

Данные включают в себя знания и закономерности, представляющие большой интерес для Вооруженных Сил Российской Федерации. Комментарии пользователей к новостям отражают отношение населения к государству и освещаемым событиям. Глубокий анализ социальных сетей позволит выявить экстремистов или организаторов групп, подталкивающих людей к неправомерной деятельности. За счет несовершенства средств хранения информации и вычислительных возможностей оборудования на текущем уровне развития обработка больших объемов информации является сложной и трудоемкой задачей. Разработка системы с применением специализированного программного обеспечения позволит решить указанные проблемы.

Для реализации системы предлагается архитектура (рис. 1), включающая следующие элементы:

· элемент сбора информации из сети Интернет, проводящий первичную обработку данных;

· элемент, организующий очередь поступающих данных, предназначенный для разделения потоков поступающей информации;

· скрипт переноса обрабатываемых данных из очереди в систему хранения и регистрации данных в базе;

· система хранения, предназначенная для хранения очень больших объемов данных;

· обработчик поступающих от пользователя задач, запускающий программы MapReduce
для лингвистической обработки данных;

· база данных, содержащая промежуточные и конечные результаты работы системы;

· web-приложение, предназначенное для отображения результатов конечному пользователю.

Рисунок 1. Архитектура системы

Первичный обработчик производит выборку необходимой информации из входных данных (URL-адрес, HTML-документ, текстовый документ и т. д.) на основе некоторого набора параметров (селекторы выбора, регулярные выражения, маски) и отправляет в очередь на дальнейшую обработку. За счет наличия специализированной очереди первичных обработчиков, настроенных
на обработку разных источников данных, может быть несколько. Из очереди специализированный скрипт выбирает поступившие данные, регистрирует их появление в базе данных, после чего переносит в систему хранения. Через web-приложение пользователи системы осуществляют просмотр хранящихся данных и отправляют запросы на выполнение задач обработчику. К основным задачам относятся: поиск конкретной информации и лингвистическая обработка. Обработчик, опираясь на поступивший запрос, запускает необходимую MapReduce программу, которая после работы отправляет результаты в базу данных, их конечный пользователь может посмотреть
в web-приложении.

Ключевым элементом систем является система хранения. Предлагается реализовать ее
на основе существующего программного обеспечения Hadoop, спроектированного специально
для хранения очень больших файлов с потоковой схемой доступа к данным в кластерах обычных машин [3, с.1]. Под большими файлами понимаются файлы, занимающие сотни мегабайт,
гигабайты терабайт. Система базируется на концепции однократной записи/многократного чтения как самой эффективной схемы обработки данных. Набор данных обычно генерируется или копируется
из источника, после чего с ним выполняются различные аналитические операции. Hadoop не требует дорогостоящего оборудования высокой надежности. Система спроектирована для работы
на стандартном оборудовании (общедоступное оборудование, которое может быть приобретено
у многих фирм). Распределенное хранение файлов вместе с множественной репликацией позволяет не только производить обработку по месту требования, но и снижать потери информации в случае сбоев оборудования.

Система Hadoop поставляется с распределенной файловой системой – HDFS. С дисковым устройством связывается размер блока – минимальный объем данных, используемых в операциях чтения или записи (как правило 512 байт). В HDFS тоже существует концепция блока, но он имеет существенно больший размер – по умолчанию 128 Мбайт. Абстракция блоков в распределенной файловой системе имеет несколько преимуществ. Первое преимущество: файл блока может быть больше любого отдельного диска в сети. Блоки файла могут использовать любые диски в кластере или распределены по всей системе. Второе: использование в качестве абстрактной единицы блока вместо файла упрощает подсистему хранения за счет того, что блок является лишь фрагментом данных, и с ним не нужно сохранять метаданные. Кроме того, блоки хорошо вписываются
в механизм репликации – они улучшают отказоустойчивость и доступность машин.

Виртуальные машины кластера Hadoop делятся на узлы имен (NameNode) и узлы данных (DataNode). Узел имен управляет пространством имен файловой системы. Он поддерживает дерево файловой системы и метаданные всех файлов и каталогов в дереве. Узел имен также знает, на каких узлах данных хранятся все блоки заданного файла; однако информация о местонахождении блоков
не хранится постоянно, а строится заново по сведениям узлов данных при запуске системы. Узлы данных – основная «рабочая сила» файловой системы. Они читают и записывают информ. в блоки, а также периодически передают узлу имена списков сохраняемых ими блоков.

Алгоритм работы элемента сбора первичных данных зависит от источника и выбираемой информации и будет разрабатываться непосредственно для задачи. Например, для анализа новостей элемент преобразует URL-адрес в HTML-документ и на основе набора параметров выбирает необходимую информацию: название, текст, автора, дату публикации и т.д. Выходным форматом первичного обработчика выбран JSON как самый популярный и удобный в использовании формат. Преобразованная информация помещается в очередь для дальнейшей обработки.

Очередь поступающих данных предлагается реализовать на основе программного обеспечения ActiveMQ [8, с.1] от компании Apache. ActiveMQ принимает и передает данные
по протоколу STOMP, полностью реализует Java стандарт для передачи сообщений – JMS.
Для большинства языков программирования существуют библиотеки, реализующие работу
с протоколом STOMP, поэтому разработка первичных обработчиков может быть произведена
на любом из них. Основная задача очереди заключается в разделении потоков поступающей информации и временном хранении необработанных данных. Программное обеспечение ActiveMQ позволяет провести настройку очереди с указанием допустимого объема данных в блоке, количества получателей и отправителей.

Скрипт переноса предлагается разработать на языке Java, за счет специфики используемого программного обеспечения. Скрипт по стандарту JMS выбирает из очереди данные, генерирует идентификатор и регистрирует с ним представленный набор в базе данных. Для размещения данных в системе хранения используется специальная библиотека для работы с HDFS, распространяющаяся вместе с Hadoop. Для размещаемых данных также указывается идентификатор, совпадающий с тем, что указано в базе данных.

Web-приложение для простоты и удобства разрабатывается на программной платформе Node.js [9, с.1], на языке программирования JavaScript. Данная платформа позволяет быстро разрабатывать web-приложения под любые нужды и включает в себя интерфейс для работы
с системой Hadoop. Из приложения через любой браузер доступны просмотр информации
о поступивших данных, промежуточные и конечные результаты обработки, результаты поиска информации, а также возможность запускать задачи на обработку данных и поиск конкретной информации.

Обработчик запускает программы, написанные на языке программирования Java по модели для распределенных вычислений, предназначенной специально для обработки больших объемов данных – MapReduce. MapReduce состоит из двух шагов отображения (Map) и свертки (Reduce).
На Map-шаге происходит предварительная обработка входных данных. На Reduce-шаге происходит свёртка предварительно обработанных данных.

Непосредственно для проведения анализа используются алгоритмы лингвистической обработки текста: графематический, морфологический, синтаксический и семантический анализ, анализ тональности и другие. Комплексное применение указанных средств с применением модели MapReduce позволит извлечь необходимую информацию из необработанных данных за приемлемое время.

В качестве базы данных выбрана PostgreSQL [10, с.1]. Выбор обусловлен за счет ее следующих преимуществ,таких как высокопроизводительные и надежные механизмы транзакций
и репликации, расширяемая система встроенных языков программирования и легкая расширяемость. Схема базы данных включает следующие таблицы:

· таблицу для разделения блоков поступающих данных с указанием идентификатора, заголовка или названия, шагов выполнения обработки;

· таблицы с указанием результатов обработки;

· таблицы классификаций обрабатываемых данных.

Таким образом, полученная система позволит усилить контроль и повысить уровень безопасности. Основная задача системы – решить проблемы обработки больших объемов данных, заключающихся в несовершенстве средств хранения и вычислительных возможностях техники. Распределенное хранение файлов вместе с множественной репликацией решает первую проблему,
а использование кластера виртуальных машин с применением модели MapReduce – вторую. Использование специализированных лингвистических алгоритмов обработки данных позволит выявлять необходимые знания из огромного массива найденной информации.

Литература

1. Большие данные: Революция, которая изменит то, как мы живем, работаем и мыслим. Виктор Майер-Шенбергер, Кеннет.

2. Бутов А.Л., Зёрнушкин А.Е., Соколов А.В., Чеботарь И.В., Нырцов А.А. Атрибутивно-ориентированный подход к проектированию хранилищ данных. Наукоемкие технологии. 2009. Т. 10. № 12. С. 70-72.

3. Машинное обучение. Бринк Хенрик, Ричардс Джозеф, Феверолф Марк. Спб: Питер, 2017.

4. Уайт Т., Hadoop: Подробное руководство. Спб.: Питер, 2013.

5. Укрощение больших данных: Как извлекать знания из массивов информации с помощью глубокой аналитики, Билл Фрэнкс. Манн Иванов и Фербер. 2014.

6. The Digital Universe of Opportunities: Rich Data and the Increasing Value of the Internet of Things URL: http://www.bit.ly/digital_universe (датаобращения 17.04.2018).

7. Tom Groenfeldt, «At NYSE, The Data Deluge Overwhelms Traditional Databases» URL: http://www.bit.ly/nyse_data_deluge (датаобращения 17.04.2018).

8. Rich Miller, «Facebook Builds Exabyte Data Centers for Cold Storage» URL: http://bit.ly/facebook_exabyte (датаобращения 17.04.2018).

9. ApacheActiveMQURL: http://activemq.apache.org (дата обращения 17.04.2018).

10. Node.jsURL: https://nodejs.org (дата обращения 17.04.2018).

11. PostgreSQLURL: https://www.postgresql.org (дата обращения 17.04.2018).

References

1. Big Data: A revolution that will change how we live, work and think. Victor Mayer-Schoenberger, Kenneth.

2.Butov A.L., Zernushkin A.E., Sokolov A.V., Chebotar I.V., Nyircov A.N. Attribute oriented approach to data bank designing. Science Intensive Technologies. 2009. V. 10. № 12. p. 70-72.

3. Machine learning. Brink Henrik, Richards Joseph, Feverolph Mark. – St. Petersburg: Peter, 2017.

4. White T., Hadoop: A detailed guide. – St. Petersburg: PETER, 2013.

5. Taming large data: How to extract knowledge from information arrays with the help of deep analytics, Bill Franks. – Mann Ivanov and Ferber. 2014.

6. The Digital Universe of Opportunities: The Rich Data and the Increasing Value of the Internet of Things – http://www.bit.ly/digital_universe.

7. Tom Groenfeldt, "At NYSE, The Data Deluge Overwhelms Traditional Databases" [http://www.bit.ly/nyse_data_deluge.

8. Rich Miller, "Facebook Builds Exabyte Data Centers for Cold Storage" [Electronic resource] – http://bit.ly/facebook_exabyte.

9. Apache ActiveMQ [Electronic resource] – http://activemq.apache.org.

10. Node.js [Electro resource] – https://nodejs.org.

11. PostgreSQL [Electronic resource] – https://www.postgresql.org.

⇐ Предыдущая 27 28 29 30 313233 34 35 36 Следующая ⇒

Последнее изменение этой страницы: 2019-06-09; Просмотров: 472; Нарушение авторского права страницы