Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Научная рота войсковой части 36360 (ГУ ГШ)
Аннотация. Большой объем данных сети Интернет содержит в себе знания представляющие интерес для Вооруженных Сил Российской Федерации. Однако их обработка является сложной задачей. Предложенная в статье система позволит решить проблему обработки и хранения больших объемов данных сети Интернет и выявить различные закономерности. Ключевые слова: Hadoop, большие данные, ActiveMQ, MapReduce, HDFS, лингвистическая обработка.
егодня наблюдается стремительный рост объема данных в сети Интернет. По оценкам IDC, размер «цифровой Вселенной» составляет около 4,4 зеттабайт в 2013 году, а к 2020 прогнозируется его увеличение до 44 зеттабайт [4, с.1]. За рост объема данных отвечают различные источники: информационные и развлекательные ресурсы, новостные порталы, социальные сети. Например, Нью-Йоркская фондовая биржа генерирует около одного терабайта коммерческих данных в день [6, с.1], а на Facebook хранится приблизительно 10 миллиардов фотографий, занимающих около одного петабайта [7, с.1]. Данные включают в себя знания и закономерности, представляющие большой интерес для Вооруженных Сил Российской Федерации. Комментарии пользователей к новостям отражают отношение населения к государству и освещаемым событиям. Глубокий анализ социальных сетей позволит выявить экстремистов или организаторов групп, подталкивающих людей к неправомерной деятельности. За счет несовершенства средств хранения информации и вычислительных возможностей оборудования на текущем уровне развития обработка больших объемов информации является сложной и трудоемкой задачей. Разработка системы с применением специализированного программного обеспечения позволит решить указанные проблемы. Для реализации системы предлагается архитектура (рис. 1), включающая следующие элементы: · элемент сбора информации из сети Интернет, проводящий первичную обработку данных; · элемент, организующий очередь поступающих данных, предназначенный для разделения потоков поступающей информации; · скрипт переноса обрабатываемых данных из очереди в систему хранения и регистрации данных в базе; · система хранения, предназначенная для хранения очень больших объемов данных; · обработчик поступающих от пользователя задач, запускающий программы MapReduce · база данных, содержащая промежуточные и конечные результаты работы системы; · web-приложение, предназначенное для отображения результатов конечному пользователю.
Рисунок 1. Архитектура системы
Первичный обработчик производит выборку необходимой информации из входных данных (URL-адрес, HTML-документ, текстовый документ и т. д.) на основе некоторого набора параметров (селекторы выбора, регулярные выражения, маски) и отправляет в очередь на дальнейшую обработку. За счет наличия специализированной очереди первичных обработчиков, настроенных Ключевым элементом систем является система хранения. Предлагается реализовать ее Система Hadoop поставляется с распределенной файловой системой – HDFS. С дисковым устройством связывается размер блока – минимальный объем данных, используемых в операциях чтения или записи (как правило 512 байт). В HDFS тоже существует концепция блока, но он имеет существенно больший размер – по умолчанию 128 Мбайт. Абстракция блоков в распределенной файловой системе имеет несколько преимуществ. Первое преимущество: файл блока может быть больше любого отдельного диска в сети. Блоки файла могут использовать любые диски в кластере или распределены по всей системе. Второе: использование в качестве абстрактной единицы блока вместо файла упрощает подсистему хранения за счет того, что блок является лишь фрагментом данных, и с ним не нужно сохранять метаданные. Кроме того, блоки хорошо вписываются Виртуальные машины кластера Hadoop делятся на узлы имен (NameNode) и узлы данных (DataNode). Узел имен управляет пространством имен файловой системы. Он поддерживает дерево файловой системы и метаданные всех файлов и каталогов в дереве. Узел имен также знает, на каких узлах данных хранятся все блоки заданного файла; однако информация о местонахождении блоков Алгоритм работы элемента сбора первичных данных зависит от источника и выбираемой информации и будет разрабатываться непосредственно для задачи. Например, для анализа новостей элемент преобразует URL-адрес в HTML-документ и на основе набора параметров выбирает необходимую информацию: название, текст, автора, дату публикации и т.д. Выходным форматом первичного обработчика выбран JSON как самый популярный и удобный в использовании формат. Преобразованная информация помещается в очередь для дальнейшей обработки. Очередь поступающих данных предлагается реализовать на основе программного обеспечения ActiveMQ [8, с.1] от компании Apache. ActiveMQ принимает и передает данные Скрипт переноса предлагается разработать на языке Java, за счет специфики используемого программного обеспечения. Скрипт по стандарту JMS выбирает из очереди данные, генерирует идентификатор и регистрирует с ним представленный набор в базе данных. Для размещения данных в системе хранения используется специальная библиотека для работы с HDFS, распространяющаяся вместе с Hadoop. Для размещаемых данных также указывается идентификатор, совпадающий с тем, что указано в базе данных. Web-приложение для простоты и удобства разрабатывается на программной платформе Node.js [9, с.1], на языке программирования JavaScript. Данная платформа позволяет быстро разрабатывать web-приложения под любые нужды и включает в себя интерфейс для работы Обработчик запускает программы, написанные на языке программирования Java по модели для распределенных вычислений, предназначенной специально для обработки больших объемов данных – MapReduce. MapReduce состоит из двух шагов отображения (Map) и свертки (Reduce). Непосредственно для проведения анализа используются алгоритмы лингвистической обработки текста: графематический, морфологический, синтаксический и семантический анализ, анализ тональности и другие. Комплексное применение указанных средств с применением модели MapReduce позволит извлечь необходимую информацию из необработанных данных за приемлемое время. В качестве базы данных выбрана PostgreSQL [10, с.1]. Выбор обусловлен за счет ее следующих преимуществ,таких как высокопроизводительные и надежные механизмы транзакций · таблицу для разделения блоков поступающих данных с указанием идентификатора, заголовка или названия, шагов выполнения обработки; · таблицы с указанием результатов обработки; · таблицы классификаций обрабатываемых данных. Таким образом, полученная система позволит усилить контроль и повысить уровень безопасности. Основная задача системы – решить проблемы обработки больших объемов данных, заключающихся в несовершенстве средств хранения и вычислительных возможностях техники. Распределенное хранение файлов вместе с множественной репликацией решает первую проблему, Литература 1. Большие данные: Революция, которая изменит то, как мы живем, работаем и мыслим. Виктор Майер-Шенбергер, Кеннет. 2. Бутов А.Л., Зёрнушкин А.Е., Соколов А.В., Чеботарь И.В., Нырцов А.А. Атрибутивно-ориентированный подход к проектированию хранилищ данных. Наукоемкие технологии. 2009. Т. 10. № 12. С. 70-72. 3. Машинное обучение. Бринк Хенрик, Ричардс Джозеф, Феверолф Марк. Спб: Питер, 2017. 4. Уайт Т., Hadoop: Подробное руководство. Спб.: Питер, 2013. 5. Укрощение больших данных: Как извлекать знания из массивов информации с помощью глубокой аналитики, Билл Фрэнкс. Манн Иванов и Фербер. 2014. 6. The Digital Universe of Opportunities: Rich Data and the Increasing Value of the Internet of Things URL: http://www.bit.ly/digital_universe (датаобращения 17.04.2018). 7. Tom Groenfeldt, «At NYSE, The Data Deluge Overwhelms Traditional Databases» URL: http://www.bit.ly/nyse_data_deluge (датаобращения 17.04.2018). 8. Rich Miller, «Facebook Builds Exabyte Data Centers for Cold Storage» URL: http://bit.ly/facebook_exabyte (датаобращения 17.04.2018). 9. ApacheActiveMQURL: http://activemq.apache.org (дата обращения 17.04.2018). 10. Node.jsURL: https://nodejs.org (дата обращения 17.04.2018). 11. PostgreSQLURL: https://www.postgresql.org (дата обращения 17.04.2018).
References 1. Big Data: A revolution that will change how we live, work and think. Victor Mayer-Schoenberger, Kenneth. 2.Butov A.L., Zernushkin A.E., Sokolov A.V., Chebotar I.V., Nyircov A.N. Attribute oriented approach to data bank designing. Science Intensive Technologies. 2009. V. 10. № 12. p. 70-72. 3. Machine learning. Brink Henrik, Richards Joseph, Feverolph Mark. – St. Petersburg: Peter, 2017. 4. White T., Hadoop: A detailed guide. – St. Petersburg: PETER, 2013. 5. Taming large data: How to extract knowledge from information arrays with the help of deep analytics, Bill Franks. – Mann Ivanov and Ferber. 2014. 6. The Digital Universe of Opportunities: The Rich Data and the Increasing Value of the Internet of Things – http://www.bit.ly/digital_universe. 7. Tom Groenfeldt, "At NYSE, The Data Deluge Overwhelms Traditional Databases" [http://www.bit.ly/nyse_data_deluge. 8. Rich Miller, "Facebook Builds Exabyte Data Centers for Cold Storage" [Electronic resource] – http://bit.ly/facebook_exabyte. 9. Apache ActiveMQ [Electronic resource] – http://activemq.apache.org. 10. Node.js [Electro resource] – https://nodejs.org. 11. PostgreSQL [Electronic resource] – https://www.postgresql.org.
|
Последнее изменение этой страницы: 2019-06-09; Просмотров: 472; Нарушение авторского права страницы