Лабораторная работа №2. Алгоритмы поиска и сортировки в массивах

Цель работы: изучить способы сортировки и поиска в массивах структур и файлах.

Краткие теоретические сведения

При обработке баз данных часто применяются массивы структур. Обычно база данных накапливается и хранится на диске в файле. К ней часто приходится обращаться, обновлять, перегруппировывать. Работа с базой может быть организована двумя способами.

1. Внесение изменений и поиск осуществляется прямо на диске, используя специфическую технику работы со структурами в файлах. При этом временные затраты на обработку данных (поиск, сортировку) значительно возрастают, но нет ограничений на использование оперативной памяти.

2. Считывание всей базы (или необходимой ее части) в массив структур. При этом обработка производится в оперативной памяти, что значительно увеличивает скорость, однако требует больших затрат памяти.

Наиболее частыми операциями при работе с базами данных являются «поиск» и «сортировка». При этом алгоритмы решения этих задач существенно зависят от того, организованы структуры в массивы или размещены на диске.

Обычно элемент данных (структура) содержит некое ключевое поле (ключ), по которому его можно найти. Ключом может служить любое поле структуры, например, фамилия, номер телефона или адрес. Основное требование к ключу в задачах поиска состоит в том, чтобы операция проверки на равенство была корректной, поэтому при поиске данных по ключу, имеющему вещественное значение, следует указывать не его конкретное значение, а интервал, в который это значение попадает.

Алгоритмы поиска

Предположим, что у нас имеется следующая структура:

struct Ttype {

type key; // Ключевое поле типа type

... // Описание других полей структуры

} *a; // Указатель для динамического массива структур

Задача поиска требуемого элемента в массиве структур a (размер n – задается при выполнении программы) заключается в нахождении индекса i_key, удовлетворяющего условию a[i_key].key = f_key, key – интересующее нас поле структуры данных, f_key – искомое значение того же типа что и key. После нахождения индекса i_key обеспечивается доступ ко всем другим полям найденной структуры a[i_key].

Линейный поиск используется, когда нет никакой дополнительной информации о разыскиваемых данных, и представляет собой последовательный перебор всех элементов массива. Если поле поиска является уникальным, то поиск выполняется до обнаружения требуемого ключа или до конца, если ключ не обнаружен. Если же поле поиска не уникальное, приходится перебирать все данные до конца массива:

int i_key = 0, kod = 0;

for (i = 1; i < n; i++)

if (a[i].key == f_key) {

kod = 1;

// Обработка найденного элемента, например, вывод

i_key = i;

// break; – если поле поиска уникальное

}

if(kod == 0) // Вывод сообщения, что элемент не найден

Поиск делением пополам используется, если данные упорядочены по возрастанию (по убыванию) ключа key. Алгоритм поиска осуществляется следующим образом:

– берется средний элемент m;

– если элемент массива a[m].key < f_key, то все элементы i m исключаются из дальнейшего поиска, иначе – исключаются все элементы с индексами i> m.

Приведем пример, реализующий этот алгоритм

int i_key = 0, j = n–1, m;

while(i_key < j) {

m = (i_key + j)/2;

if (а[m].key < f_key) i_key = m+1;

else j = m;

}

if (a[i_key].key! = key) return -1; // Элемент не найден

else return i;

Проверка совпадения a[m].k = f_key в этом алгоритме внутри цикла отсутствует, т.к. тестирование показало, что в среднем выигрыш от уменьшения количества проверок превосходит потери от нескольких «лишних» вычислений до выполнения условия i_key = j,

Алгоритмы сортировки

Под сортировкой понимается процесс перегруппировки элементов массива, приводящий к их упорядоченному расположению относительно ключа.

Цель сортировки – облегчить последующий поиск элементов. Метод сортировки называется устойчивым, если в процессе перегруппировки относительное расположение элементов с равными ключами не изменяется. Основное условие при сортировке массивов – это не вводить дополнительных массивов, т.е. все перестановки элементов должны выполняться в исходном массиве. Сортировку массивов принято называть внутренней, а сортировку файлов – внешней.

Методы внутренней сортировки классифицируются по времени их работы. Хорошей мерой эффективности может быть число операций сравнений ключей и число пересылок (перестановок) элементов.

Прямые методы имеют небольшой код и просто программируются, быстрые, усложненные методы требуют меньшего числа действий, но эти действия обычно более сложные, чем в прямых методах, поэтому для достаточно малых значений n ( n £ 50 ) прямые методы работают быстрее. Значительное преимущество быстрых методов начинает проявляться при n ³ 100.

Среди простых методов наиболее популярны следующие.

1. Метод прямого обмена (пузырьковая сортировка):

for (i = 0; i < n–1; i++)

for (j = i+1; j < n; j++)

if (a[i].key > a[j].key) { // Переставляем элементы

r = a[i];

a[i] = a[j];

a[j] = r;

}

2. Метод прямого выбора:

for (i = 0; i < n–1; i++) {

m = i;

for (j = i+1; j < n; j++)

if (a[j].key < a[m].key) m = j;

r = a[m]; // Переставляем элементы

a[m] = a[i];

a[i] = r;

}

Реже используются: 3) сортировка с помощью прямого (двоичного) включения; 4) шейкерная сортировка (модификация пузырьковой).

К улучшенным методам сортировки относятся следующие.

1. Метод Д. Шелла (1959), усовершенствование метода прямого включения.

2. Сортировка с помощью дерева, метод HeapSort, Д.Уильямсон (1964).

3. Сортировка с помощью разделения, метод QuickSort, Ч.Хоар (1962), улучшенная версия пузырьковой сортировки, являющийся на сегодняшний день самым эффективным методом.

Идея метода разделения QuickSort в следующем. Выбирается значение ключа среднего m-го элемента x = a[m].key. Массив просматривается слева – направо до тех пор, пока не будет обнаружен элемент a[i].key > x. Затем массив просматривается справа – налево, пока не будет обнаружен элемент a[j].key < x. Элементы a[i] и a[j] меняются местами. Процесс просмотра и обмена продолжается до тех пор, пока i не станет больше j. В результате массив оказывается разбитым на левую часть a[L], 0 £ L £ j с ключами меньше (или равными) x и правую a[R], i£ R< n с ключами больше (или равными) x.

Алгоритм такого разделения очень прост и эффективен:

i = 0; j = n – 1; x = a[(L + R)/2].key;

while (i < = j) {

while (a[i].key < x) i++;

while (a[j].key > x) j--;

if (i < = j) {

r = a[i]; // Переставляем элементы

a[i] = a[j];

a[j] = r;

i++; j--;

}

Чтобы отсортировать массив, остается применять алгоритм разделения к левой и правой частям, затем к частям частей и так до тех пор, пока каждая из частей не будет состоять из одного единственного элемента. Алгоритм получается итерационным, на каждом этапе которого стоят две задачи по разделению. К решению одной из них можно приступить сразу, для другой следует запомнить начальные условия (номер разделения, границы) и отложить ее решение до момента окончания сортировки выбранной половины.

Сравнение методов сортировок показывает, что при n > 100 наихудшим является метод пузырька, метод QuickSort в 2-3 раза лучше, чем HeapSort, и в 3-7 раз, чем метод Шелла.

2.2. Индивидуальные задания

Написать программу обработки файла данных, состоящих из структур, в которой реализованы следующие функции: с тандартная обработка файла (создание, просмотр, добавление); линейный поиск в файле; сортировка массива (файла) методами прямого выбора и QuickSort; двоичный поиск в отсортированном массиве.

1. В магазине формируется список лиц, записавшихся на покупку товара. Вид списка: номер, Ф.И.О., домашний адрес, дата учета. Удалить из списка все повторные записи, проверяя Ф.И.О. и адрес. Ключ: дата постановки на учет.

2. Список товаров на складе включает: наименование товара, количество единиц товара, цену единицы и дату поступления товара на склад. Вывести в алфавитном порядке список товаров, хранящихся больше месяца, стоимость которых превышает 100 000 р. Ключ: наименование товара.

3. Для получения места в общежитии формируется список: Ф.И.О. студента, группа, средний балл, доход на каждого члена семьи. Общежитие в первую очередь предоставляется тем, у кого доход меньше двух минимальных зарплат, затем остальным в порядке уменьшения среднего балла. Вывести список очередности. Ключ: доход на каждого члена семьи.

4. В справочной автовокзала хранится расписание движения автобусов. Для каждого рейса указаны его номер, пункт назначения, время отправления и прибытия. Вывести информацию о рейсах, которыми можно воспользоваться для прибытия в пункт назначения раньше заданного времени. Ключ: время прибытия.

5. На междугородной АТС информация о разговорах содержит дату разговора, код и название города, время разговора, тариф, номер телефона в этом городе и номер телефона абонента. Вывести по каждому городу общее время разговоров с ним и сумму. Ключ: общее время разговоров.

6. Информация о сотрудниках фирмы включает: Ф.И.О., табельный номер, количество проработанных часов за месяц, почасовой тариф. Рабочее время свыше 144 ч. считается сверхурочным и оплачивается в двойном размере. Вывести размер заработной платы каждого сотрудника фирмы за вычетом подоходного налога (12% от суммы заработка). Ключ: размер заработной платы.

7. Информация об участниках спортивных соревнований содержит: Ф.И.О. игрока, игровой номер, возраст, рост, вес, наименование страны, название команды. Вывести информацию о самой молодой команде. Ключ: возраст.

8. Для книг, хранящихся в библиотеке, задаются: номер книги, автор, название, год издания, издательство и количество страниц. Вывести список книг с фамилиями авторов в алфавитном порядке, изданных после заданного года. Ключ: автор.

9. Различные цеха завода выпускают продукцию нескольких наименований. Сведения о продукции включают: наименование, количество, номер цеха. Для заданного цеха необходимо вывести изделия по каждому наименованию в порядке убывания их количества. Ключ: количество выпущенных изделий.

10. Информация о сотрудниках предприятия содержит: Ф.И.О., номер отдела, должность, дату начала работы. Вывести списки сотрудников по отделам в порядке убывания стажа. Ключ: дата начала работы.

11. Ведомость абитуриентов, сдавших вступительные экзамены в университет, содержит: Ф.И.О., номер группы, адрес, оценки. Определить количество абитуриентов, проживающих в г. Минске и сдавших экзамены со средним баллом не ниже 8.5, вывести их фамилии в алфавитном порядке. Ключ: Ф.И.О.

12. В справочной аэропорта хранится расписание вылета самолетов на следующие сутки в виде: номер рейса, тип самолета, пункт назначения, время вылета. Вывести информацию для заданного пункта назначения в порядке возрастания времени вылета. Ключ: пункт назначения.

13. В кассе хранится информация о поездах на ближайшую неделю: дата выезда, пункт назначения, время отправления, число свободных мест. Необходимо зарезервировать m мест до города N на k-й день недели с временем отправления поезда не позднее t часов. Вывести время отправления или сообщение о невозможности выполнить заказ. Ключ: число свободных мест.

14. Ведомость абитуриентов, сдавших вступительные экзамены в университет, содержит: Ф.И.О. абитуриента, 4 оценки. Определить средний балл по университету и вывести список абитуриентов, средний балл которых выше среднего балла по университету в порядке убывания балла. Ключ: средний балл.

15. В ателье хранятся квитанции о сданной в ремонт аппаратуре в виде: наименование группы изделий (телевизор, радиоприемник и т.п.), марку изделия, дату приемки, состояние готовности заказа (выполнен, не выполнен). Вывести информацию о состоянии заказов на текущие сутки по группам изделий.Ключ: дата приемки в ремонт.

16. Информация о сотрудниках института содержит: Ф.И.О., факультет, кафедру, должность, объем нагрузки (часов). Вывести списки сотрудников по кафедрам в порядке убывания нагрузки. Ключ: объем нагрузки.

⇐ Предыдущая 123 4 5 6 7 Следующая ⇒