Алгоритмы сортировки массивов.

Презентация:



Advertisements
Похожие презентации
МЕТОДЫ СОРТИРОВКИ. Сортировка - расположение элементов множества в порядке расположения некоторого ключа. ОГРАНИЧЕНИЯ: 1. Рассматриваются внутренние сортировки.
Advertisements

СОРТИРОВКА ДЕРЕВОМ Выполнил: ст-т гр. ХХХХ.
Обменные сортировки:BubbleSort Алгоритм прямого обмена основывается на сравнении и смене позиций пары соседних элементов. Процесс продолжается до тех пор.
1 Сложность, сортировка, поиск Работа по дисциплине «Алгоритмы и структуры данных» Выполнена Садукевич А.В., 271ПИ.
Задание бинарных деревьев с помощью массивов Обходы деревьев.
Дистанционная подготовка к Всероссийской олимпиаде по информатике Преподаватель: к.ф.-м.н., заведующий кафедрой ВТиКГ ДВГУПС Пономарчук Юлия Викторовна.
Сортировка методом пузырька, выбором (Pascal) Кокарева Светлана Ивановна.
Логическое программировыание Презентация 5 Списки в Прологе.
Физические модели баз данных Файловые структуры, используемые для хранения информации в базах данных.
Тема: «Сортировка элементов одномерного массива» Автор: Андрюшина А.В. Школа 616 г. Зеленоград 2009 г.
Алгоритмы сортировки Лектор: к.т.н., доцент кафедры вычислительной техники Токарева Ольга Сергеевна Алгоритмы и технология их разработки.
Абстрактный тип данных список. Операции над абстрактным списком Создать пустой список Уничтожить список Определить, пуст ли список Определить количество.
Преподаватель: Доцент Кафедры ВС, к.т.н. Поляков Артем Юрьевич © Кафедра вычислительных систем ФГОБУ ВПО «СибГУТИ» ФГОБУ ВПО "СибГУТИ" Кафедра вычислительных.
Поиск информации Задача поиска: где в заданной совокупности данных находится элемент, обладающий заданным свойством? Большинство задач поиска сводится.
САОД, каф.ОСУ, АВТФ, НИУ РФ ТПУ1 Обменные сортировки:BubbleSort Алгоритм прямого обмена основывается на сравнении и смене позиций пары соседних.
АЛГОРИТМЫ И СТРУКТУРЫ ДАННЫХ АЛГОРИТМЫ И СТРУКТУРЫ ДАННЫХ Лекции для студентов-заочников 2 курса, специальность (Прикладная информатика)
Алгоритмы сортировки и поиска Выполнил Блинов В.А.
Алгоритмы сортировки. 2 Сортировка Сортировка – это расстановка элементов массива в заданном порядке (по возрастанию, убыванию, последней цифре, сумме.
К.Ю. Поляков, Е.А. Ерёмин, 2013 Программирование на языке Паскаль § 64. Сортировка 1.
Механизмы поиска в БД Структуры индексов. Основные виды индексов Простые индексы для упорядоченных файлов Вторичные индексы для неупорядоченных файлов.
Транксрипт:

Алгоритмы сортировки массивов.

Сортировка является одной из фундаментальных алгоритмических задач программирования. Решению проблем, связанных с сортировкой, посвящено множество научных исследований, разработано множество алгоритмов. В общем случае сортировку следует понимать как процесс перегруппировки, заданного множества объектов в определенном порядке. Сортировка применяется во всех без исключения областях программирования, будь то базы данных или математические программы. Алгоритмом сортировки называется алгоритм для упорядочения некоторого множества элементов. Обычно под алгоритмом сортировки подразумевают алгоритм упорядочивания множества элементов по возрастанию или убыванию. В случае наличия элементов с одинаковыми значениями, в упорядоченной последовательности они располагаются рядом друг за другом в любом порядке. Однако иногда бывает полезно сохранять первоначальный порядок элементов с одинаковыми значениями. В алгоритмах сортировки лишь часть данных используется в качестве ключа сортировки. Ключом сортировки называется атрибут (или несколько атрибутов), по значению которого определяется порядок элементов. Таким образом, при написании алгоритмов сортировок массивов следует учесть, что ключ полностью или частично совпадает с данными.

Практически каждый алгоритм сортировки можно разбить на 3 части: 1.сравнение, определяющее упорядоченность пары элементов; 2.перестановку, меняющую местами пару элементов; 3.собственно сортирующий алгоритм, который осуществляет сравнение и перестановку элементов до тех пор, пока все элементы множества не будут упорядочены. Алгоритмы сортировки имеют большое практическое применение. Их можно встретить там, где речь идет об обработке и хранении больших объемов информации. Некоторые задачи обработки данных решаются проще, если данные заранее упорядочить.

Оценка алгоритмов сортировки Ни одна другая проблема не породила такого количества разнообразнейших решений, как задача сортировки. Универсального, наилучшего алгоритма сортировки на данный момент не существует. Однако, имея приблизительные характеристики входных данных, можно подобрать метод, работающий оптимальным образом. Для этого необходимо знать параметры, по которым будет производиться оценка алгоритмов. Время сортировки – основной параметр, характеризующий быстродействие алгоритма. Память – один из параметров, который характеризуется тем, что ряд алгоритмов сортировки требуют выделения дополнительной памяти под временное хранение данных. При оценке используемой памяти не будет учитываться место, которое занимает исходный массив данных и независящие от входной последовательности затраты, например, на хранение кода программы. Устойчивость – это параметр, который отвечает за то, что сортировка не меняет взаимного расположения равных элементов. Естественность поведения – параметр, который указывает на эффективность метода при обработке уже отсортированных, или частично отсортированных данных. Алгоритм ведет себя естественно, если учитывает эту характеристику входной последовательности и работает лучше.

Классификация алгоритмов сортировок

Внутренняя сортировка является базовой для любого алгоритма внешней сортировки – отдельные части массива данных сортируются в оперативной памяти и с помощью специального алгоритма сцепляются в один массив, упорядоченный по ключу. Следует отметить, что внутренняя сортировка значительно эффективней внешней, так как на обращение к оперативной памяти затрачивается намного меньше времени, чем к носителям.

TomDebbyMikeRon TomDebbyMikeRon Tom DebbyMikeRon TomMike

A[0] A[1] A[2] A[3] A[4] Valime 20 ja vahetame A[0]-ga Valime 35 ja vahetame A[1]-ga Valime 40 ja vahetame A[2]-ga Valime 50 ja vahetame A[3]-ga Valmis Kokku n elementi. Teeme vahetamisest n-1 korda

void SelectionSort ( A[ ], int n) {int v_Index; //kõige väiksema elemendi index int i, j; //tsykli loendurid for (i=0; i

A[0] A[1] A[2] A[3] A[4] Vahetame 20 ja Vahetame 50 ja ja 75 oma kohtadel Vahetame 35 ja kõige suurem element. LastExchangeIndex = 3 Läbimine 0 Проход 0

ja 40 oma kohtadel ja 50 oma kohtadel Vahetame 50 ja kõige suurem element. LastExchangeIndex = 0 Läbimine 1 Проход 1

Läbimine 2 Проход ja 40 oma kohtadel Vahetame 40 ja 35 LastExchangeIndex = 2 Läbimine 3 Проход ja 35 oma kohtadel VALMIS LastExchangeIndex = 0

void BubbleSort ( A[ ], int n) { int i, j; //viimase vahetamise elemendi index int ViimaneIndex; i=n-1; while (i>0) { for (j=0; j

A[0] A[1] A[2] A[3] A[4] 50 Alustame 50-st Andmetöötlus: A[0]=20 ja A[1]=50 20 Andmetöötlus: A[1]=40 ja A[2]= Andmetöötlus: on oma kohal Andmetöötlus: A[1]=35 Nihutamine paremale

void InsertionSort ( A[ ], int n) { int i, j; T temp; for (i=1; i0 && temp

"Поразрядная сортировка" Поразрядная сортировка была изобретена в 1920-х годах как побочный результат использования сортирующих машин. Такая машина обрабатывала перфокарты, имевшие по 80 колонок. Каждая колонка представляла отдельный символ. В колонке было 12 позиций, и в них для представления того или иного символа пробивались отверстия. Цифру от 0 до 9 кодировали одним отверстием в соответствующей позиции (еще две позиции в колонке использовали для кодировки букв). Запуская машину, оператор закладывал в ее приемное устройство стопку перфокарт и задавал номер колонки на перфокартах. Машина "просматривала" эту колонку на картах и по цифровому значению 0, 1,..., 9 в ней распределяла ("сортировала") карты на 10 стопок. Несколько колонок (разрядов) с закодированными цифрами представляли натуральное число, т.е. номер. Чтобы получить стопку карт, упорядоченных по номерам, оператор действовал так. Вначале он распределял карты на 10 стопок по значению младшем разряде. Эти стопки в порядке возрастания значений в младшем разряде он складывал в одну и повторял процесс, но со следующим разрядом, и т.д. Получив стопки карт, распределенных по значениям в старшем разряде, оператор складывал их по возрастанию этих значений и получал то, что нужно.

Значения в разрядах номеров заданы цифрами, поэтому поразрядную сортировку еще называют цифровой. Заметим, что цифры от 0 до 9 упорядочены по возрастанию, поэтому цифровая сортировка располагает числа в лексикографическом порядке. Пример. Входные данные Выходные данные Описание решения. Принцип решения разберем на конкретном примере. Пусть задана последовательность трехзначных номеров: Распределим данную последовательность по младшей цифре на стопки:

Далее сложим получившиеся стопки в одну в порядке возрастания последней цифры На следующем шаге номера, которые обрабатываются именно в этой последовательности, распределяются по второй цифре на следующие стопки Затем из них также образуется одна последовательность Обратим внимание, что перед последним шагом все номера с числом сотен 7, благодаря предыдущим шагам, расположены один относительно другого по возрастанию. На последнем шаге номера распределяются по старшей цифре на стопки: и образуется окончательная последовательность:

#include "stdafx.h" #include using namespace std; const int D = 3; const int B = 10; typedef int T[D]; typedef T *List; void SortD(int k); void Done(); void outDigs(int i); List Data; int PFirst[B], PLast[B], *PQNext; int first, n, newL, tempL, i, nextI; int _tmain(int argc, _TCHAR* argv[]){ int k; cout > n; Data = new T[n]; PQNext = new int[n];

for ( k = 0 ; k < n ; k++ ){ PQNext[k] = k + 1; for ( int r = 0 ; r < D ; r++ ) Data[k][r] = 0; } for ( k = 0 ; k < n ; k++ ) for ( int r = 0 ; r < D ; r++ ) Data[k][r] = rand()%B; first = 0; Done(); cout = 0 ; k-- ) SortD(k); Done(); cout

// описание функции поразрядной сортировки void SortD(int k){ for ( tempL = 0 ; tempL < B ; tempL++ ){ PFirst[tempL] = n; PLast[tempL] = n; } i = first; while (i != n){ tempL = Data[i][k]; nextI = PQNext[i]; PQNext[i] = n; if ( PFirst[tempL] == n ) PFirst[tempL] = i; else PQNext[PLast[tempL]] = i; PLast[tempL] = i; i = nextI; } tempL = 0; while ( tempL < B && PFirst[tempL] == n ) tempL++; first = PFirst[tempL];

while ( tempL < B - 1 ){ newL = tempL + 1; while ( newL < B && PFirst[newL] == n ) newL++; if ( newL < B ) PQNext[PLast[tempL]] = PFirst[newL]; tempL = newL; } /*описание функции вывода элементов в соответсвии со списком индесов в массиве PQNext*/ void Done(){ int i = first; while ( i != n ){ outDigs(i); i = PQNext[i]; }

/*описание функции вывода элементов из массива Data, индекс которого задан ее аргументом*/ void outDigs(int i){ int j = 0; while ( Data[i][j] == 0 && j < D ) j++; if ( j == D ) cout

Данный метод сортировки был предложен Дж.Уильямсом и Р.У. Флойдом в 1964 году. Пирамидальная сортировка в некотором роде является модификацией такого подхода, как сортировка выбором, с тем лишь отличием, что минимальный (или максимальный) элемент из неотсортированной последовательности выбирается за меньшее количество операций. Для такого быстрого выбора из этой неотсортированной последовательности строится некоторая структура. Именно суть данного метода и состоит в построении такой структуры, которая называется пирамидой. Пирамида (сортирующее дерево, двоичная куча) – двоичное дерево с упорядоченными листьями (корень дерева – наименьший или наибольший элемент). Пирамиду можно представить в виде массива. Первый элемент пирамиды является наименьшим или наибольшим, что зависит от ключа сортировки.

Просеивание – это построение новой пирамиды по следующему алгоритму: новый элемент помещается в вершину дерева, далее он перемещается ("просеивается") по пути вниз на основе сравнения с дочерними элементами. Спуск завершается, если результат сравнения с дочерними элементами соответствует ключу сортировки. Последовательность чисел x i,x i +1,...,x i формирует пирамиду, если для всех k=i, i+1,...,n/2 выполняются неравенства x k > x 2k, x k > x i (или x k < x 2k, x k < x 2k+1 ). Элементы x 2i и x 2i+1 называются потомками элемента x i. Массив чисел является пирамидой. Такой массив удобно изображать в виде дерева. Первый элемент массива, элементы которого образуют собой пирамиду, является наибольшим (или наименьшим). Если массив представлен в виде пирамиды, то массив легко отсортировать.

Алгоритм пирамидальной сортировки. Шаг 1. Преобразовать массив в пирамиду (перебираем в цикле элементы массива справа налево и строим пирамиду снизу вверх) Шаг 2. Использовать алгоритм сортировки пирамиды

Алгоритм преобразования массива в пирамиду (построение пирамиды). Пусть дан массив x[1],x[2],...,x[n]. Шаг 1. Устанавливаем k=n/2. Шаг 2. Перебираем элементы массива в цикле справа налево для i=k,k- 1,...,1. Если неравенства x i > x 2i, x i > x 2i+1 не выполняются, то повторяем перестановки x i с наибольшим из потомков. Перестановки завершаются при выполнении неравенств x i > x 2i, x i > x 2i+1.

Алгоритм сортировки пирамиды. Рассмотрим массив размерности n, который представляет пирамиду x[1],x[2],...,x[n](см.рис.А). Шаг 1. Переставляем элементы x[1] и x[n] (см.рис.В). Шаг 2. Определяем n=n-1. Это эквивалентно тому, что в массиве из дальнейшего рассмотрения исключается элемент x[n].

Шаг 3. Рассматриваем массив x[1],x[2],...,x[n-1], который получается из исходного за счет исключения последнего элемента. Данный массив из-за перестановки элементов уже не является пирамидой. Но такой массив легко преобразовать в пирамиду. Это достигается повторением перестановки значения элемента из x[1] с наибольшим из потомков. Такая перестановка продолжается до тех пор, пока элемент из x[1] не окажется на месте элемента x[i] и при этом будут выполняться неравенства x[i] > x[2i], x[i] > x[2i+1]. Тем самым определяется новое место для значения первого элемента из x[1](см.рис.С). Шаг 4. Повторяем шаги 2, 3, 4 до тех пор, пока не получим n=1. Произвольный массив можно преобразовать в пирамиду (см.рис. D, E, F, G, H).

Построение пирамиды, ее сортировка и "просеивание" элементов реализуются с помощью рекурсии. Базой рекурсии при этом выступает пирамида из одного элемента, а сортировка и просеивание элементов сводятся посредством декомпозиции к аналогичным действиям с пирамидой из n-1 элемента. #include #define n 100 using namespace std; //процедура обмена двух элементов void Exchange (int i, int j, int *x) { int tmp; tmp = x[i]; x[i] = x[j]; x[j] = tmp; } //"Просеивание" элементов void Sifting (int left, int right, int *x){ int q, p, h; q=2*left+1; p=q+1; if (q

//Построение пирамиды void Build_Pyramid (int k, int r, int *x){ Sifting(k,r,x); if (k > 0) Build_Pyramid(k-1,r,x); } //Сортировка пирамиды void Sort_Piramid (int k, int *x){ Exchange (0,k,x); Sifting(0,k-1,x); if (k > 1) Sort_Piramid(k-1,x); } //Описание функции бинарной пирамидальной сортировки void Binary_Pyramidal_Sort (int k,int *x){ Build_Pyramid(k/2+1,k-1,x); Sort_Piramid(k-1,x); } void main() { int x[n], j; srand( (unsigned)time( NULL ) ); for(j=0;j

for(j=0;j

Сортировка Шелла была названа в честь ее изобретателя – Дональда Шелла, который опубликовал этот алгоритм в 1959 году. Общая идея сортировки Шелла состоит в сравнении на начальных стадиях сортировки пар значений, расположенных достаточно далеко друг от друга в упорядочиваемом наборе данных. Такая модификация метода сортировки позволяет быстро переставлять далекие неупорядоченные пары значений (сортировка таких пар обычно требует большого количества перестановок, если используется сравнение только соседних элементов). Метод, предложенный Дональдом Л. Шеллом, является неустойчивой сортировкой по месту. Эффективность метода Шелла объясняется тем, что сдвигаемые элементы быстро попадают на нужные места.

Общая схема метода: Шаг 1. Происходит упорядочивание элементов n/2 пар (x i,x n /2+i) для 1

#include #define k 10 using namespace std; //процедура обмена двух элементов void Exchange (int i, int j, int *x) { int tmp; tmp = x[i]; x[i] = x[j]; x[j] = tmp; } //Описание функции сортировки Шелла void Shell_Sort (int n, int *x) { int h, i, j; for (h = n/2 ; h > 0 ; h = h/2) for (i = 0 ; i < n-h ; i++) for (j = i ; j >= 0 ; j = j - h) if (x[j] > x[j+h]) Exchange (j, j+h, x); else j = 0; } void main() { int x[k], j; srand( (unsigned)time( NULL ) ); for(j=0;j

Метод быстрой сортировки был впервые описан Ч.А.Р. Хоаром в 1962 году. Быстрая сортировка – это общее название ряда алгоритмов, которые отражают различные подходы к получению критичного параметра, влияющего на производительность метода. При общем рассмотрении алгоритма быстрой сортировки, отметим, что этот метод основывается на последовательном разделении сортируемого набора данных на блоки меньшего размера таким образом, что между значениями разных блоков обеспечивается отношение упорядоченности (для любой пары блоков все значения одного из этих блоков не превышают значений другого блока). Опорным (ведущим) элементом называется некоторый элемент массива, который выбирается определенный образом. С точки зрения корректности алгоритма выбор опорного элемента безразличен. С точки зрения повышения эффективности алгоритма выбираться должна медиана, но без дополнительных сведений о сортируемых данных ее обычно невозможно получить. Необходимо выбирать постоянно один и тот же элемент (например, средний или последний по положению) или выбирать элемент со случайно выбранным индексом.

Пусть дан массив x[n] размерности n. Шаг 1. Выбирается опорный элемент массива. Шаг 2. Массив разбивается на два – левый и правый – относительно опорного элемента. Реорганизуем массив таким образом, чтобы все элементы, меньшие опорного элемента, оказались слева от него, а все элементы, большие опорного – справа от него. Шаг 3. Далее повторяется шаг 2 для каждого из двух вновь образованных массивов. Каждый раз при повторении преобразования очередная часть массива разбивается на два меньших и т. д., пока не получится массив из двух элементов (см. рис. На следующем слайде) Быстрая сортировка стала популярной прежде всего потому, что ее нетрудно реализовать, она хорошо работает на различных видах входных данных и во многих случаях требует меньше затрат ресурсов по сравнению с другими методами сортировки. Выберем в качестве опорного элемент, расположенный на средней позиции.

//Описание функции сортировки Хоара void Hoar_Sort (int k, int *x){ Quick_Sort (0, k-1, x); } void Quick_Sort(int left, int right, int *x){ int i, j, m, h; i = left; j = right; m = x[(i+j+1)/2]; do { while (x[i] < m) i++; while (x[j] > m) j--; if (i

Эффективность быстрой сортировки в значительной степени определяется правильностью выбора опорных (ведущих) элементов при формировании блоков. В худшем случае трудоемкость метода имеет ту же сложность, что и пузырьковая сортировка, то есть порядка O(n2). При оптимальном выборе ведущих элементов, когда разделение каждого блока происходит на равные по размеру части, трудоемкость алгоритма совпадает с быстродействием наиболее эффективных способов сортировки, то есть порядка O(n log n). В среднем случае количество операций, выполняемых алгоритмом быстрой сортировки, определяется выражением T(n) = O(1.4n log n) Быстрая сортировка является наиболее эффективным алгоритмом из всех известных методов сортировки, но все усовершенствованные методы имеют один общий недостаток – невысокую скорость работы при малых значениях n. Рекурсивная реализация быстрой сортировки позволяет устранить этот недостаток путем включения прямого метода сортировки для частей массива с небольшим количеством элементов. Анализ вычислительной сложности таких алгоритмов показывает, что если подмассив имеет девять или менее элементов, то целесообразно использовать прямой метод (сортировку простыми вставками).

Алгоритм сортировки слиянием был изобретен Джоном фон Нейманом в 1945 году. Он является одним из самых быстрых способов сортировки. Слияние – это объединение двух или более упорядоченных массивов в один упорядоченный. Сортировка слиянием является одним из самых простых алгоритмов сортировки (среди быстрых алгоритмов). Особенностью этого алгоритма является то, что он работает с элементами массива преимущественно последовательно, благодаря чему именно этот алгоритм используется при сортировке в системах с различными аппаратными ограничениями (например, при сортировке данных на жестком диске). Кроме того, сортировка слиянием является алгоритмом, который может быть эффективно использован для сортировки таких структур данных, как связанные списки.

Данный алгоритм применяется тогда, когда есть возможность использовать для хранения промежуточных результатов память, сравнимую с размером исходного массива. Он построен на принципе "разделяй и властвуй". Сначала задача разбивается на несколько подзадач меньшего размера. Затем эти задачи решаются с помощью рекурсивного вызова или непосредственно, если их размер достаточно мал. Далее их решения комбинируются, и получается решение исходной задачи. Процедура слияния требует два отсортированных массива. Заметим, что массив из одного элемента по определению является отсортированным.

Алгоритм сортировки слиянием Шаг 1. Разбить имеющиеся элементы массива на пары и осуществить слияние элементов каждой пары, получив отсортированные цепочки длины 2 (кроме, быть может, одного элемента, для которого не нашлось пары). Шаг 2. Разбить имеющиеся отсортированные цепочки на пары, и осуществить слияние цепочек каждой пары. Шаг 3. Если число отсортированных цепочек больше единицы, перейти к шагу 2.

//Описание функции сортировки слиянием void Merging_Sort (int n, int *x){ int i, j, k, t, s, Fin1, Fin2; int* tmp = new int[n]; k = 1; while (k < n){ t = 0; s = 0; while (t+k < n){ Fin1 = t+k; Fin2 = (t+2*k < n ? t+2*k : n); i = t; j = Fin1; for ( ; i < Fin1 && j < Fin2 ; s++){ if (x[i] < x[j]) { tmp[s] = x[i]; i++; } else { tmp[s] = x[j]; j++; } for ( ; i < Fin1; i++, s++) tmp[s] = x[i]; for ( ; j < Fin2; j++, s++) tmp[s] = x[j]; t = Fin2; } k *= 2; for (s = 0; s < t; s++) x[s] = tmp[s]; } delete(tmp); }

Метод сортировки Характеристики T max T mid T min V max ШеллаO(п 2 )О(N 1,25 )О(п)O(1) ПузырьковаяO(п 2 )О(п)O(1) БыстраяO(п 2 )O(n*log n)O(log n) СлияниеO(n*log n)О(п)

Таблица позволяет сделать ряд выводов. 1. На небольших наборах данных целесообразнее использовать сортировку включением, т.к. из всех методов, имеющих очень простую программную реализацию, этот на практике оказывается самым быстрым и при размерностях меньше ~3000 даёт вполне приемлемую для большинства случаев скорость работы. Еще одно преимущество этого метода заключается в том, что он использует полную или частичную упорядоченность входных данных и на упорядоченных данных работает быстрее, а на практике данные, как правило, уже имеют хотя бы частичный порядок. 2. Алгоритм пузырьковой сортировки, причем в той его модификации, которая не использует частичный порядок данных исходного массива, хотя и часто используется, но имеет плохие показатели даже среди простых методов с квадратичной сложностью. 3. Сортировка Шелла оказывается лишь красивым теоретическим методом, потому что на практике использовать его нецелесообразно: он сложен в реализации, но не дает такой скорости, какую дают сравнимые с ним по сложности программной реализации методы. 4. При сортировке больших массивов исходных данных лучше использовать быструю сортировку.

5. Если же добавляется требование гарантировать приемлемое время работы метода (быстрая сортировка в худшем случае имеет сложность, пропорциональную O(n 2 ), хотя вероятность такого случая очень мала), то надо применять либо древесную сортировку, либо сортировку слиянием. Как видно из таблиц, сортировка слиянием работает быстрее, но следует помнить, что она требует дополнительную память размером порядка n. 6. В тех же случаях, когда есть возможность использовать дополнительную память размером порядка n, имеет смысл воспользоваться сортировкой распределением.

Внешняя сортировка – это сортировка данных, которые расположены на внешних устройствах и не вмещаются в оперативную память.

1.Внешние сортировки применяются к данным, которые хранятся во внешней памяти. 2.При выполнении таких сортировок требуется работать с данными, расположенными на внешних устройствах последовательного доступа. 3.Для файлов, расположенных на таких устройствах в каждый момент времени доступен только один компонент последовательности данных, что является существенным ограничением по сравнению с сортировкой массивов, где всегда доступен каждый элемент.

Серия (упорядоченный отрезок) – это последовательность элементов, которая упорядочена (отсортирована) по ключу. Длина серии - количество элементов в серии называется. Серия, состоящая из одного элемента, упорядочена всегда. Последняя серия может иметь длину меньшую, чем остальные серии файлов. Максимальное количество серий в файле N (все элементы не упорядочены). Минимальное количество серий одна (все элементы упорядочены). Слияние – это процесс объединения двух (или более) упорядоченных серий в одну упорядоченную последовательность при помощи циклического выбора элементов доступных в данный момент. Распределение – это процесс разделения упорядоченных серий на два и несколько вспомогательных файла. Основные определения

Фаза – это действия по однократной обработке всей последовательности элементов. Двухфазная сортировка – это сортировка, в которой отдельно реализуется две фазы: распределение и слияние. Однофазная сортировка – это сортировка, в которой объединены фазы распределения и слияния в одну. Двухпутевым слиянием называется сортировка, в которой данные распределяются на два вспомогательных файла. Многопутевым слиянием называется сортировка, в которой данные распределяются на N (N > 2) вспомогательных файлов.

Общий алгоритм сортировки слиянием

Сортировка простым слиянием внешнейсортировки Алгоритм сортировки простым слияния является простейшим алгоритмом внешней сортировки, основанный на процедуре слияния серией. В данном алгоритме длина серий фиксируется на каждом шаге. В исходном файле все серии имеют длину 1, после первого шага она равна 2, после второго – 4, после третьего – 8, после k-го шага – 2k. Алгоритм сортировки простым слиянием Шаг 1. Исходный файл f разбивается на два вспомогательных файла f1 и f2. Шаг 2. Вспомогательные файлы f1 и f2 сливаются в файл f, при этом одиночные элементы образуют упорядоченные пары. Шаг 3. Полученный файл f вновь обрабатывается, как указано в шагах 1 и 2. При этом упорядоченные пары переходят в упорядоченные четверки. Шаг 4. Повторяя шаги, сливаем четверки в восьмерки и т.д., каждый раз удваивая длину слитых последовательностей до тех пор, пока не будет упорядочен целиком весь файл.

После выполнения i проходов получаем два файла, состоящих из серий длины 2 i. Окончание процесса происходит при выполнении условия 2 i n. Следовательно, процесс сортировки простым слиянием требует порядка O(log n) проходов по данным. Признаками конца сортировки простым слиянием являются следующие условия: длина серии не меньше количества элементов в файле (определяется после фазы слияния); количество серий равно 1 (определяется на фазе слияния). при однофазной сортировке второй по счету вспомогательный файл после распределения серий остался пустым. распределениеслияние 1 проходF F F проходF F F проходF F F Исходный файл F

// Описание функции сортировки простым слиянием void Simple_Merging_Sort (char *name) { int a1, a2, k, i, j, kol, tmp; FILE *f, *f1, *f2; kol = 0; if ( (f = fopen(name,"r")) == NULL ) cout

while ( !feof(f) ) //пока не конец файла { for ( i = 0; i < k && !feof(f) ; i++ ) { fprintf(f1,"%d ",a1); fscanf(f,"%d",&a1); } for ( j = 0; j < k && !feof(f) ; j++ ) { fprintf(f2,"%d ",a1); fscanf(f,"%d",&a1); } } //while ( !feof(f) ) fclose(f2); fclose(f1); fclose(f); f = fopen(name,"w"); f1 = fopen("smsort_1","r"); f2 = fopen("smsort_2","r"); if ( !feof(f1) ) fscanf(f1,"%d",&a1); if ( !feof(f2) ) fscanf(f2,"%d",&a2);

while( !feof(f1) && !feof(f2) ) { i = 0; j = 0; while(i

while ( !feof(f1) ) { fprintf(f,"%d ",a1); fscanf(f1,"%d",&a1); } while ( !feof(f2) ) { fprintf(f,"%d ",a2); fscanf(f2,"%d",&a2); } fclose(f2); fclose(f1); fclose(f); k *= 2; //удвоить } remove("smsort_1");//удалить remove("smsort_2"); }

Сортировка естественным слиянием В случае простого слияния частичная упорядоченность сортируемых данных не дает никакого преимущества. Это объясняется тем, что на каждом проходе сливаются серии фиксированной длины. При естественном слиянии длина серий не ограничивается, а определяется количеством элементов в уже упорядоченных подпоследовательностях, выделяемых на каждом проходе. Сортировка, при которой всегда сливаются две самые длинные из возможных последовательностей, является естественным слиянием. В данной сортировке объединяются серии максимальной длины.

Алгоритм сортировки естественным слиянием Шаг 1. Исходный файл f разбивается на два вспомогательных файла f1 и f2. Распределение происходит следующим образом: поочередно считываются записи a i исходной последовательности (неупорядоченной) таким образом, что если значения ключей соседних записей удовлетворяют условию f(a i )f(a i +1), то они записываются в первый вспомогательный файл f1. Как только встречаются f(a i )>f(a i +1), то записи a i +1 копируются во второй вспомогательный файл f2. Процедура повторяется до тех пор, пока все записи исходной последовательности не будут распределены по файлам. Шаг 2.Вспомогательные файлы f1 и f2 сливаются в файл f,при этом серии образуют упорядоченные последовательности. Шаг 3. Полученный файл f вновь обрабатывается, как указано в шагах 1 и 2. Шаг 4. Повторяя шаги, сливаем упорядоченные серии до тех пор, пока не будет упорядочен целиком весь файл.

Признаками конца сортировки естественным слиянием являются следующие условия: количество серий равно 1 (определяется на фазе слияния). при однофазной сортировке второй по счету вспомогательный файл после распределения серий остался пустым. Естественное слияние, у которого после фазы распределения количество серий во вспомогательных файлах отличается друг от друга не более чем на единицу, называется сбалансированным слиянием, в противном случае – несбалансированное слияние. Символ «апостроф» обозначает признак конца серии.

//Описание функции сортировки естественным //слиянием void Natural_Merging_Sort (char *name) { int s1, s2, a1, a2, mark; FILE *f, *f1, *f2; s1 = s2 = 1; while ( s1 > 0 && s2 > 0 ) { mark = 1; s1 = 0; s2 = 0; f = fopen(name,"r"); f1 = fopen("nmsort_1","w"); f2 = fopen("nmsort_2","w"); fscanf(f,"%d",&a1);

if ( !feof(f) ) { fprintf(f1,"%d ",a1); } if ( !feof(f) ) fscanf(f,"%d",&a2); while ( !feof(f) ) { if ( a2 < a1 ) { switch (mark) { case 1:{fprintf(f1,"' "); mark = 2; s1++; break;} case 2:{fprintf(f2,"' "); mark = 1; s2++; break;} }// switch }//while ( !feof(f) ) if ( mark == 1 ) { fprintf(f1,"%d ",a2); s1++; } else { fprintf(f2,"%d ",a2); s2++;} a1 = a2; fscanf(f,"%d",&a2); }//while ( s1 > 0 && s2 > 0 )

if ( s2 > 0 && mark == 2 ) { fprintf(f2,"'");} if ( s1 > 0 && mark == 1 ) { fprintf(f1,"'");} fclose(f2); fclose(f1); fclose(f); cout

bool file1, file2; while ( !feof(f1) && !feof(f2) ) { file1 = file2 = false; while ( !file1 && !file2 ) { if ( a1

while ( !file1 ) { fprintf(f,"%d ",a1); file1 = End_Range(f1); fscanf(f1,"%d",&a1); } while ( !file2 ) { fprintf(f,"%d ",a2); file2 = End_Range(f2); fscanf(f2,"%d",&a2); } }//while ( !feof(f1) && !feof(f2) ) file1 = file2 = false; while ( !file1 && !feof(f1) ) { fprintf(f,"%d ",a1); file1 = End_Range(f1); fscanf(f1,"%d",&a1); }

while ( !file2 && !feof(f2) ) { fprintf(f,"%d ",a2); file2 = End_Range(f2); fscanf(f2,"%d",&a2); } fclose(f2); fclose(f1); fclose(f); } remove("nmsort_1"); remove("nmsort_2"); } //определение конца блока bool End_Range (FILE * f) { int tmp; tmp = fgetc(f); if (tmp != '\'') fseek(f,-2,1); else fseek(f,1,1); return tmp == '\'' ? true : false; }

Выводы. 1.Число чтений или перезаписей файлов при использовании метода естественного слияния будет не хуже, чем при применении метода простого слияния, а в среднем – даже лучше. 2.Но в этом методе увеличивается число сравнений за счет тех, которые требуются для распознавания концов серий. 3.Помимо этого, максимальный размер вспомогательных файлов может быть близок к размеру исходного файла, т.к. длина серий может быть произвольной.

Алгоритмы внешних сортировок отличаются по реализации числом фаз и путей. Простое слияние является одной из сортировок на основе слияния, в которой длина серий фиксируется на каждом шаге. Естественное слияние является сортировкой, при которой всегда сливаются две самые длинные из возможных серий. Число чтений или перезаписей файлов при использовании метода естественного слияния будет не хуже, чем при применении метода простого слияния, а в среднем – даже лучше. Однако в данном методе увеличивается число сравнений за счет распознавания концов серий.

Задания 1.Дан полный перечень всех стран, который включает в себя: название, континент, столицу, площадь, численность населения. Указать сведения о государствах заданного континента в порядке возрастания численности населения. Использовать двухпутевое однофазное простое слияние. 2.Даны сведения о химических веществах, которые включает в себя: класс вещества, название вещества, молекулярная масса вещества. Упорядочить по возрастанию молекулярных масс все вещества указанного класса. Использовать двухпутевое двухфазное естественное сбалансированное слияние. 3.В файле хранится последовательность русских слов. Упорядочить ее в алфавитном порядке. Использовать внешнюю сортировку. Учесть, что порядок кодов букв русского алфавита не соответствует порядку букв в алфавите.