Лабораторная работа Классификация ирисов. План Классификация ирисов Постановка задачи. Описать, какие задачи являются задачами классификации Описать алгоритм.

Презентация:



Advertisements
Похожие презентации
МЕТОД ; ДЕРЕВА РЕШЕНИЙ Дерево принятия решений ( также называться деревом классификации или регрессионным деревом ) средство поддержки принятия решений,
Advertisements

Классификация и регрессия Доклад по курсу Интеллектуальный анализ данных Закирова А.Р. 1.
МЕТОД K -БЛИЖАЙШИХ СОСЕДЕЙ (K-NEAREST NEIGHBOR) Метод решения задачи классификации, который относит объекты к классу, которому принадлежит большинство.
НазваниеОписание ОбъектПример, шаблон, наблюдение АтрибутПризнак, независимая переменная, свойство Метка класса Зависимая переменная, целевая переменная,
С ТАТИСТИЧЕСКИЕ МЕТОДЫ ОБУЧЕНИЯ РАСПОЗНАВАНИЮ ОБРАЗОВ Студент гр Хиндикайнен А.С.
ПРОВЕРКА СТАТИСТИЧЕСК ИХ ГИПОТЕЗ. Определение статистической гипотезы Статистической гипотезой называется всякое высказывание о генеральной совокупности.
Лекция 3 - Проверка гипотез в одномерном статистическом анализе 3.1. Основные понятия, используемые при проверке гипотез 3.2. Общий алгоритм статистической.
Лекция 6. Нейронные сети Хопфилда и Хэмминга Среди различных конфигураций искусственных нейронных сетей (НС) встречаются такие, при классификации которых.
Алгоритм как модель деятельности 10 класс Учитель информатики: Грязных В.С.
Евпатова К.Э.. I этап. Постановка задачи Описание задачи Цель моделирования II этап. Разработка модели Информационная модель Компьютерная модель IV этап.
Алгоритм как модель деятельности. Что такое алгоритмическая модель Алгоритм- это понятное и точное предписание конкретному исполнителю совершить конечную.
Программирование на языке PASCAL ТЕСТ (1) Начать тест Начать тест.
Понятие шкалы измерения, основные типы шкал и их применение в системном анализе Дисциплина : « теория систем и системный анализ » Студент : Щеколдина Д.
Евпатова К.Э.. I этап. Постановка задачи Описание задачи Цель моделирования II этап. Разработка модели Информационная модель Компьютерная модель IV этап.
Евпатова К.Э.. I этап. Постановка задачи Описание задачи Цель моделирования II этап. Разработка модели Информационная модель Компьютерная модель IV этап.
Способы описания и виды алгоритмов Учитель информатики гимназии 12 г. Тюмени Бугаева Елена Викторовна.
Полиморфизм. Полиморфизм – это свойство системы использовать объекты с одинаковым интерфейсом без информации о типе и внутренней структуре объекта.
Языки и методы программирования Преподаватель – доцент каф. ИТиМПИ Кузнецова Е.М. Лекция 7.
Массивы 9 класс. Основные теоретические сведения Примеры решения задач.
Структура части 2 экзаменационной работы по информатике и ИКТ.
Транксрипт:

Лабораторная работа Классификация ирисов

План Классификация ирисов Постановка задачи. Описать, какие задачи являются задачами классификации Описать алгоритм деревья решений Описать алгоритм ближайшего соседа Описание данных. Предобработка данных, если необходимо. Пошаговое выполнение на Python Результаты. score() predict(). Сделать сравнительный анализ распознаваний. Распознавание как минимум пяти ирисов Скачать и установить graphviz. Описание в книге Рашки. Выведите деревья решений для ирисов.

Постановка задачи Имеются данные измерений для 150 экземпляров ирисов, в равных частях (по 50 штук) принадлежащих к трем видам (iris setosa, iris versicolor, iris virginica). Для каждого экземпляра ириса известны 4 величины: длина чашелистика (Sepal Length), ширина чашелистика (Sepal Width), длина лепестка (Petal Length), ширина лепестка (Petal Width). Входной файл состоит из 150 строк (по 50 для каждого сорта). Пятая переменная - целевая, обозначает класс (вид) и для различных видов принимает следующие значения: 1 - setosa, 2 - versicolor, 3 - virginica. Такой способ кодировки связан с предположением Фишера, что versicolor - это гибрид setosa и virginica. Наша задача - подтвердить или опровергнуть это предположение.

Задачи классификации Задача классифика́ции формализованная задача, в которой имеется множество объектов (ситуаций), разделённых некоторым образом на классы. Задано конечное множество объектов, для которых известно, к каким классам они относятся. Это множество называется выборкой. Классовая принадлежность остальных объектов неизвестна. Требуется построить алгоритм, способный классифицикровать (см. ниже) произвольный объект из исходного множества. Классифици́кровать объект значит, указать номер (или наименование) класса, к которому относится данный объект. Классифика́ция объекта номер или наименование класса, выдаваемый алгоритмом классификации в результате его применения к данному конкретному объекту.

Задачи классификации В машинном обучении задача классификации решается, в частности, с помощью методов искусственных нейронных сетей при постановке эксперимента в виде обучения с учителем. Алгоритмы классификации: Метод k-ближайших соседей Дерево принятия решений или дерево классификации

Метод к-ближайших соседей Метод k-ближайших соседей (англ. k-nearest neighbors algorithm, k-NN) метрический алгоритм для автоматической классификации объектов. В случае использования метода для классификации объект присваивается тому классу, который является наиболее распространённым среди {k} соседей данного элемента, классы которых уже известны.

Деревья решений Дерево принятия решений (также может называться деревом классификации или регрессионным деревом) средство поддержки принятия решений, использующееся в статистике и анализе данных для прогнозных моделей. Структура дерева представляет собой «листья» и «ветки». На ребрах («ветках») дерева решения записаны атрибуты, от которых зависит целевая функция, в «листьях» записаны значения целевой функции, а в остальных узлах атрибуты, по которым различаются случаи. Чтобы классифицикровать новый случай, надо спуститься по дереву до листа и выдать соответствующее значение. Подобные деревья решений широко используются в интеллектуальном анализе данных. Цель состоит в том, чтобы создать модель, которая предсказывает значение целевой переменной на основе нескольких переменных на входе.

Деревья решений

Описание данных. Предобработка данных Открываем в excel файл iris.xlsx и далее для работы с помощью языка python, сохраняем файл в csv формате. (Файл – Сохранить как – Тип файла – CSV(разделители – запятые))

Описание данных. Предобработка данных Получаем в таком csv формате данные.

Пошаговое выполнение на Python Для реализации алгоритма нам требуется дистрибутив Anaconda. Anaconda дистрибутив языков программирования Python и R, включающий в себя набор библиотек для научных и инженерных расчетов, менеджер пакетов conda, интерактивную оболочку IPython. Открываем наш дистрибутив и начинаем работу.

Шаг 1. Создаем новый файл

Шаг 2. Загружаем данные ириса из csv файла

Шаг 3. Вывод на экран 5 первых значений

Шаг 4. Сохранения данных в переменные Х и У. В переменной Х сохраняем данные всех строк и 1 – 4 столбцов, то есть данные длины и ширины ирисов. А в переменной У сохраняем данные всех строк и 5 столбца, то есть какой вид ириса под этими данными длины и ширины.

Шаг 5. Проверка переменных Х и У С помощью функции print () можем проверить правильные ли мы данные сохранили

Шаг 6. Библиотека scikit-learn и функция train_test_split Вызываем библиотеку scikit-learn, в котором есть функция train_test_split, теперь вызовем функцию train_test_split для наших данных и зададим обучающие данные, обучающие метки, тестовые данные, тестовые метки, используя вышеупомянутые буквы: и разбивает его на две части. Эта функция отбирает в обучающий набор 70% строк данных с соответствующими метками. Оставшиеся 30% данных с метками объявляются тестовым набором. (Наборы мы можем самостоятельно установить)

Шаг 7. Класс DecisionTreeClassifier В библиотеке scikit-learn деревья решений реализованы в классах DecisionTreeClassifier. В переменную tree_entropy сохраняем критерии энтропии. В scikit-learn алгоритм оценки для классификатора это Python объект, который исполняет методы fit(X, y) и predict(T). То есть с помощью метода : fit() обучаем модель.

Шаг 8. Метод score() С помощью метода score () некоторые модели получают правдоподобие (насколько данные соответствуют модели). То есть этот метод определил правильность в тестовом наборе, у нас составляет 95,5%

Шаг 9. Метод predict() С помощью метода predict() выдаем«степень уверенности» в ответе (вероятность) – для некоторых моделей. То есть мы сами задаем данные и проверяем. Здесь приведены 5 примеров

Выводим на экран деревья решений для ирисов. Для вывода на экран деревья решений нам необходимо установить пакет программы graphviz Далее создадим файл dat, используя для этого функцию export_graphviz из подмодуля tree библиотеки scikit-learn. Сохраняем в диске с, в файле tree.dot Чтобы посмотреть деревья решений с помощью командной строки tree.dot файл преобразовываем в tree.png. В PNG формат. И на следующей странице смотрим результат

Деревья решений

К – ближайших соседей Также включая функций к – ближайших соседей можно использовать этот алгоритм. Программа нам все рассчитает

К – ближайших соседей Разница между алгоритмами к – ближайших соседей и деревья решений. Можно сравнить.

СПАСИБО)