Нейросетевая аппроксимация плотности вероятности и вычисления в Байесовых сетях Сергей А. Терехов NeurOK, LLC © 2002, NeurOK, LLC.

Презентация:



Advertisements
Похожие презентации
Регрессионный анализ. Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет.
Advertisements

АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.
Классификация и регрессия Доклад по курсу Интеллектуальный анализ данных Закирова А.Р. 1.
Оптимальное планирование эксперимента. Цель планирования эксперимента нахождение таких условий и правил проведения опытов при которых удается получить.
Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.
Лекция 2 Часть I: Многомерное нормальное распределение, его свойства; условные распределения Часть II: Парная линейная регрессия, основные положения.
ИНФОРМАЦИОННАЯ ЧУВСТВИТЕЛЬНОСТЬ КОМПЬЮТЕРНЫХ АЛГОРИТМОВ И ЕЁ КОЛИЧЕСТВЕННЫЕ МЕРЫ д.т.н., профессор М.В. Ульянов Кафедра «Управление разработкой программного.
С ТАТИСТИЧЕСКИЕ МЕТОДЫ ОБУЧЕНИЯ РАСПОЗНАВАНИЮ ОБРАЗОВ Студент гр Хиндикайнен А.С.
Вероятностная НС (Probability neural network) X 1 X n... Y 1 Y m Входной слой Скрытый слой (Радиальный) Выходной слой...
СТАТИСТИЧЕСКИЕ ИГРЫ Выполнили: Петрук К. Черняк А. Чикиш Ю.
Презентация к уроку по алгебре (10 класс) на тему: Презентация. Применение математической статистики в школе.
Александров А.Г ИТО Методы теории планирования экспериментов 2. Стратегическое планирование машинных экспериментов с моделями систем 3. Тактическое.
Курс математической статистики Лекционный материал Преподаватель – В.Н. Бондаренко.
Большая часть классического численного анализа основывается на приближении многочленами, так как с ними легко работать. Однако для многих целей используются.
ПРОВЕРКА СТАТИСТИЧЕСК ИХ ГИПОТЕЗ. Определение статистической гипотезы Статистической гипотезой называется всякое высказывание о генеральной совокупности.
Прогнозирование ARMA- МОДЕЛЕЙ ВРЕМЕННЫХ РЯДОВ С «ПРОПУСКАМИ» БГУ, ФПМИ, МАГИСТРАНТ Лобач Сергей Викторович.
Статистические оценки параметров распределения Доверительные интервалы.
Лекция 12 РАЗЛИЧЕНИЕ СИГНАЛОВ МНОГОАЛЬТЕРНАТИВНЫЕ ЗАДАЧИ ВЫБОРА РЕШЕНИЯ.
МЕТОДЫ ОПТИМИЗАЦИИ § 1. Основные понятия. Под оптимизацией понимают процесс выбора наилучшего варианта из всех возможных В процессе решения задачи оптимизации.
МЕТОД ЭКСПЕРТНЫХ ОЦЕНОК. ЭКСПЕРТИЗА В УПРАВЛЕНИИ Роль экспертов в управлении: Основные трудности, связанные с информацией, возникающие при выработке сложных.
Транксрипт:

Нейросетевая аппроксимация плотности вероятности и вычисления в Байесовых сетях Сергей А. Терехов NeurOK, LLC © 2002, NeurOK, LLC

Плотность распределения в информационном моделировании Плотность распределения и ее роль в информационном моделировании Подходы к аппроксимации плотности распределения Пример. Аппроксимация плотности на отрезке Бутстреп-выборки Эффективное обучение больших нейронных сетей Численные эксперименты Задача Banana Задача CompAct прогноза загрузки процессора ЭВМ Задача Galaxy прогноза радиальной скорости галактики Аннотация. С прикладных позиций рассматривается задача аппроксимации плотности распределения, описывающего многомерные экспериментальные данные. Предложены эффективные нейросетевые методики аппроксимации формы плотности. Приведены примеры постановок задач анализа данных на основе аппроксимации плотности. Обсуждаются приложения подхода.

Гипотезы о данных в эмпирических информационных моделях В центре рассмотрения лежит матрица наблюдений D jk, в которой j=1..N - номер наблюдения (одна строка в таблице или запись в базе данных), а k=1..M - номер наблюдаемой переменной x k (признака, фактора, свойства и т.д.) Наблюдаемое значение является реализацией некоторой случайной величины Наблюдаемые данные порождены стационарным процессом (системой), т.е. рассматриваемые случайные величины не зависят от времени Различные наблюдения не зависят друг от друга Факт наблюдения не влияет на свойства исследуемой системы (процесса)

Вероятностная трактовка данных Процесс измерения сопряжен с экспериментальными погрешностями Изучаемая система является сложной, т.е. несводимой к сумме свойств отдельных компонент, и наблюдаемое многообразие данных может быть равновероятно объяснено великим множеством структурных описаний, при этом нельзя достоверно предпочесть ни одно из них Объем измерений конечен и не может считаться исчерпывающим описанием системы В рамках вероятностного подхода из общих позиций (по Байесу) удается согласовать субъективные неопределенности в ожиданиях исследователей (beliefs) и объективные факты о статистике экспериментальных наблюдений (probabilities).

Плотность вероятности и ее аппроксимация Будем считать, что аппроксиматором плотности P множества точек D в параллелепипеде V из R n является всякая функция A, такая, что: A равна нулю вне V А нормирована на V: Отношение интегралов от A по двум объемам V 1 и V 2 из V, содержащим точки из D, "стремится" к отношению числа точек из D в этих объемах Плотностью вероятности называют неотрицательную интегрируемую функцию P в пространстве R n. (В. Феллер, Т.2, С.84)

Некорректность задачи аппроксимации плотности Всякая попытка восстановления плотности вдали за границами объема V, содержащего точки наблюдений, потребует дополнительных предположений и ограничений. Внутри исследуемого объема задача восстановления плотности также является некорректно поставленной [Тихонов74], хотя бы уже потому, что решение не единственно. У задачи, в некотором смысле, нет "наилучшего" решения, имея в виду использование оцененной плотности для генерации и объяснения новых данных. Применение метода максимального правдоподобия без регуляризации:

Некорректно поставленные задачи Определение корректности задачи Решение поставленной задачи существует Решение является единственным Решение обладает свойством устойчивости Принцип регуляризации по А.Н.Тихонову Сужение пространства пробных решений на основе априорной информации для получения однозначного решения Использование регуляризирующего оператора для формулировки приближенной задачи, являющейся корректно поставленной

Совместная плотность, маргинальные и условные вероятности Совместная плотность распределения всех переменных задачи соответствует наиболее полному (эмпирическому) описанию: Наблюдаемые значения части переменных при отсутствии информации об оставшихся переменных даются маргинальными плотностями: Наблюдаемые значения некоторых переменных при заданных величинах прочих переменных описываются условными плотностями:

Информационные запросы к вероятностным моделям Однофакторные условные распределения. Как распределен какой-то из признаков, если значения остальных признаков известны достоверно? В случае, если выделенный признак является выходным (зависимым от остальных) и кодирующим некоторый отклик, эта задача соответствует задаче распознавания образов. В качестве искомого кода образа, задаваемого остальными признаками, принимается наиболее вероятное или среднее значение в распределении признака-кода. Таким образом, имеет место пропорциональность: В общем случае, в отличие от традиционной задачи аппроксимации поверхности отклика или распознавания образов, при использовании для оценки условной плотности получается истинное распределение возможных значений результата, а не только его наиболее вероятное значение

Информационные запросы к вероятностным моделям Пропуски в данных. Какие значения может принимать некоторый признак, если значения части других признаков известны достоверно, а оставшихся - неизвестны вовсе? К этой задаче сводится известная проблема заполнения пропусков в таблицах данных. Соответствующие распределения даются маргинальными интегралами от совместной плотности : Вероятностный прогноз. Какова форма плотности распределения условных вероятностей выделенных признаков, если известны однофакторные плотности распределения остальных переменных. Результат: Обратные задачи. Каковы должны быть величины переменных x 1..x k-1,x k+1..x M, чтобы наиболее вероятным значением для переменной x k было число x k *? Эта задача сводится к (численному) поиску решений нелинейного уравнения на максимум величины условной вероятности как функции M-1 переменной.

Подходы к аппроксимации плотности Параметрические методы аппроксимации. Подходы, основанные на предположении о конкретном функциональном виде распределения с параметрами. Эти параметры далее выбираются на основе статистических критериев максимального правдоподобия или максимума апостериорной вероятности описания данных моделью. Методы непараметрической статистики. Сюда относятся выборочные частотные гистограммы (мало применимые в многомерном случае) и широкий класс методов, основанных на аппроксимации плотности смесью базисных функций ([Jacobs93], [Zeevi96], [LiBarron99]). Частным случаем такой аппроксимации являются Гауссовы смеси [Moerland00], радиальные базисные функции, а также вейвлет-методы.

Байесовы сети событий Если имеется дополнительная информация о степени зависимости или независимости признаков, то многомерная плотность может быть факторизована на функции меньшего числа переменных. Байесова сеть состоит из узлов, соответствующих переменным задачи, и ребер, отражающих зависимости между переменными. Отсутствие ребра между двумя узлами означает независимость между их переменными. Основное достоинство Байесовых сетей – универсальное и интуитивно понятное представление моделей, основанных на данных

Пример: Опоздание из-за транспорта A: Поезд опоздал B: Павел опоздал C: Петр опоздал Все события описываются булевыми переменными События B и C обусловлены событием A. Если A известно достоверно, то B и C условно независимы. Условные вероятности заданы таблицами, априорные вероятности - векторами P(A) A:Да 0.1 Нет 0.9 P(B|A) B:Да Нет A:Да Нет P(C|A) C:Да Нет A:Да Нет

Пример: Вычисления Какова вероятность опоздания Петра (событие C)? Какова вероятность опоздания Павла? Аналогично:

Аппроксимация плотности как задача классификации Замена задачи аппроксимации эквивалентной задачей классификации. Суть метода состоит в построении наилучшего решающего правила, позволяющего отличить наблюдаемую совокупность данных P от некоторой искусственной выборки данных с известной плотностью распределения P 0. Нейросетевой бинарный классификатор обучается разделять примеры из исходной совокупности и искусственные примеры, равномерно распределенные в объеме. Выход классификатора стремится к величине: Аппроксимация формы плотности: Простейший анализ чувствительности:

Пример: Одна случайная переменная Имеется выборка из суммы двух различных Гауссовых распределений на отрезке, априорные вероятности которых равны: Плотность равномерно распределенных случайных точек равна константе Классификатор - многослойная нейронная сеть с сигмоидальными нейронами [Bishop95], обучаемая методом RProp с Лапласовой регуляризацией

Проблемы предлагаемого подхода "Проклятие" размерности. Простые оценки показывают, что при росте числа переменных надежды на надежное статистическое описание данных тают на глазах. Так, для построения достоверной гистограммы в пространстве 10 измерений даже с 2-мя интервалами по каждому из них требуется масштаба ~ 30 x 210 = точек. У экспертов, изучающих некоторое устойчивое явление или систему, обычно имеются базы данных с записями. На такой взрывной характер зависимости объема требуемых данных от размерности обратили внимание еще пионеры раскопки данных (data mining), такие как John Tukey. В нашем подходе эта фундаментальная проблема частично ослабляется тем фактом, что очень сложные, существенно многомерные, формы поверхности плотности встречаются редко, поэтому нейросетевой классификатор эффективно находит главные особенности и направления вариации функции.

Проблемы предлагаемого подхода Качество обобщения и регуляризация. Суть проблемы: при улучшении качества аппроксимации обучающих данных возникает переход к их прямому запоминанию, при этом теряются обобщающие свойства модели. К настоящему моменту разработан широкий круг статистических алгоритмов оценки качества обобщения [Bishop95]. Обычно оценка ошибки представляется в общей форме "Ошибка обобщения" = "Ошибка обучения"+ "Штраф за сложность модели Соотношение между двумя составляющими ошибки наиболее последовательно оценивается при Байесовом обучении. В нашем подходе используются два типа регуляризации - выбор аппроксиматора контролируемой сложности и регуляризация шумом в данных. При использовании нескольких выборок из шумового распределения каждая точка сигнала, образно говоря, окружается облаком шума, что препятствует прямому запоминанию.

Проблемы предлагаемого подхода Эффективные обучающие выборки. Здесь проблема заключается в том, что число примеров, генерируемых аппроксимируемой плотностью конечно и задано заранее, в то время как имеется полная свобода в генерации данных "шумового" распределения. Какой выбор данных предпочесть? Метод бутстреп (bootstrap) генерации новых выборок предложен Брэдом Эфроном в начале 70-х годов. Метод в целом, основан на следующем наблюдении. Для множества точек в многомерном пространстве плотность в форме суммы дельта-функций обладает максимальным правдоподобием. Следовательно, если для порождения новых выборок пользоваться этим распределением, то это эквивалентно выборкам из множества точек нового множества точек с возвратом. В выборке будут повторения, но некотором смысле такая выборка статистически распределена так же, как и исходное множество точек.

Задача оптимизации при обучении нейронной сети прямого распространения Нейронная сеть прямого распространения со скрытым слоем: Ошибка сети на обучающем множестве Градиентный спуск: Задача оптимизации:

Градиентные методы минимизации ошибки нейросети при ее обучении Метод обратного распространения ошибки Обучение с моментом Метод RProp (Riedmiller,Braun) - коррекция каждого веса зависит только от знака производной и от поправки на предыдущем шаге

Принцип и алгоритм обучения в методе RProp W n-1 WnWn W n+2 W n+1 E > 0 E < 0 E(W)

Регуляризация обучения нейросети Гипотеза о нормальном законе распределения ошибок аппроксимации приводит к функции ценности в форме наименьших квадратов. Априорное предположение о Лапласовом распределении весов (Williams, 94) эквивалентно добавке регуляризирующего члена: Распределение весов должно зависеть только от |W|. Экспоненциальное (Лапласово) распределение максимизирует энтропию неотрицательной величины. Гауссово распределение возникает при дополнительных требованиях к первому и второму моментам распределения. Суть регуляризации – зануление наименее значимых весов и выравнивание значимости оставшихся параметров:

Пример обучения с регуляризацией: Данные по галактике NGC7531 Прогноз радиальной скорости галактики NGC7531 Записи данных по радиальной скорости спиральной галактики NGC7531 произведены в 323 точках в области небосвода, занимаемого галактикой. Все измерения лежат в 7 секторах, пересекающихся в начале координат. В задаче 4 переменных-аргумента. Описание данных. east.west: координата Восток-Запад. Начало координат (0,0) находится вблизи центра галактики, восток – отрицательные, запад – положительные величины. north.south: координата Север-Юг. angle: угол поворота против часовой стрелки от относительно направления сектора, в котором находится данное наблюдение. radial.position: расстояние до центра координат (со знаком, отризательное если координата Восток-Запад отрицательна). velocity: радиальная скорость в km/sec. Источник. Buta, R. (1987) The Structure and Dynamics of Ringed Galaxies, III: Surface Photometry and Kinematics of the Ringed Nonbarred Spiral NGC7531. The Astrophysical J. Supplement Ser. Vol. 64, pp John M. Chambers and Trevor J. Hastie, (eds.) Statistical Models in S, Wadsworth and Brooks, Pacific Grove, CA 1992, pg. 352.

Байесова аппроксимация с Лапласовским априорным распределением весов Peter M. Williams. Bayesian Regularisation and Pruning using a Laplace Prior. Cognitive Science Research Paper CSRP-312, URL: ftp://ftp.cogs.susx.ac.uk/pub/reports/csrp/csrp312.ps.Z Распределение весовых коэффициентов обученной нейросети Диаграмма зависимости истинного значения от его аппроксимации

Пример: Задача Banana В этой задаче рассматривается множество неоднородно распределенных на плоскости выборок точек из нескольких пятен сложной формы. Переменная признака класса со значениями 0 или 1, добавляется к двум координатам точек, и строится аппроксимация плотности в пространстве 3-х измерений. Запрос: Как распределены примеры класса 0 (точки на рисунке), имеющие координату y, равную 0.5? Запрос: Каковы относительные вероятности примеров разных классов в окрестности точки(1.5, 0.5)? Данные доступны в Интернет (URL

Пример: Задача CompAct Загрузка процессора ЭВМ lread - Число операций чтения lwrite - Число операций записи scall - Число системных вызовов всех типов в секунду sread - Число системных вызовов на чтение в секунду swrite - Число системных вызовов на запись в секунду fork - Число системных вызовов "fork" в секунду exec - Число системных вызовов "exec" в секунду rchar - Число символов в секунду, передаваемых посредством системных вызовов на чтение wchar - Число символов в секунду, передаваемых посредством системных вызовов на запись runqsz - Размер очереди процессов freemem - Число системных страниц, доступных для пользовательских процессов freeswap - Число блоков диска для своппинга страниц usr - Доля времени (в %) для user mode Запрос: Какова зависимость доли пользовательского времени от размера очереди при типичных значениях параметров? Данные доступны в Интернет (URL

Итоги Байесов подход к анализу данных позволяет согласовать ожидания (beliefs) и объективные вероятности (probabilities) Статистическое описание на основе совместной плотности распределения вероятности приобретает "второе дыхание" вследствие бурного развития вычислительной техники Одна из основных проблем, препятствующих созданию полностью автоматизированных методов на основе аппроксимации плотности, уходит корнями "в проклятие размерности" - в многомерном пространстве при типичных объемах данных и типичной сложности задачи плотность распределения сконцентрирована в крошечных областях, объем которых ничтожно мал в сравнении с априорным исследуемым объемом. Тем самым крайне затрудняется получение "полезной" статистики. Аппроксимация плотности вероятности может служить базовым инструментом для data mining (раскопки данных).

Data mining process ( The current process model for data mining provides an overview of the life cycle of a data mining project. It contains the corresponding phases of a project, their respective tasks, and relationships between these tasks. At this description level, it is not possible to identify all relationships. There possibly exists relationships between all data mining tasks depending on goals, background and interest of the user, and most importantly depending on the data. The life cycle of a data mining project consists of six phases. The sequence of the phases is not strict. Moving back and forth between different phases is always required. It depends on the outcome of each phase which phase, or which particular task of a phase, that has to be performed next. The arrows indicate the most important and frequent dependencies between phases. The outer circle in the figure symbolizes the cyclic nature of data mining itself. A data mining process continues after a solution has been deployed. The lessons learned during the process can trigger new, often more focused business questions. Subsequent data mining processes will benefit from the experiences of previous ones.

Data mining - outline of the phases Business Understanding This initial phase focuses on understanding the project objectives and requirements from a business perspective, and then converting this knowledge into a data mining problem definition, and a preliminary plan designed to achieve the objectives. Data Understanding The data understanding phase starts with an initial data collection and proceeds with activities in order to get familiar with the data, to identify data quality problems, to discover first insights into the data, or to detect interesting subsets to form hypotheses for hidden information. Data Preparation The data preparation phase covers all activities to construct the final dataset (data that will be fed into the modeling tool(s)) from the initial raw data. Data preparation tasks are likely to be performed multiple times, and not in any prescribed order. Tasks include table, record, and attribute selection as well as transformation and cleaning of data for modeling tools.

Data mining - outline of the phases Modeling In this phase, various modeling techniques are selected and applied, and their parameters are calibrated to optimal values. Typically, there are several techniques for the same data mining problem type. Some techniques have specific requirements on the form of data. Therefore, stepping back to the data preparation phase is often needed. Evaluation At this stage in the project you have built a model (or models) that appears to have high quality, from a data analysis perspective. Before proceeding to final deployment of the model, it is important to more thoroughly evaluate the model, and review the steps executed to construct the model, to be certain it properly achieves the business objectives. A key objective is to determine if there is some important business issue that has not been sufficiently considered. At the end of this phase, a decision on the use of the data mining results should be reached.

Data mining - outline of the phases Deployment Creation of the model is generally not the end of the project. Even if the purpose of the model is to increase knowledge of the data, the knowledge gained will need to be organized and presented in a way that the customer can use it. Depending on the requirements, the deployment phase can be as simple as generating a report or as complex as implementing a repeatable data mining process. In many cases it will be the customer, not the data analyst, who will carry out the deployment steps. However, even if the analyst will not carry out the deployment effort it is important for the customer to understand up front what actions will need to be carried out in order to actually make use of the created models.

Direct, Inverse, and Combined Problems in Complex Engineered System Modeling Case Study

Goals and Contents The abilities of neural networks to resolve direct, inverse, and combined model and real-world problems are investigated. Practical results were obtained for modeling of complex engineered system behavior under abnormal environmental conditions

Complex System In Abnormal Environments System state (complex engine, building or installation) is described by internal parameters X s External action (e.g. fire or pressure loading etc.) is identified by X a System response Y=F(X s, X a ) is the subject of modeling

Different Approaches to System Modeling Mathematical model Attempts to model the structure Based on formal logic (e.g. math equations) Answers the question how much Informational model Attempts to model functionality Based directly on the experimental knowledge Addresses the questions What-if, For what etc..

Neural Nets in informational modeling Neural networks are able to summarize the experimental evidence about the system behavior Simulative model can be build on the black box principle, making the decision using recognition of state-action pattern Simple feedforward architectures and SOMs are acceptable

Learning and Generalization Errors in Informational Models. Informational models are ab initio expected to be incomplete. Input and output feature spaces may not contain complete set of the parameters important for the system. The effects of missing (hidden) parameters may eliminate the univalence of the system function F. Experimental database used for the producing of the model G is treated as it is, without any notice to the experimental errors and ambiguities spontaneously occurring in the data. Main question: what will be the generalization error of neural model learned up to some learning error?

Direct, Inverse and Combined Problems. The problem in terms of predicting reactions of a known system to known impacts, i.e. obtaining Ys for given Xs, it is called a direct problem. An inverse problem is to find inputs when only outputs are known. For example the corresponding question may be: what were the external actions for some realized system response. Most frequent is a combined problem when some state parameters and impacts are known, but others are unknown. The Y=F(X) correspondence in an implicit (X,Y)=F(X,Y) form may defined any problem as combined one.

Multivalence of inverse function ABC hh=1 S Model task : approximation of non-univalent inverse function to given piece-linear function S(x) Evident : problem is ill-posed

Results for model task Feed forward net learned on 200 random samples The dependence of learning error EL (circles) and generalization error EG (dots) on the incorrectness h of the inverse problem. Regularized solution of the hard inverse problem given by backpropagation network on the noisy learning data set. Circles - learning set, dots - neural solution.

Partial regularization by neural network Typical continuos regularized solution (circles) of ill-posed inverse problem, given by the backpropagation network Piece-wise regularized solution of the inverse problem, given by counter-propagation network. Distribution of errors onto spatial Kohonen clusters with easily extracted area of the univalence violation (h= 0.2).

Applications to the Problem of the Risk Assessment Risk assessment problem for systems under external loading stands for necessity of the prediction of system behavior under normal and abnormal environments. The example of that problem is the container with waste materials (e.g. fissile or chemical) thermally loaded by the external fire with different parameters. The database consists of experimentally measured data. six impacts : container damage state, fire coordinates, flame diameter, temperature and duration two reactions : temperature maximums inside container and the time during which the temperature inside container was higher than a preset dangerous threshold. Model of the discussed system was based on the backpropagation and counter-propagation networks with six inputs and two outputs.

Requests to the Model Direct neural model can answer the following questions: Which will be the maximum temperature inside the container under known conditions? Whether or not the temperature inside will superset the critical value? If it does then how long system will be under these critical conditions? What is better if it occurs: short but hot fire, or rather long but low temperature loading? True inverse problem corresponds to the estimation of external conditions from the measurements of the system response: Which was the fire duration and temperature? How distant was the fire and what diameter of its pool might be observed? What is the actual damage state of the container? Combined problem may treat several input and output parameters as known, and others as unknown. Combined problem may answer all the questions suitable for pure direct and inverse problems, but has some more capabilities: Find the container state from known external loading and measured response; Find what worst parameters of fire might be in order to preserve the safety of content.

Results for the Container in Fire Regions where the container inside temperature is over 200, 500 and 800o C, depending on external fire temperature and duration. Dependence of time of the overcritical inside temperature (>1000o C) on the distance to the fire for two pool diameters (15 and 20 m). Distribution of learning errors in the Kohonen map. Error of particular cluster is proportional to square size.

Resume Neural networks are good tools for the informational modeling of engineered systems. The variety of neural architectures may address very different practical requirements. Both backpropagation and counterpropagation nets have good generalization properties and give quantitative solutions for direct informational problems. Several direct problems of modeling an engineered container response to the external fire are solved. Results of these tasks may be used for the technical requirements for fire- safety services and systems. Intrinsic regularization features of neural network give the possibility also to resolve the inverse and combined problems with the internal estimation of accuracy. For hard ill-posed problems the hybrid architecture comprising Kohonen clustering network and the family of backpropagation nets may try to find the regions of partial correctness of the problem. In these regions neural model gives the solution with good local accuracy. In the rest of informational space network will automatically reject the requests.

История термина Data mining Термин data mining появился в литературе по статистике в 1960-х. Data mining (раскопка данных) и data fishing (выуживание данных) использовались в уничижительном смысле при критике плохой практики поиска корреляций в данных без выдвижения статистических гипотез и без дополнительных мер уменьшения риска найти нечто в случайном шуме. По мере роста объема данных методы data mining начали демонстировать свой потенциал в поиске полезных свойств. В конце 1980-х Rakesh Agrawal и другие специалисты в области баз данных начали исследования по построению ассоциативных правил поиска, для которых они использовали термин database mining. Однако это словосочетание было зарегистрировано, как торговая марка компанией HNC для своего продукта Database Mining Workstation tm. Исследователи начали использовать термин data mining. Сегодня data mining и knowledge discovery используются как синонимы, однако data mining более популярен. Поиск в Google фразы "data mining" дает около 1, страниц, в то время, как "knowledge discovery" возвращает 1, адресов. Адаптировано по Gregory Piatetsky-Shapiro (URL:

Легенды и мифы обработки данных Data mining (DM) МИФ: DM достигает потрясающих результатов, способных кардинально изменить Ваш бизнес. Обычно DM обеспечивает лишь стабильное улучшение уже существующего успешного бизнеса (устройства, процесса и т.п.), привнося эволюционные изменения. МИФ: Методы DM настолько продвинутые, что они способны заменить знания в предметной области и опыт моделирования и анализа. Никакая обработка данных не заменяет экспертного опыта. Более того, для успешного применения методов DM требуются углубленные предметные знания (Шум и сигнал?). Научиться вязке ремня из шести полос не так-то просто, но учить этому очень легко. -- О.Генри, "Как истый кабальеро...Лучшая материальная модель кошки - это другая кошка, хотя желательно, чтобы она была той же самой кошкой -- Н. Винер.

Легенды и мифы (продолжение) МИФ: Использование DM - исключительно сложное дело. Сами алгоритмы, действительно могут оказаться сложными, однако новые программные инструменты значительно упрощают процесс. Основная сложность часто находится в области сбора и подготовки данных, выборе параметров и т.д. – эти сложности характерны для любого процесса моделирования. МИФ: Только очень большие массивы данных пригодны для анализа методами DM. Многие алгоритмы специально ориентированы на большие объемы данных, однако и для небольших баз данных они приносят ощутимую пользу. Например, предварительный анализ имеющегося объема данных может повлиять на дальнейший выбор, какие данные собирать. МИФ: Чем больше объем данных, тем более эффективны методы DM, поэтому всегда нужно строить информационную модель на основе всех существующих данных. Новые данные полезны, только если они привносят новую информацию, существенную для целей моделирования.

Легенды и мифы (продолжение) МИФ: Методики DM автоматически находят особенности в данных, интересующие пользователя, без указания, что делать. Методы DM оказываются весьма эффективными в поисках (неожиданных) особенностей, но цель должна быть определена (понятие неожиданность должно быть формализовано). Например, невозможно найти в списке писем интересные. МИФ: DM применима только к нескольким узким областям, типа маркетинг, управление продажами, анализ подделок. Практически любая отрасль от фармакологии до справочной службы может быть проанализирована и улучшена методами DM. МИФ: Методы, используемые в DM фундаментальным образом отличаются от других методов количественного моделирования. В действительности, методики DM являются развитием и обобщением аналитических методов, используемых десятки лет (регрессия, факторный анализ, главные компоненты, классифицирующие деревья, таксономия, сортировка, ближайшие соседи, ядерные аппроксимации).

Легенды и мифы (продолжение) МИФ: Построение модели на выборке из данных неэффективно, так как при этом теряется информация, содержащаяся в неиспользованных данных. Основная задача методов построения выборок как раз состоит в повышении информативности данных в расчете на единицу усилий по их обработке. Не следует забывать, что полные данные, в действительности, сами всегда являются некоторой выборкой. МИФ: DM это лишь очередная фантазия и прихоть, мода на которую скоро пройдет. Хотя названия могут измениться, но существенные приложения методов DM никуда не исчезнут. DM это существенный шаг на пути общего научно- технического прогресса с начала XX века. Существенным звеном явился прогресс в вычислительной технике и ее широкая доступность.