Анализ пространственных данных.. В отличие от случайных, пространственные переменные непрерывны от точки к точке, но изменения их настолько сложны, что.

Презентация:



Advertisements
Похожие презентации
АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.
Advertisements

Модели поверхностей в ГИС Географические информационные системы Тверской государственный университет. Кафедра картографии и геоэкологии.
Большая часть классического численного анализа основывается на приближении многочленами, так как с ними легко работать. Однако для многих целей используются.
МЕТОДЫ ЭКСПЕРИМЕНТАЛЬНОЙ ОПТИМИЗАЦИИ. Метод деления отрезка пополам Метод позволяет исключать на каждой итерации в точности половину интервала. Иногда.
Параметрическое представление плоских и пространственных кривых При параметрическом задании кривая представляется векторной функцией r 1, r 2, r 3 - радиус.
Лекция 10 Временные ряды в эконометрических исследованиях.
Временные ряды в эконометрических исследованиях..
Статистическая проверка статистических гипотез.. Нулевая гипотеза - выдвинутая гипотеза. Конкурирующая гипотеза - - гипотеза, которая противоречит нулевой.
Лекция 2 Часть I: Многомерное нормальное распределение, его свойства; условные распределения Часть II: Парная линейная регрессия, основные положения.
Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.
Лабораторная работа 6 Обработка результатов эксперимента в MathCad.
Числовые характеристики случайной величины. Применяются вместо закона распределения случайной величины В сжатой форме выражают наиболее существенные особенности.
ПРОВЕРКА СТАТИСТИЧЕСК ИХ ГИПОТЕЗ. Определение статистической гипотезы Статистической гипотезой называется всякое высказывание о генеральной совокупности.
Средняя школа год разработка Агрба Л. М. Далее Информатика и ИКТ ПОНЯТИЕ ТРЕНДА.
Классификация и регрессия (продолжение) Храброва М.О.
Регрессионный анализ. Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет.
МЕТОД КОЙКА Предположим,что для описаний некоторого процесса используется модель с бесконечным лагом вида: Предположим,что для описаний некоторого процесса.
Лекционно-практическое занятие по теме Аналитическая геометрия на плоскости.
ОСНОВНЫЕ СТАТИСТИЧЕСКИЕ ХАРАКТЕРИСТИКИ, ИСПОЛЬЗУЕМЫЕ В ГЕОЛОГИИ Лекция 3 по дисциплине «Математические методы моделирования в геологии» 1Грановская Н.В.
КРАТНЫЕ ИНТЕГРАЛЫ Как известно, интегрирование является процессом суммирования. Однако суммирование может производится неоднократно, что приводит нас к.
Транксрипт:

Анализ пространственных данных.

В отличие от случайных, пространственные переменные непрерывны от точки к точке, но изменения их настолько сложны, что они не могут быть описаны какой-либо регулярной детерминированной функцией. Значения пространственной переменной известны только благодаря пробам, которые берутся в определенных местах. Размер, вид ( ФОРМА ), ориентация и пространственное размещение этих проб составляют базу пространственной переменной. Эта переменная при изменении хотя бы одного из этих параметров бу- дет иметь различные характеристики. Геометрия сети наблюдений Одномерная Двумерная (площадная) Трёхмерная (объёмная) Равномерная Кратная Неравномерная Размер области наблюдения при увеличении размера области уменьшается дисперсия величин Ориентировка области измерений При различной ориентировке линейных или цилиндрических областей в анизотропной среде можно получить разные результаты.

- искомое значение для точки S 0 n - число опорных точек, находящихся в окрестности искомой точки и используемых в вычислениях. - весовой коэффициент i -ой точки - измеренное значение в точке S i Методы интерполяции различаются способом (и результатом) вычисления весовых коэффициентов. S0S0 S1S1 S2S2 S5S5 S4S4 S3S3 Математическое моделирование геологического поля ставит своей целью описание поведения пространственной переменной по имеющимся результатам наблюдений, а также прогнозирование ее значений в заданных точках или областях геологического поля.

детерминированныевероятностные Математические модели геологических полей делятся на детерминированные и вероятностные. детерминированных В детерминированных моделях предполагается, что пространственная переменная является неслучайной функцией координат и однозначно зависит от местоположения пунктов измерений. Среди детерминированных моделей можно выделить модели линейные, полиномиальные, обратных расстояний и сплайн-модели. вероятностных В вероятностных моделях предполагается, что значения пространственной переменной (в том числе и в пунктах измерений) содержат элементы случайности. Различают две группы вероятностных математических моделей: случайные функции и геостатистические модели.

Случайные функции основаны на предположении о том, что значения пространственной переменной (х) испытывают случайные колебания δ(х) около неслучайной составляющей, называемой математическим ожиданием m(x): (х) = m(x) + (х). Геостатистические модели содержат предположение о том, что случайный результат измерений вызван случайным расположением пунктов наблюдений. При этом остается неизменным средний квадрат разности между результатами измерений в пунктах, отстоящих друг от друга на шаг h.

ДЕТЕРМИНИРОВАННЫЕ МОДЕЛИ ГЕОЛОГИЧЕСКИХ ПОЛЕЙ. Линейная интерполяционная модель В основе модели лежит предположение о том, что между пунктами измерений значения пространственной переменной меняются по закону прямой линии. Для линии: Для площади : Для объёма : = arctg(–b/a), азимут падения угол падения

Метод глобального полинома. Метод глобального полинома строит полностью детерминированную поверхность, которая является математической функцией координат. В качестве функции обычно используются полиномы низких степеней, реже тригонометрические функции (двойной ряд Фурье). Не является точным интерполятором. IDWГлобальный полином 2Разность = IDW - полином Используется в качестве грубого фильтра, в геологии - для поиска региональных закономерностей, геохимического и геофизического фона, выделение аномальных участков (анализ поверхности тренда). Вычисленные поверхности очень чувствительны к экстремальным значениям (очень низким или очень высоким, особенно по краям изучаемой территории)

Критерием выбора наилучшего порядка полинома, как и любой другой аппроксимирующей функции, является дисперсия случайных отклонений фактических значений от теоретических с учетом степеней свободы k, Количество степеней свободы k равно количеству постоянных коэффициентов в аппроксимирующей функции, в которой n – число наблюдений. Так, в полиноме первой степени (в уравнении плоскости) три постоянных коэффициента

Метод локального полинома. Метод локального полинома строит поверхность, используя скользящее окно (локальную область, которая последовательно перемещается по площади). Значение в центральной точке области оценивается на основании детерминированной функции (обычно полиноминальной), которая рассчитывается по опорным точкам, находящимся в этой области. Дополнительно, могут использоваться весовые коэффициенты, зависящие от расстояния между оцениваемой точкой и опорными. IDW Л о к а л ь н ы е п о л и н о м ы 25% 50%75%

Модель обратных расстояний. В основу модели положена идея о том, что влияние измерений убывает обратно пропорционально квадрату расстояния r от пункта измерения (как в законе всемирного тяготения или в электрическом поле заряженных частиц), поэтому модель часто называют потенциальной.

Интерполяция методом взвешенных расстояний (IDW – Inverse Distance Weighted) d i0 – расстояние между искомой точкой S 0 и i-ой опорной точкой, p – показатель степени S1S1 S2S2 S3S3 При p = 1: Оптимальное значение степени p определяется путем минимизации среднеквадратичной ошибки вычислений, которая рассчитывается при перекрестной проверке ( каждая опорная точка исключается из вычислений и сравнивается с проинтерполированным значением для этого местоположения ). В методе IDW максимальные и минимальные значения на проинтерполированной поверхности могут иметь только опорные точки.

Поверхность, построенная по методу взвешенных расстояний (IDW), зависит от выбора степени (p) и способа поиска соседей. Метод взвешенных расстояний - это точный интерполятор, при котором значения в опорных точках сохраняются на проинтерполированной поверхности. Результирующая поверхность чувствительна к кластеризации и присутствию в данных экстремальных значений. Метод IDW лучше работает, если опорные точки равномерно распределены по территории (не кластеризованы). Поиск ближайших опорных точек.

Триангуляция с линейной интерполяцией. Триангуляция с линейной интерполяцией реализует технику ручного построения изолиний. По опорным точкам строится сеть треугольников Делоне, а затем проводится линейная интерполяция значений (каждый треугольник рассматривается как наклонная плоскость, положение вершин которой определяются координатами X,Y и значением оцениваемой переменной (она выполняет роль координаты высоты). Метод является точным интерполятором. IDW Триангуляция

Радиальные базисные функции. Радиальные базисные функции (RBF) Взвешенные расстояния (IDW) Радиальные базисные функции (Radial basis functions RBF) это ряд точных методов интерполяции (плоский сплайн, сплайн с натяжением, полностью регуляризованный сплайн, функция мультиквадриков, и обратный мультиквадрик). Радиальные базисные функции формируются над каждой опорной точкой. Интерполированное значение находится как взвешенное среднее значение функций: w1f1 + w2f2+ w3f3 +…. Функции дают хорошие результаты для плавно меняющихся поверхностей, таких как рельеф. Эти методы не подходят в тех случаях, когда на поверхности происходит резкое изменение значений на коротком расстоянии по горизонтали и в тех случаях, когда вы предполагаете, что в исходных данных могут быть ошибки или неточности.

Сплайн-модель Сплайн – это кусочно-непрерывная гладкая функция, состоящая из множества полиномиальных функций третьего порядка, плавно переходящих друг в друга.

ВЕРОЯТНОСТНЫЕ МОДЕЛИ ГЕОЛОГИЧЕСКИХ ПОЛЕЙ Модель на основе случайной функции Основой случайной функции служит предположение, что измеренные значения являются случайными функциями координат и содержат две составляющие: математическое ожидание m(x) (закономерная изменчивость, или тренд) и случайные колебания (x) относительно его Если математическое ожидание – величина постоянная, то случайная функция называется стационарной, в противном случае – нестационарной. Случайная функция имеет три главные характеристики: математическое ожидание, дисперсию случайных колебаний и автокорреляционную функцию. График случайной функции. (точки измерений имеют случайные отклонения от плавной линии математического ожидания).

Математическое ожидание может быть выделено как - тренд, заданный на основе теоретических соображений (зависимость плотности от состава руды, кривая радиоактивного распада); - эмпирическим способом, чаще всего в виде полинома; - путем сглаживания исходных данных способом скользящего окна; - гармоническим анализом Если из нестационарной случайной функции вычесть математическое ожидание, то она превратится в стационарную с нулевым математическим ожиданием. Дисперсия случайной функции равна дисперсии отклонений (х): Автокорреляционная функция :

Геостатистическая модель. В основе геостатистической группы математических моделей лежит гипотеза о том, что случайный результат измерений обусловлен случайным расположением сети наблюдений. При перемещении сети наблюдений результаты измерений будут другие, но сохраняется одна характеристика – средний квадрат разности между результатами измерений на расстоянии h. Сумма вариограммы и ковариации (автокорреляционной функции) равна дисперсии исходных данных: Главная задача геостатистики - связать результаты, полученные по одной базе (например, образцы керна), с результатами, полученными для другой базы (например, эксплуатационные блоки). На основе этой гипотезы введена вариограмма γ(h) – главная характеристика в геостатистике. Она равна полусумме среднего квадрата разности между результатами измерений при шаге h и выражается формулой

Построение эмпирической вариограммы. 45° лаг Интервал расстояний для группировки называется лагом. На рисунке показан бининг с лагом 5 м. Для построения эмпирической вариограммы используется бининг – группировка пар точек по расстоянию и направлению. Каждая группа – бин – содержит все пары точек, расстояние между которыми и азимут от одной точки на другую попадают в границы этого бина ( например, точки, отстоящие друг от друга на расстоянии от 10 до 15 м в направлении от 30º до 60º - этот бин выделен на рисунке штриховкой ) Бины усредняются, и среднее значение для пар каждого бина наносится на вариограмму.

Выбор размера лага. Радиус влияния подобранной модели вариограммы слишком велик относительно области отображения эмпирической вариограммы размер лага следует увеличить. Эмпирическое правило состоит в том, что произведение размера лага на количество лагов должно равняться примерно половине максимального расстояния между парами точек. (Лаг * n = Smax/2). Выбор размера лага оказывает важное влияние на вид эмпирической вариограммы. Если размер лага слишком велик, корреляция на микроуровне может не проявиться на графике. Если размер лага слишком мал, может быть сформировано много пустых бинов, и количество включенных в бин опорных точек будет слишком мало для получения репрезентативных средних значений для бина. Радиус влияния подобранной модели вариограммы слишком мал относительно области отображения эмпирической вариограммы размер лага следует уменьшить. Оптимальный размер лага. Размер лага слишком мал. Сформировано много пустых бинов

Подбор модели для эмперической вариограммы. После того, как каждая пара точек (после бининга) нанесена на график, необходимо подобрать модель вариограммы. ( Иначе существует риск получить отрицательную дисперсию, которая приведет к неприемлемым результатам ). Для описания моделей вариограмм используются определенные параметры – радиус влияния, порог, эффект самородка. γ Порог Радиус влияния Частичный порог Самородок Расстояние (полудисперсия) Радиус влияния - расстояние, при котором модель начинает выравниваться. Опорные точки, отстоящие друг от друга на расстояние, меньшее, чем радиус влияния, пространственно коррелируют, в то время как точки, отстоящие друг от друга на расстояние, большее, чем радиус влияния, - нет. Порог - значение γ, которое модель вариограммы принимает в точке радиуса влияния. Эффект самородка - разница между измерениями при бесконечно малых расстояниях ( часто проявляется на золоторудных месторождениях, когда в одну пробу может попасть крупный самородок, а другая проба, отобранная рядом, покажет лишь убогое содержание золота ).

γ Порог Радиус влияния Частичный порог Самородок Расстояние (полудисперсия) Поведение в начале (эффект самородка и наклон) играет критическую роль в подборе модели вариограммы. Наклон можно оценить по первым трем - четырем значениям вариограммы. Эффект самородка можно оценить экстраполяцией кривой в начало системы координат. Первое значение вариограммы для надежности вычисляется по возможно большему количеству пар точек. ( Бурение дополнительных скважин на небольших расстояниях может помочь получить лучшее значение эффекта самородка ). Радиус влияния обычно можно оценить визуально. Порог характеризуется значением, где вариограмма стабилизируется (становится горизонтальной). Для стационарных переменных порог совпадает с общей дисперсией проб, но иногда это не верно, так как в исходных данных присутствуют тренды большой протяженности. Если присутствует более одной зоны влияния (несколько структур), то вспомогательные зоны можно различить визуально в местах, где вариограмма меняет кривизну. Подгонка обычно делается интерактивно с использованием какого-нибудь графического терминала. Общая рекомендция сводится к тому, чтобы выбирать наиболее простые модели, избегать многоструктурных моделей, не усердствовать с уменьшением эффекта самородка.

Глобальные тренды и анизотропия. Существуют два типа направленных составляющих, которые должны быть устранены перед созданием модели вариограммы : глобальные тренды и анизотропия. Глобальный тренд - это доминирующий процесс, который оказывает детерминистское влияние на все измерения. Глобальный тренд может быть представлен математической формулой (например, полиномом) и вычтен из значений в опорных точках, а затем вновь добавлен после выполнения интерполяции. Этот процесс носит название вычитание (или удаление) тренда.

Анизотропия – это неоднородность свойств по разным направлениям. Различают геометрическую и зональную анизотропию. Геометрическая (аффинная) Порог Вариограммы, построенные для разных направлений, выходят на пороги разного уровня. Зональная анизотропия Вариограммы, построенные для разных направлений имеют приблизительно одинаковый уровень порога, но разные зоны влияния. Геометрическую анизотропию можно устранить путём аффинных преобразований (заданием эллипса анизотропии, короткая ось которого совпадает с направлением наибольшей изменчивости, а длинная – с направлением наименьшей). Способ устранения зональной анизотропии зависит от причин её появления.

Причиной зональной анизотропии может быть зональное строение толщи, использование данных, полученных по разным основаниям, эффект пропорциональности. На рисунке изображены вариограммы, построенные по бороздовым, задирковым и валовым пробам. Многотонные валовые пробы имеют существенно меньшую дисперсию, чем килограммовые борозды. Использование данных, полученных по одному основанию является одним из важнейших требований геостатистических методов интерполяции. Использование данных, полученных по разным основаниям.

Эффект пропорциональности. Считается, что вариограмма имеет пропорциональный эффект, когда ее значение (особенно ее порог) пропорционально квадрату локального среднего содержания. Это часто встречается у логнормально распределенных данных. Вариограммы для различных зон имеют одинаковую форму, но порог в богатых зонах намного больше, чем в бедных.

При зональном строении толщи можно попытаться выделить отдельные зоны и анализировать их раздельно. Если анизотропия связана с эффектом пропорциональности, можно перейти к т.н. относительным вариограммам. В них, вместо полудисперсии используется своеобразный коэффициент вариации, который получается в результате деления значений каждой локальной вариограммы на квадрат локального среднего содержания и затем усреднения полученных величин в процессе подгонки вариограммной модели.

Функции для моделирования вариограмм. Функции для моделирования вариограмм должны обладать определёнными свойствами. В перечень допустимых функций входят Линейная, Круговая, Сферическая, Тетрасферическая, Пентасферическая, Экспоненциальная, Гауссова, Рациональная квадратическая, Эффекта дыры. Наибольшее влияние на результат кригинга оказывает поведение модельной вариограммы вблизи начала координат. Чем круче кривая у начала координат, тем большее влияние на искомый результат оказывают ближайшие соседи (опорные точки). В итоге результирующая поверхность будет менее гладкой. Сферическая Сферическая модель имеет 2 параметра – радиус влияния и порог, равный общей дисперсии признака. Математически сферическая модель описывает левый верхний квадрант эллипса. Экспоненциальная Экспоненциальная модель похожа на сферическую, но вблизи начала координат она восходит сначала более круто, чем сферическая, а затем, наоборот, имеет более пологий подъём и выходит на порог на расстоянии 3-х радиусов влияния

Функции для моделирования вариограмм. Кригинг становится точным интерполятором, если эффект самородка = 0 Эффект самородка

Сглаживающая интерполяция. Эффект самородка >0 Точная (жёсткая) интерполяция. Эффект самородка =0 Кригинг может быть как точным интерполятором, так и сглаживающим. Степень сглаживания зависит от величины эффекта самородка. Если эффект самородка = 0 (отсутствует), значения в опорных точках сохраняются на результирующей карте.

Анизотропия Интерполяция без учёта анизотропии Интерполяция с учётом анизотропии

Модели Кригинга. (Ординарный, простой, универсальный, индикаторный, вероятностный, кокригинг) Общая модель кригинга Zx,y – значение в точке с координатами x,y m [x,y] – математическое ожидание e x,y – случайная ошибка в точке с координатами x,y Ординарный кригинг. Неизвестная константа m показана пунктирной линией. Предполагается, что значения на изучаемом участке являются результатом автокорреляции между ошибками (ε x,y ) при неизменном среднем (m x,y = const). Степень корреляции между ошибками не зависит от конкретного местоположения точек, а определяется только их взаимным расположением - расстоянием и (если используется анизотропия) направлением. Для расчёта (авто)корреляции между точками используется модель вариограммы. (m – неизвестная постоянная)

Простой кригинг. (m – известная постоянная) Известная константа m показана сплошной жирной линией. Поскольку известна m, известно и точное значение ε x,y. Автокорреляция рассчитывается по известным значениям ε x,y (а не по их оценкам, как в ординарном кригинге). Предположение, что вам будет точно известно значение m, часто является нереалистичным. Однако, иногда имеет смысл предположить, что модель, имеющая физический смысл, дает известный тренд (напр., фоновое содержание элемента). Тогда вы можете взять разницу между значениями этой модели и измеренными значениями, которая носит название остатков, и применить метод простого кригинга к этим значениям остатков, приняв за известное, что тренд в этих остатках равен нулю. Простой кригинг Ординарный кригинг

Универсальный кригинг. (m – детерминистская функция координат) Простой кригинг Ординарный кригинг Универсальный кригинг На рисунке m - полиномом второго порядка (пунктирная линия) m (s) = b 0 +b 1 x (s) + b 2 x 2(s). Ошибки ε x,y ( остаток после вычитания полинома из исходных данных ) считаются автокоррелирующими и используются для построения вариограммы ( в отличие от тренд-анализа, в котором ошибки рассматриваются как независимые величины ).

Индикаторный кригинг. (Ординарный кригинг для бинарной переменной). I(s) = m + e(s) Бинарные данные могут быть созданы для непрерывных данных с использованием порогового (критического) значения, либо значения в опорных точках могут изначально, при выполнении наблюдений, фиксироваться как 0 или 1. Значения, полученные в результате интерполяции по методу индикаторного кригинга, находятся в диапазоне между 0 и 1 и могут быть интерпретированы, как вероятности того, что переменная будет равна 1 или попадет в класс, обозначенный как 1. Карты вероятностей превышения среднего значения. Сглаживающая интерполяция. Эффект самородка >0 Точная интерполяция. Эффект самородка =0

Кокригинг. Кокригинг использует дополнительные переменные для более точного вычисления искомых значений основной переменной. При этом учитывается и автокорреляция переменных и их взаимная корреляция. Однако, если корреляция между основной и дополнительными переменными плохая, результат может оказаться хуже, чем при использовании ординарного кригинга. Вероятностный кригинг. Вероятностный кригинг пытается делать то же самое, что и индикаторный кригинг, но для того, чтобы выполнить работу лучше, он использует кокригинг. В качестве второй переменной используется небинаризованное значение первой переменной.

Перекрёстная проверка Для модели, которая точно интерполирует значения, средняя ошибка (Mean) должна быть близка к 0, среднеквадратичная ошибка (Root-Mean-Square) и среднее из стандартных ошибок интерполяции (Average Standard Error) должно иметь наименьшее из возможных значение, Среднеквадратичная нормированная ошибка (Mean Standardizaed) должна быть близка к 1.

Сравнение методов интерполяции