Модели угроз при долговременном хранении больших объемов данных Ландэ Д.В., Березин Б.А. Институт проблем регистрации информации НАН Украины.

Презентация:



Advertisements
Похожие презентации
М.Агранович Руководитель Центра Мониторинга и статистики образования.
Advertisements

Александров А.Г ИТО Методы теории планирования экспериментов 2. Стратегическое планирование машинных экспериментов с моделями систем 3. Тактическое.
© ElVisti Лекция 6 Математические модели информационных потоков Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
Локальная сеть Типы локальных сетей Топология сетей.
КОЛИЧЕСТВЕННЫЕ ПОКАЗАТЕЛИ БЕЗОТКАЗНОСТИ И МАТЕМАТИЧЕСКИЕ МОДЕЛИ НАДЁЖНОСТИ.
Прогнозирование сетевых перегрузок на основе анализа временных рядов Соколов А. С., гр Руководитель – Гирик А.В., аспирант кафедры МиПЧС.
Основы надежности ЛА МАТЕМАТИЧЕСКИЕ МОДЕЛИ НАДЕЖНОСТИ.
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Предмет и методы Лекция 2.
Понятие эконометрики и эконометрических моделейO Эконометрика это наука, которая на базе статистических данных дает количественную характеристику взаимозависимым.
МЕНЕДЖМЕНТ. Методы планирования
1 Лекция 5 Нагрузка и качество обслуживания в сетях связи.
Выполнили: Мартышкин А. И. Кутузов В. В., Трояшкин П. В., Руководитель проекта – Мартышкин А. И., аспирант, ассистент кафедры ВМиС ПГТА.
Методы выбора технических решений для систем долговременного хранения информации ИПРИ НАН Украины Буточнов А.Н. Науменко Е.М. Березин Б.А.
Информационные технологии.
Лекция 5. Модели надежности программного обеспечения Учебные вопросы: 1. Классификация моделей надежности 2. Аналитические модели надежности 3. Эмпирические.
Лабораторная работа 6 Обработка результатов эксперимента в MathCad.
Основы построения телекоммуникационных систем и сетей Лекция 15 «Методы прогнозирования» профессор Соколов Н.А.
Структура предметной области информатики -теоретическая информатика -средства информатизации -информационные технологии -социальная информатика.
Презентация к уроку по алгебре (10 класс) на тему: Презентация. Применение математической статистики в школе.
Минаева Татьяна Александровна Демьяненко Ирина Николаевна.
Транксрипт:

Модели угроз при долговременном хранении больших объемов данных Ландэ Д.В., Березин Б.А. Институт проблем регистрации информации НАН Украины

Моделирование угроз – часть более общего исследования. Рост объемов в мире – увеличивается количество информации, которую надо хранить долговременно. В рамках глобальной проблемы снижения затрат при хранении – решается задача планирования долговременного хранения Особенность подхода – при планировании рассматривается живучесть ИО. Цель исследования – разработка методов планирования долговременного хранения больших объемов данных для повышения живучести ИО.

1. Моделирование множественных отказов при долговременном хранении больших объемов данных в сетях. Для долговременного хранения больших объемов данных используются распределенные системы. В распределен- ных системах хранения сопротивляемость к отказам повышается с помощью репликаций. Однако близкие по времени отказы в большом количестве узлов могут уменьшить эффективность репликации и соответственно, живучесть ИО. Характеристики коррелированых отказов анализировались с помощью окна наблюдения ( временного окна ). Была разработана имитационная модель множественных отказов - зависимости количества временных окон с отказами, происходящими внутри окна от заданного размера окон и числа отказов, наблюдаемых в окнах.

Анализ поверхностей показывает, что при экспоненциаль- ном распределении отказов большинство временных окон приходится на окна с максимальным значением времени наблюдения, а при степенном распределении - на окна с малым значением времени.

Окна с малым значением времени наблюдения ( в которые попадают близкие во времени отказы) и соответствующие им значения количества близких во времени отказов, (а также соответствующие количества окон ) являются наиболее сложными с точки зрения обеспечения доступности данных и живучести ИО.

2. Моделирование состояния вычислительных ресурсов в распределенных компьютерных системах Для надежного функционирования в составе рас- пределенных систем предусматриваются средства мониторинга состояния ресурсов. Модель состояния вычислительных ресурсов может использоваться для косвенной оценки угроз ИО которые храняться в таких системах. Разрабатываются программные средства сбора и анализа результатов мониторинга.

3. Моделирование отказов при долговременном хранении ИО на носителях данных Живучесть информационного объекта (ИО) оценивается как вероятность того, что объект будет невредимым в течение определенного периода времени t при определенных условиях. Если информационный объект сохраняется частями на носителях информации, то вероятность разрушения этого объекта оценивается как: В этом произведении - вероятность разрушения i-го носителя за время t

Соответственно, живучесть оценивается как: Для исследования живучести ИО при долговременном хранении на носителях данных в качестве доступного полигона использовались DVD диски. Для них была собрана статистика на основе измерений показателей ошибок. Кроме того, нам удалось восстановить некоторые статистические данные из выборочного анализа состояния 125 CD дисков из состава аудио коллекции насчитывающей 60 тысяч CD дисков Библиотеки Конгресса США. В результате исследования предлагается степенная модель распределения ошибок при хранении ИО.

Данные о выборке из 150 DVD дисков, ранжированы по количеству ошибок с аппроксимацией степенной функцией

Поскольку вероятность возникновения ошибок на носителях пропорциональна времени существования этих носителей, ( что доказано данными проведенных нами измерений), и распределение ошибок имеет степенной характер, можно считать целесообразным и обоснованным исследование модели со степенным распределением ошибок. Это принципиально отличается от подходов, в которых используется пуассоновский поток ошибок (теория систем массового обслуживания) и распределение ошибок по Вейбуллу. В этом случае, живучесть информационных объектов предлагается оценивать как:

Полученный вывод о степенном распределении ошибок относится к оптическим DVD и CD дискам. Но в публикациях найдено аналогичное предложение также степенной модели для распределения скрытых ошибок секторов (Latent Sector Errors) накопителей на жестких магнитных дисках - НЖМД. Статистические данные собирались в течение года на почти 40 тыс. НЖМД бытовых и промышленных моделей. В работе рассмотрены всплески ошибок,пакетированные ошибки на дисках и отмечается, что из-за недостатка статистических данных публикации часто ссылаются на гипотетические приближения, например распределение Пуассона.

4. Моделирование сетевых атак при долговременном хранении больших объемов данных При разработке модели, в качестве опосредованной оценки статистики сетевых атак при долговременном хранении данных в распределенных сетях использовалась статистика сообщений о кибератаках, собранная в новостных Internet-ресурсах. Т.е., для оценки угроз, создаваемых сетевыми атаками в качестве эмпирических данных модели использовались результаты поиска по ретроспективной базе Рунета, созданной с помощью технологии мониторинга новостей системы InfoStream. Запрос был сформулирован по темам кибератак в таком виде антивирус|(комп~вирус)|хакер|(кибер~атак)|кибератак|т роянски

За период г.г. было получено 1339 значений количеств новостных сообщений о кибератаках. Для увеличения адекватности модели и непосредственной оценки угроз планируется с Держархивом анализ логов со статистикой реальных сетевых активностей, зарегистрированные серверами Держархива за последние годы.

5. Моделирование старения программного обеспечения (ПО)/форматов Для оценки статистики старения ПО/форматов при долговременном хранении (и соответствующих угроз) исследовалась статистика развития проектов разработки ПО. С этой целью рассматривались проекты открытого программного обеспечения ( ПО с открытым исходным кодом), а именно, статистика распределения времен между выходами очередных версий ПО или очередных пакетов расширений. При оценке статистики развития проекта открытого ПО R- языка (языка для обработки статистических данных) рассматривались даты выхода очередных пакетов расширений.

В результате анализа дат публикации пакетов расширений из общего сетевого архива R-языка (CRAN) было построено распределение пакетов, ранжированных по времени между их публикациями. Оно может быть аппроксимировано с помощью степенной функции с достоверностью аппроксимации 0,97 При представлении полученного распределения в логарифмической шкале график примерно соответству- ет прямой линии,

что подтверждает наличие степенного закона: Анализ статистики о других проектах открытого ПО ( GCC набор компиляторов, Ruby – язык программирования) показал больший коэффициент достоверности при аппроксимации экспоненциальной функцией, что может объясняться недостаточным объемом собранной статистики. Полученный результат о степенном характере статистики развития проектов ПО близок к результату полученному в работе, выполненной в Канаде.

Данные про распределение веб-ресурсов с форматом PDF1.1, ранжированные по доле использования в домене UK в г. с аппроксимацией степенной функцией

Выводы Собран значительный статистический материал на базе которого строятся модели основных видов угроз при долговременном хранении больших объемов данных: - модель множественных отказов; - модель состояния вычислительных ресурсов; - модель ошибок при хранении на носителях данных; - модель сетевых атак; - модель старения ПО/форматов. Показано важное место степенного распределения в моделях основных видов угроз при долговремен- ном хранении

Построенные модели основных видов угроз при долговременном хранении рассматривались в Держархиве и в Геологическом фонде, был получен вывод о возможности их использования для оценки предложений по петабайтной сети хранения архивных данных. Построенные модели угроз, особенности статистики их распределений являются основой разработки методов планирования долговременного хранения для обеспечения живучести ИО.

Спасибо за внимание! Пожалуйста, задавайте вопросы.