Тема: Понятие данных. Классификация данных. Анализ данных и прогнозирование экономики ALMA U К.Э.Н., доцент Досалиев Б.А.

Презентация:



Advertisements
Похожие презентации
Базы данных Access Вводная лекция. Определение базы данных Базы данных - это совокупность тем или иным способом структурированных данных и комплекса аппаратно-программных.
Advertisements

Технология хранения, поиска и сортировки информации в базах данных
Базы данных – это совокупность сведений (о реальных объектах, процессах, событиях или явлениях), относящихся к определенной теме или задаче, организованная.
Основные понятия БД Сама по себе БД не может обслужить запросы пользователя на поиск и обработку информации, т.е. БД – это «информационный склад». Обслуживание.
Реляционная модель – это особый метод рассмотрения данных, содержащий данные в виде таблиц, способов работы и манипуляции с ними в виде связей. структура,
Базы данных. Основные понятия База данных (БД) совокупность определенным образом организованной информации на какую-то тему (в рамках некоторой предметной.
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Предмет и методы Лекция 2.
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В ЭКОНОМИКЕ Тема 1. ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ Подготовил Иванов А.Н.
Понятие шкалы измерения, основные типы шкал и их применение в системном анализе Дисциплина : « теория систем и системный анализ » Студент : Щеколдина Д.
Информационные системы. Базы данных. Информационная система – любая система обработки информации (шир)
Базы данных Реляционная база данных MS Access. Базы данных – это совокупность определенным образом организованной информации на какую- либо тему (в рамках.
БАЗЫ ДАННЫХ ( ВВЕДЕНИЕ ). База данных это информационная модель, позволяющая упорядоченно хранить данные о группе объектов, обладающих одинаковым набором.
Лекция 6. Способы адресации в микропроцессорных системах.
База данных (БД) – Совокупность определённым образом организованной информации на определённую тему (в рамках определённой предметной деятельности); Организованная.
Кандидат технических наук, доцент Поляков Константин Львович Учебный курс Эконометрика: идентификация, оценивание и анализ статических моделей Лекция 4.
База данных – информационная модель, позволяющая упорядоченно хранить данные о группе объектов, обладающих одинаковым наборов свойств Базы данных Фактографические.
Виды моделей данных. Ядром любой базы данных является модель данных. Модель данных представляет собой множество структур данных, ограничений целостности.
Слово «статистика» происходит от латинского слова "статус"(status) - "определенное положение вещей"
ВИДЫ МОДЕЛЕЙ ДАННЫХ. Ядром любой базы данных является модель данных. Модель данных представляет собой множество структур данных, ограничений целостности.
Минаева Татьяна Александровна Демьяненко Ирина Николаевна.
Транксрипт:

Тема: Понятие данных. Классификация данных. Анализ данных и прогнозирование экономики ALMA U К.Э.Н., доцент Досалиев Б.А.

План: 1. Понятие данных. 2. Типы наборов данных. 3. Форматы хранения данных. 4. База данных. Классификация видов данных. 5.Метаданные.

1 –й вопрос. Понятие данных. В широком понимании данные представляют собой: факты текст графики картинки звуки аналоговые или цифровые видео-сегменты Данные могут быть получены в результате 1.измерений, 2.экспериментов, 3. арифметических и логических операций. Данные должны быть представлены в форме, пригодной для хранения, передачи и обработки.

Данные - это необработанный материал, предоставляемый поставщиками данных и используемый потребителями для формирования информации на основе данных.

Двухмерная таблица "объект-атрибут" Атрибуты Объекты Код клиента ВозрастСемейное положение ДоходКласс 118Single Married Single Married Divorced Married Divorced Single Married Single902 двухмерная таблица, представляющая собой набор данных. По горизонтали таблицы располагаются атрибуты объекта или его признаки. По вертикали таблицы - объекты.

Объект описывается как набор атрибутов. Объект также известен как запись, случай, пример, строка таблицы и т.д. Атрибут - свойство, характеризующее объект. Например: цвет глаз человека, температура воды и т.д. Атрибут также называют переменной, полем таблицы, измерением, характеристикой. В результате операционализации понятий, т.е. перехода от общих категорий к конкретным величинам, получается набор переменных изучаемого понятия. Переменная (variable) - свойство или характеристика, общая для всех изучаемых объектов, проявление которой может изменяться от объекта к объекту. Значение (value) переменной является проявлением признака.

При анализе данных, как правило, нет возможности рассмотреть всю интересующую нас совокупность объектов. Изучение очень больших объемов данных является дорогостоящим процессом, требующим больших временных затрат, а также неизбежно приводит к ошибкам, связанным с человеческим фактором. Вполне достаточно рассмотреть некоторую часть всей совокупности, то есть выборку, и получить интересующую нас информацию на ее основании.

Однако размер выборки должен зависеть от разнообразия объектов, представленных в генеральной совокупности. В выборке должны быть представлены различные комбинации и элементы генеральной совокупности.

Генеральная совокупность (population) - вся совокупность изучаемых объектов, интересующая исследователя. Выборка (sample) - часть генеральной совокупности, определенным способом отобранная с целью исследования и получения выводов о свойствах и характеристиках генеральной совокупности. Параметры - числовые характеристики генеральной совокупности. Статистики - числовые характеристики выборки.

Часто исследования основываются на гипотезах. Гипотезы проверяются с помощью данных. Гипотеза - предположение относительно параметров совокупности объектов, которое должно быть проверено на ее части. Гипотеза - частично обоснованная закономерность знаний, служащая либо для связи между различными эмпирическими фактами, либо для объяснения факта или группы фактов.

Пример гипотезы: между показателями продолжительности жизни и качеством питания есть связь. В этом случае целью исследования может быть объяснение изменений конкретной переменной, в данном случае - продолжительности жизни. Допустим, существует гипотеза, что зависимая переменная (продолжительность жизни) изменяется в зависимости от некоторых причин (качество питания, образ жизни, место проживания и т.д.), которые и являются независимыми переменными.

Измерение - процесс присвоения чисел характеристикам изучаемых объектов согласно определенному правилу. В процессе подготовки данных измеряется не сам объект, а его характеристики. Шкала - правило, в соответствии с которым объектам присваиваются числа.

Переменные могут являться числовыми данными либо символьными. Числовые данные: -дискретные -непрерывные Дискретные данные являются значениями признака, общее число которых конечно либо бесконечно, но может быть подсчитано при помощи натуральных чисел от одного до бесконечности. Пример дискретных данных. Продолжительность маршрута троллейбуса (количество вариантов продолжительности конечно): 10, 15, 25 мин. Непрерывные данные - данные, значения которых могут принимать какое угодно значение (в некотором интервале). Измерение непрерывных данных предполагает большую точность. Пример непрерывных данных: температура, высота, вес, длина и т.д.

Шкалы Типы шкал измерений: 1. номинальная 2. порядковая 3. интервальная 4. относительная 5.дихотомическая. Номинальная шкала (nominal scale) - шкала, содержащая только категории; данные в ней не могут упорядочиваться, с ними не могут быть произведены никакие арифметические действия. Пример такой шкалы: профессии, город проживания, семейное положение.

Порядковая шкала (ordinal scale) - шкала, в которой числа присваивают объектам для обозначения относительной позиции объектов, но не величины различий между ними. Пример такой шкалы: место (1, 2, 3-е), которое команда получила на соревнованиях, номер студента в рейтинге успеваемости (1-й, 23-й, и т.д.), при этом неизвестно, насколько один студент успешней другого, известен лишь его номер в рейтинге. Интервальная шкала (interval scale) - шкала, разности между значениями которой могут быть вычислены, однако их отношения не имеют смысла. Пример такой шкалы: температура воды в море утром - 19 градусов, вечером - 24, т.е. вечерняя на 5 градусов выше, но нельзя сказать, что она в 1,26 раз выше. Относительная шкала (ratio scale) - шкала, в которой есть определенная точка отсчета и возможны отношения между значениями шкалы. Пример такой шкалы: вес новорожденного ребенка (4 кг и 3 кг). Первый в 1,33 раза тяжелее. Дихотомическая шкала (dichotomous scale) - шкала, содержащая только две категории. Пример такой шкалы: пол (мужской и женский).

Таблица 2. Множество измерений свойств различных объектов Номер объекта Професси я (номинальная шкала) Средний балл (интервальная шкала) Образование (порядковая шкала) 1 слесарь 22 среднее 2 ученый 55 высшее 3 учитель 47 высшее

2 вопрос. Типы наборов данных. Данные, состоящие из записей Наиболее часто встречающиеся данные - данные, состоящие из записей (record data). Примеры таких наборов данных: табличные данные, матричные данные, документальные данные, транзакционные или операционные. Табличные данные - данные, состоящие из записей, каждая из которых состоит из фиксированного набора атрибутов. Транзакционные данные представляют собой особый тип данных, где каждая запись, являющаяся транзакцией, включает набор значений.

Пример транзакционной базы данных, содержащей перечень покупок клиентов магазина, приведен на рис. 3 Рис. 3. Пример транзакционных данных

Графические данные Примеры графических данных: WWW-данные; молекулярные структуры; графы (рис.4); карты.рис.4 Рис. 4. Пример графа

3 вопрос. Форматы хранения данных. Одна из основных особенностей данных современного мира состоит в том, что их становится очень много. Возможны четыре аспекта работы с данными: определение данных, вычисление, манипулирование и обработка (сбор, передача и др.). При манипулировании данными используется структура данных типа "файл". Файлы могут иметь различные форматы. Большинство инструментов Data Mining позволяют импортировать данные из различных источников, а также экспортировать результирующие данные в различные форматы. Данные для экспериментов удобно хранить в каком-то одном формате. В некоторых инструментах Data Mining эти процедуры называются импорт/экспорт данных, другие позволяют напрямую открывать различные источники данных и сохранять результаты Data Mining в одном из предложенных форматов. Наиболее распространенные форматы, согласно опросу "Форматы хранения данных ", представлены на рисунке:рис

4 вопрос. База данных. Классификация видов данных. База данных (Database) - это особым образом организованные и хранимые в электронном виде данные. Особым образом организованные означает, что данные организованы неким конкретным способом, способным облегчить их поиск и доступ к ним для одного или нескольких приложений. Базы данных являются одной из разновидностей информационных технологий, а также формой хранения данных.

Целью создания баз данных является построение такой системы данных, которая бы не зависела от программного обеспечения, применяемых технических средств и физического расположения данных в ЭВМ. Построение такой системы данных должно обеспечивать непротиворечивую и целостную информацию. При проектировании базы данных предполагается многоцелевое ее использование. База данных в простейшем случае представляется в виде системы двумерных таблиц.

Классификация видов данных Реляционные данные - это данные из реляционных баз (таблиц). Многомерные данные - это данные, представленные в кубах OLAP. Измерение (dimension) или ось - в многомерных данных - это собрание данных одного и того же типа, что позволяет структурировать многомерную базу данных.

По критерию постоянства своих значений в ходе решения задачи данные могут быть: переменными; постоянными; условно-постоянными. Переменные данные - это такие данные, которые изменяют свои значения в процессе решения задачи. Постоянные данные - это такие данные, которые сохраняют свои значения в процессе решения задачи (математические константы, координаты неподвижных объектов ) и не зависят от внешних факторов. Условно-постоянные данные - это такие данные, которые могут иногда изменять свои значения, но эти изменения не зависят от процесса решения задачи, а определяются внешними факторами.

. Данные, в зависимости от тех функций, которые они выполняют, могут быть: -справочными, -оперативными, -архивными.

Следует различать данные за период и точечные данные. Эти различия важны при проектировании системы сбора информации, а также в процессе измерений. данные за период; точечные данные. Данные за период характеризуют некоторый период времени. Примером данных за период могут быть: прибыль предприятия за месяц, средняя температура за месяц. Точечные данные представляют значение некоторой переменной в конкретный момент времени. Пример точечных данных: остаток на счете на первое число месяца, температура в восемь часов утра.

5 –й вопрос. Метаданные. Метаданные (Metadata) - это данные о данных. В состав метаданных могут входить: каталоги, справочники, реестры. Метаданные содержат сведения о составе данных, содержании, статусе, происхождении, местонахождении, качестве, форматах и формах представления, условиях доступа, приобретения и использования, авторских, имущественных и смежных с ними правах на данные и др. Метаданные - важное понятие в управлении хранилищем данных. Метаданные, применяемые при управлении хранилищем, содержат информацию, необходимую для его настройки и использования. Различают бизнес- метаданные и оперативные метаданные.

Бизнес-метаданные содержат бизнес- термины и определения, принадлежность данных и правила оплаты услуг хранилища. Оперативные метаданные - это информация, собранная во время работы хранилища данных: происхождение перенесенных и преобразованных данных ; статус использования данных (активные, архивированные или удаленные); данные мониторинга, такие как статистика использования, сообщения об ошибках и т.д.