Кононова О. В., канд. экон. наук. По характеру представления и логической организации хранимой информации подразделяются на фактографические, документальные.

Презентация:



Advertisements
Похожие презентации
Синтаксическая мера информации оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту, объем данных в сообщении измеряется.
Advertisements

Информация и её свойства. Вопросы: 1.Информация: определение, свойства, особенности, разновидности. 2.Меры информации. 3.Показатели качества информации.
Различные подходы к измерению информации
Информация Методологический подход. Концепции информации.
Презентация на тему: Представление и кодирование информации с помощью знаковых систем.
Кодирование информации. Кодирование и декодирование Для обмена информацией с другими людьми человек использует естественные языки. Наряду с естественными.
Выполнила работу: Кушнир Екатерина, ученица 11Б класса.
Лекция 2. Введение в биофизику сложных систем: БИОКИБЕРНЕТИКА; ЭЛЕМЕНТЫ ТЕОРИИ ИНФОРМАЦИИ; ТЕОРИЯ РЕГУЛИРОВАНИЯ БИОЛОГИЧЕСКИХ ПРОЦЕССОВ г.
ОСНОВЫ ИНФОРМАТИКИ.. ОГЛАВЛЕНИЕ: УРОК 1. ТЕМА:»ОСНОВНЫЕ ПОНЯТИЯ ИНФОРМАТИКИ»УРОК 1. Урок 2.ТЕМА: «ЕДИНИЦЫ ИЗМЕРЕНИЯ ИНФОРМАЦИИ». УРОК 3 ТЕМА: «КОДИРОВАНИЕ.
ИНФОРМАЦИЯ Выполнила ученица 10 класса Собенникова Евгения Учитель: Хлопков Алексей Михайлович.
Количество информации. Алфавитный и вероятностный подход к измерению информации.
Понятие информации является ключевым понятием информатики. Любая деятельность человека представляет собой процесс сбора и переработки информации, принятия.
Урок по теме: «Понятие информации». Цель урока Дать представление об информации. Выявить свойства информации. Определить действия над информацией. Выявить.
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
Кодирование информации Подготовила: учитель информатики Ефимова Н.Ю.
Лекции по информатике Тема Основные понятия дисциплины.
Измерение объёма информации.. Алфавитный подход Вероятностный подход Содержательный подход.
ОСНОВНЫЕ ПОНЯТИЯ ТЕОРИИ МОДЕЛИРОВАНИЯ Классификационные признаки моделирования Эффективность моделирования систем.
ОСНОВНЫЕ ПОНЯТИЯ ТЕОРИИ МОДЕЛИРОВАНИЯ Классификационные признаки моделирования Эффективность моделирования систем.
Основные понятия и определения информатики Тема 1.
Транксрипт:

Кононова О. В., канд. экон. наук

По характеру представления и логической организации хранимой информации подразделяются на фактографические, документальные и геоинформационные 2

Отображение предметной области в информационн ую модель ИМПООбработка информации Администрирование ИС Пользователи Предметная Область Обобщенная схема ИС 3

Обобщенная схема Фактографической ИС (ФИС) Отображ. стр-ры ПО в стр-ру БД Отображ. сост-ния объектов ПО в сост- ние БД СИСТЕМА АКТУАЛИЗАЦИИ БД БД СУБД К.П. Професс.- ориентиро- ванные системы Процедуро- ориенти- рованные системы СИСТЕМА ОБРАБОТКИ ИНФОРМАЦИИ Организация работы с пользователем Рациональное хранение информации Защита БД СИСТЕМА АДМИНИСТРИРОВАНИЯ БД ПРЕДМЕТНАЯ ОБЛАСТЬ 4

Специфика предметной области (ПрО) моделируемой фактографической ИС заключается в следующем. Объектами такой ПрО могут быть объекты самой различной природы (личности, подразделения, учебные планы, научные исследования, книги, фирмы и др.). Главное, что объекты в ПрО обладают (могут быть описаны) некоторыми свойствами (параметрами, характеристиками, показателями и т.п.). При этом для любого объекта значение одноименного параметра может быть различным, но выбирается из одного множества возможных значений, называемого словарем (классификатором) или является числом. 5

накапливают и хранят данные в виде множества экземпляров одного или нескольких типов структурных элементов ( информационных объектов ). Каждый из таких экземпляров или некоторая их совокупность отражают сведения по какому - либо факту, событию отдельно от всех прочих сведений и фактов структура каждого типа информационного объекта состоит из конечного набора реквизитов, отражающих основные аспекты и характеристики объектов данной предметной области комплектование информационной базы в ФИС включает, как правило, обязательный процесс структуризации входной информации предполагают удовлетворение информационных потребностей непосредственно, т. е. путем представления потребителям самих сведений ( данных, фактов, концепций ) 6

единичным элементом информации является нерасчлененный на более мелкие элементы документ и информация при вводе ( входной документ ), как правило, не структурируется, или структурируется в ограниченном виде. Для документа могут устанавливаться некоторые формализованные позиции ( дата изготовления, исполнитель, тематика ) могут обеспечивать установление логической взаимосвязи вводимых документов – соподчиненность по смысловому содержанию, взаимные отсылки по каким - либо критериям и т. д. Определение и установление такой взаимосвязи представляет собой сложную многокритериальную и многоаспектную аналитическую задачу, которая не может быть формализована в полной мере 7

информационно - поисковая система, обеспечивающая выдачу непосредственно фактических сведений, затребованных потребителем в информационном запросе. поисковый массив ФИПС состоит из описаний фактов, извлеченных из документов и представленных на некотором формальном языке 8

1)системы обработки данных (СОД) 2)автоматизированные информационные системы (АИС) и автоматизированные системы управления (АСУ). Документально-фактографические ИС содержат: 1) автоматизированные документально- фактографические информационно-поисковые системы научно-технической информации (АДФИПС НТИ) 2) автоматизированные документально- фактографические информационно-поисковые системы в автоматизированной системе нормативно- методического обеспечения управления (АДФИПС в АСНМОУ) 9

оперируют фактическими сведениями, представленными в виде специальным образом организованных совокупностей формализованных записей данных центральное функциональное звено ФИС – СУБД используются не только для реализации справочных функций, но и для решения задач обработки данных (под обработкой данных понимается специальный класс, связанных с вводом, хранением, сортировкой, отбором и группировкой записей данных однородной структуры) предусматривают представление пользователям итоговых результатов обработки в виде отчетов табличной формы 10

Необходимость введения термина возникает на тех этапах развития материального мира, когда возникает живая природа и общество и возникает потребность изучать целенаправленные действия, процедуру принятия решений при изменении внешних условий и т. п. Во всех остальных случаях можно обойтись без термина "информация" и протекающие процессы описывать с помощью законов физики и химии 11

мера изменения во времени и в пространстве структурного разнообразия систем 12

Р. Фишером (1921 г.) в процессе решения вопросов математической статистики Р. Хартли (1928 г.) и X. Найквист (1924 г.) проблемы хранения информации, передачи ее по каналам связи и задачи определения количества информации Р. Хартли заложил основы теории информации, установил меру количества информации для некоторых задач К. Шеннон (1948 г.) расширил класс задач 13

Чтобы определить состояние системы из двух возможных состояний, т.е. получить некоторую информацию о системе, необходимо задать 1 вопрос. Узнав состояние, мы увеличиваем суммарную информацию о системе на 1 бит (I= log 22) Для 3-4 возможных состояний информация равна 2 битам (I= log 24) Если система имеет n различных состояний, то максимальное количество информации равно I= log 2 n 14

Пример : По каналу связи передается n-разрядное сообщение, использующее m различных символов. Так как количество всевозможных кодовых комбинаций будет, то при равной вероятности появления любой из них количество информации, приобретенной абонентом в результате получения сообщения, будет формула Хартли. Если в качестве основания логарифма принять m, то I=n. Количество информации (при условии полного априорного незнания абонентом содержания сообщения) будет равно объему данных, полученных по каналу связи. Наиболее часто используются двоичные и десятичные логарифмы. Единицами измерения в этих случаях будут соответственно бит и дит. 15

I (N) = log N(1) I = log N = log m = log (1/p) = – log p(2) Если множество возможных сообщений состоит из одного (N = m = 1), то I (N) = log 1 = 0, что соответствует отсутствию информации При наличии независимых источников информации с N 1 и N 2 числом возможных сообщений I (N) = log N = log N 1 N 2 = log N 1 + log N 2, Если возможность появления любого символа алфавита равновероятна, то эта вероятность р = 1/m. Полагая, что N = m, 16

В простейшем случае неопределенности выбор будет производиться между двумя взаимоисключающими друг друга равновероятными сообщениями Количество информации, переданное в этом случае, наиболее удобно принять за единицу количества информации, применив формулу (2) и взяв логарифм по основанию 2 I = – log 2 p = – log 2 1/2 = log 2 2 = 1 формула Хартли позволяет определить количество информации в сообщении только для случая, когда появление символов равновероятно и они статистически независимы 17

формула: источник передает элементарные сигналы k различных типов абстрактная схема связи, состоящая из пяти элементов (источника информации, передатчика, линии связи, приемника и адресата), теоремы о пропускной способности, помехоустойчивости, кодировании 18

Формула Шеннона очень похожа на используемую в физике формулу энтропии, выведенную Больцманом Энтропия обозначает степень неупорядоченности статистических форм движения молекул При составлении какого-либо сообщения (текста) с помощью энтропии можно характеризовать степень неупорядоченности движения (чередования) символов. Текст с максимальной энтропией – это текст с равновероятным распределением всех букв алфавита, т.е. с бессмысленным чередованием букв: ЙХЗЦЗЦЩУЩУШК ШГЕНЕЭФЖЫЫДВЛВ СБСЬМ С учетом реальная вероятности букв в «фразах» будет наблюдаться определенная упорядоченность букв, регламентируемая частотой их появления: ЕЫТ ЦИЯЬА ОКРВ ОДНТ ЬЧЕ МЛОЦК ЗЬЯ ЕНВ ТША 19

Л. Бриллюэн охарактеризовал информацию как отрицательную энтропию, или негэнтропию так как энтропия является мерой неупорядоченности, то информация может быть определена как мера упорядоченности материальных систем Понятие энтропии применялось ранее только для систем, стремящихся к термодинамическому равновесию, т.е. к максимальному беспорядку в движении ее составляющих, т.е. к увеличению энтропии Понятие информации обратило внимание и на те системы, которые стремятся к ее дальнейшему уменьшению 20

количество накопленной и сохраняемой в структуре систем информации I равно уменьшению ее энтропии S энтропию S измеряют как меру хаоса X вблизи состояния термодинамического равновесия: S = k X, X = ln P Из второго начала термодинамики следует безвозвратная потеря качества энергии. Однако эволюция ведет не только к росту беспорядка, но и порядка. Этот процесс связан с переработкой информации. Сопоставим неопределенность с понятием информации, а количество информации с уменьшением неопределенности Информационная мера упорядоченности П равна разности между максимальным X max и текущим значениями меры хаоса, то есть П = X max – X 21

Пусть все состояния равновероятны, тогда X = X max и П = 0 При полной упорядоченности, наоборот, X = 0 и П = X max Например, при фиксированном числе микросостояний насколько возрастает мера порядка dП, настолько же убывает и мера беспорядка dX, т. е. dX = dП, X + П = const Следовательно, две противоположности - гармония и хаос находятся в неустойчивом равновесии, а их сумма есть величина постоянная 22

Процесс развития в определенном аспекте можно моделировать, используя процесс передачи информации. Применение информационной модели развития дает возможность прояснить механизм прогресса с учетом усложнения, упорядочения и повышения степени организации материальных систем Теория информации основана на вероятностных, статистических закономерностях явлений. Она дает полезный, но не универсальный аппарат. Поэтому множество ситуаций не укладываются в информационную модель Шеннона. Не всегда представляется возможным заранее установить перечень всех состояний системы и вычислить их вероятности. Кроме того, в теории информации рассматривается только формальная сторона сообщения, в то время как смысл его остается в стороне 23

Выводы 1.Полное количество информации в некотором объекте измерить невозможно. Можно измерить различие в содержании информации двух разных объектов 2. Нулевое количество информации выбирается условно 3. Моделирование – это способ уменьшения (отсечения) информации 4. Моделирование, как способ восприятия Мира, породил иллюзию, что модель и есть Мир (т.е. информация), а информация – это то, что осталось после ограничения разнообразия 5. Объекты лучше сравнивать по спектрам их свойств 6. Количество информации в объекте можно характеризовать количеством информационных пакетов выбранного произвольного уровня, входящих в объект (1 пакет - один бит) 24

это некоторая последовательность сведений, знаний, сообщений, выражаемых с помощью некоторого алфавита символов, жестов, звуков, сигналов Информация или регистрируется, или преобразовывается, или передается, или используется (актуализируется) с помощью некоторых сообщений Информация по отношению к окружающей среде (или к использующей её среде) бывает трех типов: входная, выходная и внутренняя. 25

полнота (минимально необходимые сообщения для понимания) актуальность (своевременность, необходимость) ясность (выразительность сообщений на языке интерпретатора) адекватность, точность, корректность (актуализации знаний) интерпретируемость и понятность (интерпретатору информации) достоверность (отображения сообщениями) информативность (сообщений, отображений информации) массовость (применимость ко всем проявлениям) 26

кодируемость и экономичность (актуализации сообщений) сжимаемость и компактность (сообщений); защищённость и помехоустойчивость (актуализации сообщений) устойчивость (к изменениям входных данных); доступность (интерпретатору сообщений, для приёма- передачи) ценность (значимость на уровне подготовки потребителя к восприятию) 27

числовая величина, адекватно характеризующая информацию по разнообразию, структурированности, определённости, выбору состояний системы. Система может принимать одно из n возможных состояний, то актуальна задача оценки выбора исхода Такой оценкой может стать мера информации (события) Мера информации - критерий оценки количества информации 28

Пусть имеется N состояний системы S или N опытов с различными, равновозможными, последовательными состояниями системы. Если каждое состояние системы закодировать, например, двоичными кодами определённой длины d, то эту длину необходимо выбрать так, чтобы число всех различных комбинаций было бы не меньше, чем N Наименьшее число, при котором это возможно, или мера разнообразия множества состояний системы задаётся формулой Р. Хартли: H =(1/ ln 2) log 2 N (бит) 29

Информация это сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состояниях, которые уменьшают имеющуюся о них степень неопределенности, неполноты знаний Информатика рассматривает информацию как связанные между собой сведения, изменяющие наши представления о явлении или объекте окружающего мира. С этой точки зрения информацию можно рассматривать как совокупность знаний о фактических данных и зависимостях между ними В процессе обработки информация может менять структуру и форму. Признаком структуры являются элементы информации и их взаимосвязь. Формы представления информации могут быть различны: символьная (основана на использовании различных символов), текстовая (текст это символы, расположенные в определенном порядке), графическая (различные виды изображений), звуковая и т.п. Адекватность информации это уровень соответствия образа, создаваемого с помощью информации, реальному объекту, процессу, явлению. От степени адекватности информации зависит правильность принятия решения 30

Синтаксическая адекватность отображает формально-структурные характеристики информации, не затрагивая ее смыслового содержания на синтаксическом уровне учитываются тип носителя и способ представления информации, скорость ее передачи и обработки, размеры кодов представления информации, надежность и точность преобразования этих кодов и т. д. Информацию, рассматриваемую с таких позиций, обычно называют данными 31

Семантическая адекватность определяет степень соответствия образа объекта самому объекту (учитывается смысловое содержание информации; анализируются сведения, отражаемые информацией; рассматриваются смысловые связи) проявляется при наличии единства информации и пользователя служит для формирования понятий и представлений, выявления смысла, содержания информации и ее обобщения 32

Прагматическая адекватность отражает соответствие информации цели управления, реализуемой на ее основе проявляется при наличии единства информации, пользователя и цели управления анализирует потребительские свойства информации, связанные с практическим использованием информации, с соответствием ее целевой функции деятельности системы 33

Синтаксическая мера информации оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту, объем данных в сообщении измеряется количеством символов в этом сообщении 34

Семантическая мера информации используется для измерения смыслового содержания информации Тезаурусная мера связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение Тезаурус это совокупность сведений, которыми располагает пользователь или система Максимальное количество семантической информации S p потребитель получает при согласовании ее смыслового содержания со своим тезаурусом, когда поступающая информация понятна пользователю и несет ему ранее не известные сведения при S p 0 пользователь не воспринимает, не понимает поступающую информацию при S p пользователь все знает, и информация ему не нужна Коэффициент содержательности, определяемый как отношение количества семантической информации к общему объему данных: С= I c / V д. 35

Пример: В технической системе прагматические свойства (ценность) информации можно определить улучшением показателей качества функционирования, достигнутым благодаря использованию этой информации для управления системой: I hb (g) = П(g/b) – П(g) где I hb (g) – ценность информационного сообщения b для системы управления g, П(g) – априорный ожидаемый эффект функционирования системы управления g, П(g/b) – ожидаемый эффект функционирования системы g при условии, что для управления будет использована информация, содержащаяся в сообщении b 36

Синтаксическая мера информации оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту. На этом уровне объем данных в сообщении измеряется количеством символов в этом сообщении. В современных ЭВМ минимальной единицей измерения данных является бит один двоичный разряд. Широко используются также более крупные единицы измерения: байт, равный 8 битам; килобайт, равный 1024 байтам; мегабайт, равный 1024 килобайтам, и т. д. Семантическая мера информации используется для измерения смыслового содержания информации. Наибольшее распространение здесь получила тезаурусная мера, связывающая семантические свойства информации со способностью пользователя принимать поступившее сообщение. Тезаурус это совокупность сведений, которыми располагает пользователь или система. Максимальное количество семантической информации потребитель получает при согласовании ее смыслового содержания со своим тезаурусом, когда поступающая информация понятна пользователю и несет ему ранее не известные сведения. С семантической мерой количества информации связан коэффициент содержательности, определяемый как отношение количества семантической информации к общему объему данных. Прагматическая мера информации определяет ее полезность, ценность для процесса управления. Обычно ценность информации измеряется в тех же единицах, что и целевая функция управления системой. 37

Прагматическая мера информации определяет ее полезность, ценность для процесса управления. Обычно ценность информации измеряется в тех же единицах, что и целевая функция управления системой 38

Алгоритмическая мера информации слово 0101….01 сложнее слова 00….0, а слово, где 0 и 1 выбираются из эксперимента бросания монеты (где 0- герб,1 решка), сложнее обоих предыдущих Любому сообщению можно приписать количественную характеристику, отражающую сложность (размер) программы, которая позволяет ее произвести. Сложность слова (сообщения) определяется как минимальное число внутренних состояний машины Тьюринга, требующиеся для его воспроизведения. 39

Геометрическая (метрическая) Единица измерения метрон (мера точности измеряемого параметра) Метронная мощность (плотность)физической системы количество метронов в расчете на единичный объем координатного пространства Применяется и для оценки максимально возможного количества информации в заданных структурных габаритах - информационной емкости устройств 40

41

В тех случаях, когда число возможных и равноправных исходов N, количество информации I(N), передаваемое сигналом, указывающим на один из них, определяется по формуле Хартли: I(N)=log 2 N Передача по каналу связи одной из тридцати двух букв русского алфавита, при сохранении равноправия, эквивалентна передаче 5 единиц информации (2 5 =32). Создатель статистической теории информации К. Шеннон обобщил результат Хартли и его предшественников. Его труды явились ответом на бурное развитие в середине нашего века средств связи: радио, телефона, телеграфа, телевидения. Теория информации Шеннона позволяла ставить и решать задачи об оптимальном кодировании передаваемых сигналов с целью повышения пропускной способности каналов связи, подсказывала пути борьбы с помехами на линиях и т.д. 42

В работах Хартли и Шеннона информация возникает перед нами лишь в своей внешней оболочке, которая представлена отношениями сигналов, знаков, сообщений друг к другу, или, как говорят, синтаксическими отношениями Количественная мера Хартли–Шеннона не претендует на оценку содержательной (семантической) или ценностной, полезной (прагматической) сторон передаваемого сообщения. 43

Кибернетика формулирует принцип единства информации и управления, который особенно важен для анализа сути процессов, протекающих в самоуправляющихся, самоорганизующихся биологических и социальных системах Концепция Н. Винера: процесс управления в системах является процессом переработки (преобразования) некоторым центральным устройством информации, получаемой от источников первичной информации (сенсорных рецепторов) и передачи ее в те участки системы, где она воспринимается ее элементами как приказ для выполнения того или иного действия Информация по Винеру это «обозначение содержания, полученного из внешнего мира в процессе нашего приспособления к нему и приспособления к нему наших чувств» Кибернетическая концепция оценивает информацию как некоторое знание, имеющее одну ценностную меру по отношению к внешнему миру (семантический аспект) и другую по отношению к получателю, накопленному им знанию, познавательным целям и задачам (прагматический аспект) 44

Ситуация резкого роста темпов производства информации породила ряд проблем: непропорциональный рост информационного шума из-за слабой структурированности информации; появление паразитной информации (получаемой в качестве приложений) несоответствие формально релевантной информации (тематически соответствующей) действительным потребностям ее потребителей многократное дублирование информации (типичный пример публикация одного сообщения в разных изданиях) Современные проблемы информатики 45

это методика объективного качественного и систематического изучения содержания средств коммуникации (Д. Джери, Дж. Джери) это систематическая числовая обработка, оценка и интерпретация формы и содержания информационного источника (Д. Мангейм, Р. Рич) это качественно-количественный метод изучения документов, который характеризуется объективностью выводов и строгостью процедуры и представляет собой квантификационную обработку текста с дальнейшей интерпретацией результатов (В. Иванов) состоит из поиска в тексте определенных содержательных понятий (единиц анализа), выявления частоты их появления и соотношения с содержанием всего документа (Б. Краснов) это исследовательская техника для получения результатов путем анализа содержания текста о состоянии и свойствах социальной действительности (Э. Таршис) 46

Большинство из приведенных определений конструктивные, т.е. процедурные. Через разные начальные подходы они порождают разнообразные алгоритмы, которые временами противоречат друг другу. Существующие разнообразные подходы к пониманию контент- анализа поддаются целиком оправданной критике. Наибольшие сомнения вызывает игнорирование роли контекста. Большое прикладное значение методологии позволяет избежать многих противоречий. Объединение средств и методов, их естественный отбор путем многократной оценки полученных результатов открывают возможность выделения и подтверждения знаний, а также фактической силы и полезности данного инструментария. 47

описание проблемной ситуации, поиск цели исследования точное определение объекта и предмета исследования предварительный анализ объекта содержательное уточнение и эмпирическая интерпретация понятий описание процедур регистрации свойств и явлений определение общего плана исследования определение типа выборки, круга источников и т.п. 48

Контент-анализ в рамках исследования информационных потоков новое направление, которое предусматривает анализ массива текстовых документов результатов мониторинга информационного пространства 49

Количественная (частота появления в документах определенных характеристик содержания) и Качественная (базируется на самом факте присутствия или отсутствия в тексте одной или нескольких характеристик содержания) 50

Первый этап выделяются единицы анализа и переводятся в форму, приемлемую для обработки (сегодня в электронный вид) Второй этап подсчет частот единиц анализа с применением разнообразного математического аппарата для выявления взаимосвязей между ними Третий этап интерпретация полученных результатов (при этом без привлечения искусственного интеллекта, объемных семантических формализаторов, даже экспертов как таковых, с использованием только математических методов могут быть получены содержательные, семантически наполненные результаты) 51

- в любой фазе для оценок результатов может быть привлечен эксперт, который может обнаружить определенные свойства части информации и проверить их относительно общего текстового потока, а общие свойства текстового потока распространить на его конкретную тематическую часть - метод призван обеспечить эксперта необходимыми средствами для выводов и дополнительных результатов 52

Первая сведение большого количества текстовой информации к конечному числу интегрированных блоков текста единиц содержания, которые кодируются для дальнейшей обработки этих блоков. Основными единицами содержания являются категории, последовательности и темы Вторая стадия реконструкция субъективных составных текстового потока системы значений, мыслей, взглядов и доказательств каждого источника текста Третья стадия формирование выводов и обобщений путем сравнения индивидуальных систем значений 53

одна из важнейших проблем в методологии контент-анализа. Использование набора категорий задает концептуальную сетку, в терминах которой анализируется текстовый поток Исследования текстового потока, если он достаточно большой, можно проводить двумя путями: Первый определение конечной, но заведомо избыточной, совокупности категорий для получения количественных данных о встречаемости некоторых из них. При этом предполагается автоматическая или полуавтоматическая кластеризация (деление на группы и классы) неупорядоченной последовательности категорий и получение на ее основе новых обобщенных категорий. Второй выявление в потоке с помощью количественных многоразовых оценок новых знаний с последующей квалификацией их как категорий. Это направление контент-анализа получило название Data Mіnіng дословно "раскопка данных« Заметим, что при любом из двух подходов происходит ни что иное, как генерация новых категорий 54

постоянное выполнение узко очерченного своими задачами контент-анализа беспрерывных информационных потоков Контент-мониторинг имеет собственную проблематику и собственные пути решения прикладных задач, контент- анализ выступает здесь как составная 55

использование ключевого фрагмента публикации как единицы формирования текстового информационного массива формирование банка ключевых фрагментов публикаций является объединением двух взаимосвязанных автоматизированных процессов: аналитико-синтетической переработки и многоуровневой процедуры контент-анализа текстов публикаций индексация ключевых фрагментов публикаций происходит при помощи многофасетной классификации 56

Мера информацииЕдиницы измеренияПримеры Синтаксическая: шенноновский подход компьютерный подход Степень уменьшения неопределенности Единицы представления информации Вероятность события Бит,байт,Кбайт и т.д. Семантическая Тезаурус Экономически показатель Пакет прикладных программ, ПК, компьютерные сети Рентабельность, производительность и т.д. ПрагматическаяЦенность использования Емкость памяти, производительность ПК, скорость передачи данных и т.д. Денежное выражение АлгоритмическаяМинимальное число внутренних состояний машины Машина Тьюринга 57

Классификация мер информации 58

Зависимость количества семантической информации, воспринимаемой потребителем, от его тезауруса 59

60

Темы научных исследований и рефератов 1. Информация как мера порядка и организации в системе 2. Информация как мера разнообразия в системе 3. Информация как мера структурированности системы 4. Информация как уменьшение неопределенности в системе 61

Утверждение Хартли : если во множестве X={x1, x2,..., xn} искать произвольный элемент, то для его нахождения необходимо иметь не менее logan ( единиц ) информации. Пример. ДНК человека можно представить себе как некоторое слово в четырехбуквенном алфавите, где каждой буквой помечается звено цепи ДНК или нуклеотид. Определим сколько информации ( в битах ) содержит ДНК, если в нем содержится примерно 1, нуклеотидов ( по разным оценкам физиологов эта цифра различна, но мы сейчас на этом не будем акцентировать внимание ). На один нуклеотид приходится log2(4)=2 ( бит ) информации. Следовательно, структуры ДНК в организме человека позволяет хранить бит информации. Это вся информация, куда входит и избыточная. Реально используемой, - структурированной в памяти человека информации, - гораздо меньше. В этой связи, заметим, что человек за среднюю продолжительность жизни использует около 5-6 % нейронов ( нервных клеток мозга - ячеек ОЗУ человека ). Генетический код - чрезвычайно сложная и упорядоченная система записи информации. Информация, заложенная в генетическом коде ( по учению Дарвина ) накапливалась многие тысячелетия. Хромосомные структуры - своеобразный шифровальный код и при клеточном делении создаются копии шифра, каждая хромосома - удваивается, в каждой клетке имеется шифровальный код, при этом каждый человек получает, как правило, свой набор хромосом ( код ) от матери и от отца. Шифровальный код разворачивает процесс эволюции человека. Жизнь, как отмечал известный физик Э. Шредингер, упорядоченное и закономерное поведение материи, основанное... на существовании упорядоченности, которая поддерживается всё время. Уменьшение ( увеличение ) Н говорит об уменьшении ( увеличении ) разнообразия состояний N системы. Обратное, как это следует из формулы Хартли, - также верно. … 62