Направления исследования информации

Лекция третья (конспект)

АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ.

План.

Часть 1.

1. Информация: от ‘разъяснения’ к теории.

       – 1.1. Направления исследования информации.

       – 1.2. Виды и свойства информации.

Часть 2.

2. Теоретические основы поиска информации.

       – 2.1. Некоторые понятия и термины теории информации.

                   – 2.1.1.Текст.

                   – 2.1.2. Информационный массив.

                   – 2.1.3. Структурированность.

                              – 2.1.3.1. Структурированный информационный массив.

                              – 2.1.3.2. Неструктурированный информационный массив.

                              – 2.1.3.3. Слабоструктурированный информационный массив.

                              – 2.1.3.4. Централизованная база данных.

Часть 3.

3. Ключевые понятия и термины описания массивов.

       – 3.1. Индексирование.

       – 3.2. Информационно-поисковый язык (ИПЯ).

                   – 3.2.1. Информационно-поисковый тезаурус. Лексика ИПЯ.

                              – 3.2.1.1. Информативное слово.

                              ֪– 3.2.1.2. Разделительный символ.

                              – 3.2.1.3. Релятор.

                              – 3.2.1.4. Указатель роли.

                              – 3.2.1.5. Указатель связи.

                   – 3.2.2. Грамматика ИПЯ.

                   – 3.2.3. Информационно-поисковый образ (ИПО).

                   – 3.2.4. Поисковое предписание.

                   – 3.2.5. Критерий выдачи.

       – 3.3. Классификационный ИПЯ.

       – 3.4. Объектно-признаковый ИПЯ.

       – 3.5. Фактографический ИПЯ.

Часть 4.

4. Общая характеристика технологий автоматической обработки информации “Дейтамайнинг” (text data mining) и “текстомайнинг” (text mining).

       – 4.1. Основы технологии TextMining.

Часть 5.

5. Модель программного обеспечения для извлечения информации из слабоструктурированных данных.

       – 5.1. Метод извлечения информации из слабоструктурированных источников.

       – 5.2. Реализация метода автоматического извлечения информации.

____________________________________________________________________

Часть 1.

1. Информация – от ‘разъяснения’ к теории.

Направления исследования информации.

Мы привыкли к употреблению слова “информация” и очень редко задумываемся над тем, что, во-первых, это слово пришло в наш язык из латыни. В ней informatio обозначало ‘разъяснение’, ‘изложение’, во-вторых, практически не вникая в суть, используем полюбившееся нам выражение “информационный взрыв”, в-третьих, после появления компьютеров, подозреваем, конечно, что учёных не могло не заинтересовать это понятие и они создали специальную науку – теорию информации, но что она изучает и зачем, представляем “туманно”.

Но именно в ней понятие информация получило расширенное толкование и стало включать обмен сведениями не только между человеком и человеком, но также между человеком и автоматом, автоматом и автоматом; обмен сигналами в животном и растительном мире, и даже передачу признаков от клетки к клетке и от организма к организму. А когда за дело взялись математики, начались измерения, появилось понятие количества информации.

Естественнонаучное понимание информации основано на двух определениях этого понятия, предназначенных для различных целей: для теории информации, иначе называемой статистической теорией связи, и теории статистических оценок.

С начала 50-х годов прошлого века исследование информации пошло по трём основным направлениям:

– Разработка математического аппарата, отражающего основные свойства информации. В основе теории информации лежит предложенный в 1948 году Клодом Шенноном способ измерения количества информации, содержащейся в одном случайном объекте (событии, величине, функции и т. п.) относительно другого случайного объекта. Этот способ приводит к выражению количества информации числом.

` Информация для любознательных....

См. в конце текста первой части лекции.

– Теоретическая разработка различных аспектов информации на базе имеющихся математических средств, в исследовании различных свойств информации. Например, уже с момента создания теории информации возникла сложная проблема измерения ценности, полезности информации с точки зрения её использования. В большинстве работ по теории информации это свойство не учитывается. Однако важность его несомненна. В количественной теории, выдвинутой в 1960 году, ценность информации определяется как приращение вероятности достижения данной цели в результате использования данной информации Близкие по смыслу работы связаны с попытками дать строгое математическое определение количества семантической (т. е. смысловой) информации.

– Третье направление связано с использованием информационных методов в лингвистике, биологии, психологии, социологии, педагогике и др.

Естественно, что нас, в первую очередь, будет интересовать именно это направление исследований. Например, в лингвистике проводилось измерение информативной ёмкости языков. После статистической обработки большого числа текстов, выполненной с помощью ЭВМ, а также сопоставления длин переводов одного и того же текста на разные языки и многочисленных экспериментов по угадыванию букв текста выяснилось, что при равномерной нагрузке речевых единиц информацией тексты могли бы укоротиться в 4–5 раз. Так был с этой точки зрения установлен факт избыточности естественных языков и довольно точно измерена её величина, находящаяся в этих языках примерно на одном уровне. В преподавании иностранных языков при решении вопросов обучения различным видам речевой деятельности, в том числе, умениям компрессии информации, конспектирования, реферирования, аннотирования и т.д. широко используется понятия избыточности информации, содержательных типов информации (смысловая, эмотивная, оценочная), а также понятия старая и новая информация, главная и второстепенная информация, истинная и ложная информация свёрнутая и развёрнутая информация и т.д.

Другие аспекты третьего направления исследований информации.

В нейрофизиологии информационные методы помогли лучше понять механизм действия основного закона психофизики — закона Вебера — Фехнера, который утверждает, что ощущение пропорционально логарифму возбуждения. Именно такая зависимость должна иметь место в случае, если нервные волокна, передающие сигналы от акцепторов к мозгу, обладают свойствами, присущими идеализированному каналу связи, фигурирующему в теории информации.

Значительную роль информационный подход сыграл в генетике и молекулярной биологии, позволив, в частности, глубже осознать роль молекул РНК как переносчиков информации.

Ведутся также исследования по применению информационных методов в искусствоведении.

Ещё одно гуманитарное понимание понятия информа́ция возникло в общественно-политических науках. Под информацией в них понимается совокупность сообщений об актуальных новостях внутренней и международной жизни, распространяемых средствами массовой коммуникации и ориентирующих аудиторию в фактах, явлениях, процессах политической, экономической, научной, культурной и пр. жизни общества.

К сожалению, в настоящее время к информации, в особенности, распространяемой некоторыми недобросовестными СМИ и “грязным” Интернетом, вряд ли приложимы требования правдивости и точности изложения фактов, объективного анализа и комментирования событий и процессов социальной жизни.  В них широко использует методы дезинформации, необъективного изложения фактов и сущности событий.

 

Такое разнообразное использование понятия информации побудило некоторых учёных придать ему общенаучное значение. Основоположниками такого общего подхода к понятию информации стали английский нейрофизиолог У. Р Эшби и французский физик Л. Бриллюэн.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: