Лекция третья (конспект)
АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ.
План.
Часть 1.
1. Информация: от ‘разъяснения’ к теории.
– 1.1. Направления исследования информации.
– 1.2. Виды и свойства информации.
Часть 2.
2. Теоретические основы поиска информации.
– 2.1. Некоторые понятия и термины теории информации.
– 2.1.1.Текст.
– 2.1.2. Информационный массив.
– 2.1.3. Структурированность.
– 2.1.3.1. Структурированный информационный массив.
– 2.1.3.2. Неструктурированный информационный массив.
– 2.1.3.3. Слабоструктурированный информационный массив.
– 2.1.3.4. Централизованная база данных.
Часть 3.
3. Ключевые понятия и термины описания массивов.
– 3.1. Индексирование.
– 3.2. Информационно-поисковый язык (ИПЯ).
– 3.2.1. Информационно-поисковый тезаурус. Лексика ИПЯ.
|
|
– 3.2.1.1. Информативное слово.
֪– 3.2.1.2. Разделительный символ.
– 3.2.1.3. Релятор.
– 3.2.1.4. Указатель роли.
– 3.2.1.5. Указатель связи.
– 3.2.2. Грамматика ИПЯ.
– 3.2.3. Информационно-поисковый образ (ИПО).
– 3.2.4. Поисковое предписание.
– 3.2.5. Критерий выдачи.
– 3.3. Классификационный ИПЯ.
– 3.4. Объектно-признаковый ИПЯ.
– 3.5. Фактографический ИПЯ.
Часть 4.
4. Общая характеристика технологий автоматической обработки информации “Дейтамайнинг” (text data mining) и “текстомайнинг” (text mining).
– 4.1. Основы технологии TextMining.
Часть 5.
5. Модель программного обеспечения для извлечения информации из слабоструктурированных данных.
– 5.1. Метод извлечения информации из слабоструктурированных источников.
– 5.2. Реализация метода автоматического извлечения информации.
____________________________________________________________________
Часть 1.
1. Информация – от ‘разъяснения’ к теории.
Направления исследования информации.
Мы привыкли к употреблению слова “информация” и очень редко задумываемся над тем, что, во-первых, это слово пришло в наш язык из латыни. В ней informatio обозначало ‘разъяснение’, ‘изложение’, во-вторых, практически не вникая в суть, используем полюбившееся нам выражение “информационный взрыв”, в-третьих, после появления компьютеров, подозреваем, конечно, что учёных не могло не заинтересовать это понятие и они создали специальную науку – теорию информации, но что она изучает и зачем, представляем “туманно”.
|
|
Но именно в ней понятие информация получило расширенное толкование и стало включать обмен сведениями не только между человеком и человеком, но также между человеком и автоматом, автоматом и автоматом; обмен сигналами в животном и растительном мире, и даже передачу признаков от клетки к клетке и от организма к организму. А когда за дело взялись математики, начались измерения, появилось понятие количества информации.
Естественнонаучное понимание информации основано на двух определениях этого понятия, предназначенных для различных целей: для теории информации, иначе называемой статистической теорией связи, и теории статистических оценок.
С начала 50-х годов прошлого века исследование информации пошло по трём основным направлениям:
– Разработка математического аппарата, отражающего основные свойства информации. В основе теории информации лежит предложенный в 1948 году Клодом Шенноном способ измерения количества информации, содержащейся в одном случайном объекте (событии, величине, функции и т. п.) относительно другого случайного объекта. Этот способ приводит к выражению количества информации числом.
` Информация для любознательных....
См. в конце текста первой части лекции.
– Теоретическая разработка различных аспектов информации на базе имеющихся математических средств, в исследовании различных свойств информации. Например, уже с момента создания теории информации возникла сложная проблема измерения ценности, полезности информации с точки зрения её использования. В большинстве работ по теории информации это свойство не учитывается. Однако важность его несомненна. В количественной теории, выдвинутой в 1960 году, ценность информации определяется как приращение вероятности достижения данной цели в результате использования данной информации Близкие по смыслу работы связаны с попытками дать строгое математическое определение количества семантической (т. е. смысловой) информации.
– Третье направление связано с использованием информационных методов в лингвистике, биологии, психологии, социологии, педагогике и др.
Естественно, что нас, в первую очередь, будет интересовать именно это направление исследований. Например, в лингвистике проводилось измерение информативной ёмкости языков. После статистической обработки большого числа текстов, выполненной с помощью ЭВМ, а также сопоставления длин переводов одного и того же текста на разные языки и многочисленных экспериментов по угадыванию букв текста выяснилось, что при равномерной нагрузке речевых единиц информацией тексты могли бы укоротиться в 4–5 раз. Так был с этой точки зрения установлен факт избыточности естественных языков и довольно точно измерена её величина, находящаяся в этих языках примерно на одном уровне. В преподавании иностранных языков при решении вопросов обучения различным видам речевой деятельности, в том числе, умениям компрессии информации, конспектирования, реферирования, аннотирования и т.д. широко используется понятия избыточности информации, содержательных типов информации (смысловая, эмотивная, оценочная), а также понятия старая и новая информация, главная и второстепенная информация, истинная и ложная информация свёрнутая и развёрнутая информация и т.д.
Другие аспекты третьего направления исследований информации.
В нейрофизиологии информационные методы помогли лучше понять механизм действия основного закона психофизики — закона Вебера — Фехнера, который утверждает, что ощущение пропорционально логарифму возбуждения. Именно такая зависимость должна иметь место в случае, если нервные волокна, передающие сигналы от акцепторов к мозгу, обладают свойствами, присущими идеализированному каналу связи, фигурирующему в теории информации.
|
|
Значительную роль информационный подход сыграл в генетике и молекулярной биологии, позволив, в частности, глубже осознать роль молекул РНК как переносчиков информации.
Ведутся также исследования по применению информационных методов в искусствоведении.
Ещё одно гуманитарное понимание понятия информа́ция возникло в общественно-политических науках. Под информацией в них понимается совокупность сообщений об актуальных новостях внутренней и международной жизни, распространяемых средствами массовой коммуникации и ориентирующих аудиторию в фактах, явлениях, процессах политической, экономической, научной, культурной и пр. жизни общества.
К сожалению, в настоящее время к информации, в особенности, распространяемой некоторыми недобросовестными СМИ и “грязным” Интернетом, вряд ли приложимы требования правдивости и точности изложения фактов, объективного анализа и комментирования событий и процессов социальной жизни. В них широко использует методы дезинформации, необъективного изложения фактов и сущности событий.
Такое разнообразное использование понятия информации побудило некоторых учёных придать ему общенаучное значение. Основоположниками такого общего подхода к понятию информации стали английский нейрофизиолог У. Р Эшби и французский физик Л. Бриллюэн.