Михеенкова М.А., Финн В.К. (Москва) Интеллектуальные системы для анализа социологических данных: задачи, логика, архитектура

Характерной потребностью различных эмпирических областей исследования является необходимость извлечения интерпретируемых зависимостей между различными факторами, неявно содержащимися в массивах данных. Существенным при этом оказывается наличие среди исходных данных нечисловых параметров. Эти потребности обслуживаются областью (искусственного интеллекта), получившей название «Интеллектуальный анализ данных» (ИАД) и объединяющей достаточно разнородные методы – алгебраические и логико-комбинаторные методы машинного обучения в том числе. Отдельная ветвь ИАД – интеллектуальный анализ социологических данных (ИАСД) – призвана решать задачи структурирования, упорядочения и систематизации социологических данных с последующим извлечением эмпирических закономерностей из исходных фактов.

Полезным и содержательным инструментом анализа социологических данных являются интеллектуальные системы (ИС). Они позволяют решать задачи изучения индивидуального поведения[4] и последующей его типологизации на основе порожденных гипотез о причинах (детерминантах) поведения (действий, установок, мнений)[5]. При этом предусматривается также анализ влияния ситуации на изучаемое поведение. Кроме изучения собственно детерминаций поведения, ИС предоставляют возможности распознавания рациональности мнений (в том числе, степени рациональности мнений данной социальной общности). Решение перечисленных задач средствами ИС можно назвать формализованным качественным анализом социологических данных (ФКАСД).

Интеллектуальные системы, предназначенные для решения плохо формализованных задач, характеризуются общей структурой: они состоят из решателя задач, информационной среды и интеллектуального интерфейса, позволяющего пользователю вести диалог с ИС в удобном режиме. Решатель задач, в свою очередь, содержит рассуждатель (реализующий синтез познавательных процедур для анализа слабо формализованных данных), вычислитель (для числовых данных) и синтезатор, реализующий их взаимодействие. Информационная среда представляет собой объединение базы эмпирических фактов (БФ) и базы знаний (БЗ) о рассматриваемой области. Использование БФ как начального состояния системы, на основе которого средствами машинного обучения порождаются расширяющие БЗ гипотезы, превращает ИС в чрезвычайно эффективный инструмент ИАД.

Одним из возможных средств интеллектуального анализа социологических данных с нечисловыми (качественными) и сложно-структурированными параметрами является логико-комбинаторный ДСМ-метод автоматического порождения гипотез в БФ с неполной информацией [2], формализующий специальный класс правдоподобных рассуждений.

Основой метода является синтез познавательных процедур [3] – эмпирической индукции (формальных расширений и уточнений индуктивных методов Д.С. Милля[6]), каузальной аналогии и абдукции (принятие гипотез на основе объяснения начальных данных) Ч.С. Пирса. При этом метод опирается на принцип: сходство исследуемых фактов определяет повторяемость обнаруженных эффектов (а не наоборот).

Средством формализации указанного синтеза, называемого ДСМ-рассуждением, является специально созданный аппарат многозначных логик. ДСМ-рассуждение реализует естественную эвристику и оказывается адекватным средством формализации рассуждений в науках о социальном поведении (эта эвристика является средством формализованного качественного ИАД). Таким образом, ДСМ-решатель реализует автоматизированные правдоподобные рассуждения типа «индукция – аналогия – абдукция». Иными словами, конструктивная реализация индуктивного обучения на множествах позитивных (+)– и негативных (–)–примеров (фактов) изучаемых явлений порождает положительные и отрицательные гипотезы о каузальной зависимости. Полученные гипотезы позволяют определить отношение «причина – следствие» с помощью аналогии. Формирование отношения ДСМ-каузальности завершается посредством абдукции, которая представлена специальным критерием достаточного основания для принятия объяснительных гипотез (принятие гипотез посредством объяснения начального состояния БФ). Таким образом, концепция (±)–причинности в ДСМ-методе является индуктивно-абдуктивной, поскольку использует индуктивное порождение гипотез и абдуктивное их принятие.

Метод предназначен для проведения рассуждений в открытом мире (для которого характерно наличие каузальных зависимостей), опирающихся на частично формализованные знания о предметной области (как объективные, так и субъективные).

Для анализа данных о социуме необходимо представить информацию об агентах индивидуального поведения. В этом случае ДСМ-метод, реализованный в ИС, способен порождать гипотезы о детерминантах поведения, если само поведение представлено информативно, как некоторое множество характеристик.

При формировании БЗ следует руководствоваться следующими основными принципами: постулатом поведения (Р1), постулатом ситуационизма (Р2), постулатом рационализации исходных данных (Р3). Постулат поведения Р1 предназначен для решения задачи структурации социологических данных в ИС-ДСМ. Пусть имеются три множества характеристик, входящих в описание субъекта поведения:

(1) признаки, представляющие социальный характер субъекта (SC);

(2) индивидуальные черты личности (IP);

(3) биографические данные (BD).

Пусть Det = Det ₁? Det ₂? Det ₃, где (Det ₁? SC)&(Det ₂? IP)& (Det ₃? BD), причем хотя бы одно Det_i??, i = 1, 2, 3. Тогда Det – детерминанта поведения В субъекта С, если из Det? С следует, что С совершает В.

Постулат ситуационизма Р2 представляет собой расширение постулата Р1: отсутствие действия социального субъекта (индивида или общности индивидов) при наличии потенциальной причины действия Det (в том числе установки) объясняется влиянием ситуации S. Иными словами, детерминантой поведения субъекта может быть пара =? Det, Sñ. При этом возможны случаи: (а) Det??, S=?; (b) Det??, S??; (с) Det =?, S??; (d) Det?? или S??.

Постулат рационализации знаний о субъекте поведения Р3 становится особенно актуальным при анализе мнений [6]. Прежде всего, при выборе решений субъектом должна в явном виде использоваться (его) аргументация (см. также [7]). При этом изучение поведения должно быть реализовано как установление отклонений от рационального поведения (М. Вебер [8]), если они имеют место.

Логико-комбинаторный ДСМ-метод автоматического порождения гипотез уже доказал свою практическую состоятельность при порождении детерминант социального поведения (готовности к участию в забастовке заводских рабочих) [5]. В [6] формальный аппарат распространен на задачу анализа и прогнозирования мнений, традиционно исследуемую лишь с помощью статистических методов, которые не всегда адекватны потребностям отображения специфики индивидуального поведения. В работе [9] представлено расширение формальных средств для анализа поведения, зависящего от ситуаций.

Таким образом, метод располагает двумя различными стратегиями для решения двух различных типов задач. Первый – анализ и прогнозирование действий и готовности к ним (установок), характеризуется информативностью представленных данных о субъекте, заметно превосходящей информативность данных о его поведении (inf X > inf Y). Для решения такого рода задач используется так называемый прямой ДСМ-метод, выявляющий причинно-следственные зависимости типа «сходство субъектов поведения влечет сходство действий этих субъектов». Второй тип задач – анализ и прогнозирование электорального поведения, представленного мнениями. В этом случае информативность характеризации мнения превосходит информативность знаний о субъекте, высказывающем мнение (inf Y> inf X), и для решения задачи выбирается обратный ДСМ-метод, порождая зависимости типа «сходство мнений субъектов есть следствие сходства самих субъектов». Пример задачи первого типа – изучение личностных и социальных детерминаций солидарного поведения рабочих на конфликтных предприятиях – рассматривается в [5], задачи второго типа – отношение к свободе слова (без привлечения эмпирического материала) – в [6].

В [6, 7] предложен вариант семантики ДСМ-метода для анализа и прогнозирования мнений, открывающий возможности для распознавания рационального поведения – в отличие от нерационального. Пусть задана некоторая тема опроса Т* такая, что она характеризуется утверждениями p₁, …, p _n. Пусть, далее, символ “?” обозначает оператор вопроса такой, что? J _np _i – терм, в котором n – переменная со значениями из {1, –1, 0, t, k}, где 1 – фактическая истина, –1 – фактическая ложь, 0 – противоречие (конфликт), t – недоопределенность, k – отказ от ответа. Терм? J _np _i понимается как вопрос «верно ли, что v[p _i ] = n?». Множество {p₁, …, p _n } будем называть каркасом P темы Т*.

Пусть j _j - метасимвол, “”- предикат графического равенства формул, положим j _j p₁&…&p _n, где n _i ^(j)?{±1, 0, t, k}, i = 1, …, n; j = 1, …, 4 ⁿ. Будем называть j _j – максимальную конъюнкцию атомов p _i – мнением индивида, при этом множество членов этой конъюнкции обозначим [j _j ]={p₁&…&p _n }. Пусть U ⁽²⁾ = {y?(yp _i)&(n _i?{1, –1, 0, t, k}), i =1, …, n }. Задача изучения мнений сводится к изучению высказываний J (C _j?₁[j _j ]) – «субъект C _j имеет мнение j _j» – и J ([y _j ] ₃? C? _j) – «мнение y _j есть следствие характеристик субъекта C? _j», – C _j, C? _j, [j _j ], [y _j ] – константы, C _j, C? _j? (U ⁽¹⁾ –множество возможных характеристик индивидуальных социальных субъектов, используемых в соответствии с постулатом поведения Р1), [j _j ], [y _j ]?, =? m, m ñ – оценка, полученная применением ДСМ-метода АПГ, где m_j?{±1, 0, t, k}, а m – число применений ДСМ-правил правдоподобного вывода.

Поскольку оценки ответов относительно темы как таковой и относительно содержания темы устанавливаются независимо, ответы на вопросы, составляющие каркас темы, основаны на аргументации респондента относительно темы в целом. Следовательно, предложенная схема опирается на рациональное социальное поведение (мнение). Можно предложить численные критерии рациональности мнений респондентов в имеющемся массиве данных. Пусть n – число вопросов относительно темы Т*, l – число связей между элементами каркаса темы, k – число стабильных j _j относительно опроса респондентов (новые j _j не появляются при расширении массива опрошенных). Пусть, далее, S – непротиворечивое множество логических зависимостей вида c _m ®y _m, где c _m – конъюнкция атомов p _j, y _m – конъюнкция или дизъюнкция атомов p _j, а “®” – импликация двузначной логики, тогда c _m ®y _m соответствуют l_m запрещенных максимальных конъюнкций j _j. Пусть m ₀ – число всех запрещенных j _j (j = 1, …, m ₀), S = {c₁®y₁, …,®}. Тогда существует процедура h такая, что по множеству S порождается множество D максимальных конъюнкций j _i таких S?{j _i } является противоречивым. Обозначим множество всех максимальных конъюнкций (“мнений”) j _i посредством F, тогда D?F, а D будем называть множеством “запрещенных максимальных конъюнкций”j _j относительно S, h(S) =?D? = l ₀.

Пусть F – множество всех максимальных конъюнкций j _j (j = 1, …, 4 ⁿ), представляющих мнение. Пусть, далее, F? – множество стабилизированных мнений респондентов, где |F?| = k, тогда функция d(F?, D) = 1 – есть степень рациональности опроса мнений соответствующего множества респондентов. Если F??D=?, то опрос будем называть тотально рациональным (d = 1); если F??D, опрос будем называть тотально нерациональным (d = 0); если D?F?, то d = 1 – , 0< d < 1. Мнение индивида C _j будем называть рациональным (аргументированным и распознающим противоречие), если j _j?D, в противном случае его будем называть нерациональным (т.е. не распознающим противоречие).

Возможны и иные характеристики рациональности. Введем следующие определения. Мнения j _i и j _j будем называть согласованными, если "h((J _np_h?j _i & J _mp_h?j _j)®(n=m?((n?m)&(n=t?m=t)))) (здесь предикат y?cинтерпретируется как “y – подформула c”). Мнения j _i и j _j назовем рассогласованными, если $h(J _np_h?j _i & J _mp_h?j _j)&(n?m)&(n, m?{1, -1, 0, k})). Рассмотрим множество = {j|"y((j, y?F?) ® (j, y согласованы))}. Тогда функция l (,F?) = – степень согласованности мнений j из F? –характеризует степень “осмысленности” реакций респондентов (понимания темы Т*).

Работа выполнена при поддержке Российского гуманитарного научного фонда (проект № 02-03-18166а).

Литература:

1. Парсонс Т. О теории и метатеории // В кн.: Теоретическая социология, Антология, Т.2, М.: Наука, 2002, с. 44 – 45

2. Финн В.К. Правдоподобные рассуждения в интеллектуальных системах типа ДСМ // Итоги науки и техники, сер. Информатика, ВИНИТИ, 1991, т.15, с.54-101.

3. Финн В.К. Синтез познавательных процедур и проблема индукции // НТИ. Сер. 2. – 1999.? № 1?2.? с. 8?45.

4. Дюркгейм Э. Метод социологии // Дюркгейм Э. О разделении общественного труда. Метод социологии.? М.: Наука, 1991. – с. 391?532.

5. Данилова Е.Н., Михеенкова М.А., Климова С.Г. Возможности применения логико-комбинаторных методов для анализа социальной информации // Социология: 4М. – 1999.? № 11.? с. 142?160.

6. Финн В.К., Михеенкова М.А. О логических средствах концептуализации анализа мнений // НТИ. Сер. 2. – 2002.? № 6.? с. 4?22.

7. Финн В.К., Михеенкова М.А. Логические средства анализа мнений // «Сорокинские чтения-2002», Т.3, М.: МАКС Пресс, 2003, с. 93?106.

8. Вебер М. Основные понятия социологии // Вебер М. Избранные произведения. М.: Прогресс, 1990.

9. Финн В.К., Михеенкова М.А.О ситуационном расширении ДСМ-метода автоматического порождения гипотез // НТИ, сер. 2. – 2000.? № 11.? c.20 – 30.

М.А. Михеенкова, В.К. Финн

125190, Москва, ул. Усиевича 20, ВИНИТИ РАН и Минпромнауки

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:

4 5 6 7 8 9 10

ПРОИЗВОДИТЕЛЬНОСТЬ ТРУДА

Индексы переменного и постоянного состава, индекс структурных сдвигов

Объяснительно-иллюстративный метод обучения

Элементы поперечного профиля дороги

II этап сестринского процесса: сестринская диагностика

ПРИМЕРЫ ИСПОЛЬЗОВАНИЯ СЕСТРИНСКОГО ПРОЦЕССА В ДЕЯТЕЛЬНОСТИ МЕДСЕСТРЫ

Самый сильный аргумент, почему эволюция человека не могла быть