Выбор переменных

Выбор переменных в кластерном анализе является одним из наиболее важных шагов в исследовательском процессе, но, к сожалению, и одним из наименее разработанных. Основная проблема состоит в том, чтобы найти ту совокупность переменных, которая наилучшим образом отражает понятие сходства. В идеале переменные должны выбираться в соответствии с ясно сформулированной теорией, которая лежит в основе классификации. Однако на практике теория, обосновывающая классификационные исследования, часто не сформулирована, и поэтому бывает трудно оценить, насколько выбор переменных соответствует поставленной задаче.

Отбор и последующий анализ как можно большего количества переменных в надежде на то, что «структура» проявится, как только будет собрано достаточное количество данных, особенно опасны при применении кластерного анализа ввиду эвристической природы метода и большого числа нерешенных проблем.

Обычно при выполнении кластерного анализа данные подвергаются нормировке таким образом, чтобы среднее у всех переменных равнялось нулю, а дисперсия - единице. Имеются, однако, некоторые разногласия относительно того, должна ли нормировка быть стандартной процедурой в кластерном анализе. Нормировка к единичной дисперсии и нулевому среднему уменьшает различия между группами по тем переменным, по которым наилучшим образом обнаруживались групповые различия. Более целесообразно проводить нормировку внутри групп (т. е. внутри кластеров), но, очевидно, этого нельзя сделать, пока объекты не разнесены по группам.

Ситуация относительно нормировки не совсем ясна. В некоторых исследованиях получилось, что нормировка не приводит к существенным различиям в классификации. Другие исследования показали, что нормировка отрицательно сказывается на адекватности результатов кластерного анализа, а третьи - положительно. Пользователи, имеющие данные с существенно различными измерениями, без сомнения, захотят стандартизировать их, особенно если применяется такая мера сходства, как евклидово расстояние. Решение о проведении нормировки должно приниматься с учетом специфики решаемой задачи, при этом пользователь должен понимать, что результаты могут различаться в зависимости от принятого решения, хотя величина воздействия будет меняться от одного множества данных к другому.

Полемика ведется и вокруг вопроса о необходимости взвешивания переменных. Взвешивание - это манипулирование значением переменной, позволяющее ей играть большую или меньшую роль в измерении сходства между объектами. Хотя эта идея и проста, ее практическое применение затруднительно. Видимо, имеет смысл взвешивать некоторые переменные априори, если для этого есть хорошее теоретическое обоснование.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: