Определяются соотношения объектов (наблюдений) заданной системы в пространстве признаков. В основе лежит вычисление обобщенных расстояний между объектами, которые вычисляются в соответствии с метриками оценки информативности.
На втором этапе кластер-анализа производится упорядочение в "группы связности", или, в общем плане, построение иерархической системы, отражающей взаимное расположение объектов в пространстве признаков. Результаты упорядочения могут быть представлены графически - дендрограммой.
Реализуется наиболее распространенный "взвешенный парно-групповой метод".
Находятся два наиболее близких (сходных) объекта выборки. Они объединяются, т.е. в данном случае находится среднее арифметическое по всем признакам этих объектов. Получается новый объект, который в дальнейшем выступает вместо первых двух. Далее процедура поиска двух наиболее близких объектов повторяется. После того, как все пары исходных объектов подобраны, будет происходить объединение таких обобщенных образов до тех пор, пока все объекты не будут объединены в единую систему.
Такой анализ позволяет раскрыть структуру множества объектов, получить наглядную картину соотношений объектов в многомерном пространстве признаков.
Понятие расстояния (сходства) между наблюдениями имеет смысл применяемой метрики. Различные метрики могут дать несколько иные результаты.
В зависимости от шкалы признаков используются меры сходства:
для номинальной шкалы | |
для бинарных признаков | , где Еi- число единиц в q признаках i-го объекта, Еil- число единиц,совпадающих в обоих объектах. |
для порядковой шкалы | |
для арифметической в той же мере сходства | , где Sj2 - дисперсия j-го признака. |
Строится матрица сходства., которая используется при группировке объектов методом ближайшего соседа.
Данные для расчетов могут вводится с экрана или из файла пользователя при выборе соответствующего пункта меню.
Расширение имени файла данных:"txt". Файлы с другими расширениями не обрабатываются.
При выборе пункта "Контрольный пример" автоматически выдается результат с данными, представленными разработчиками.
Пример записи данных в файле данных:
4
6,4
7., 7., 9., 5.
3., 1., 5., 3.
7., 7., 9., 5.
7., 7., 9., 5.
7., 7., 9., 5.
7., 7., 9., 5.