Дендрограмма объектов

Общая информация

Описание программы

Определяются соотношения объектов (наблюдений) заданной системы в пространстве признаков. В основе лежит вычисление обобщенных расстояний между объектами, которые вычисляются в соответствии с метриками оценки информативности.

На втором этапе кластер-анализа производится упорядочение в "группы связности", или, в общем плане, построение иерархической системы, отражающей взаимное расположение объектов в пространстве признаков. Результаты упорядочения могут быть представлены графически - дендрограммой.

Реализуется наиболее распространенный "взвешенный парно-групповой метод".

Находятся два наиболее близких (сходных) объекта выборки. Они объединяются, т.е. в данном случае находится среднее арифметическое по всем признакам этих объектов. Получается новый объект, который в дальнейшем выступает вместо первых двух. Далее процедура поиска двух наиболее близких объектов повторяется. После того, как все пары исходных объектов подобраны, будет происходить объединение таких обобщенных образов до тех пор, пока все объекты не будут объединены в единую систему.

Такой анализ позволяет раскрыть структуру множества объектов, получить наглядную картину соотношений объектов в многомерном пространстве признаков.

Понятие расстояния (сходства) между наблюдениями имеет смысл применяемой метрики. Различные метрики могут дать несколько иные результаты.

В зависимости от шкалы признаков используются меры сходства:

для номинальной шкалы
для бинарных признаков	, где Е_i- число единиц в q признаках i-го объекта, Е_il- число единиц,совпадающих в обоих объектах.
для порядковой шкалы
для арифметической в той же мере сходства	, где S_j² - дисперсия j-го признака.

Строится матрица сходства., которая используется при группировке объектов методом ближайшего соседа.

Входные данные и результаты.

Данные для расчетов могут вводится с экрана или из файла пользователя при выборе соответствующего пункта меню.

Расширение имени файла данных:"txt". Файлы с другими расширениями не обрабатываются.

При выборе пункта "Контрольный пример" автоматически выдается результат с данными, представленными разработчиками.

Входные данные:

Число объектов (строк);
Число признаков (столбцов);
Значения.

В текстовом файле с расширением "txt" данные перечисляются через запятую .

В первой строке:
- Тип данных - № шкалы:
  - 1 - номинальная;
  - 2 - бинарная;
  - 3 - порядковая;
  - 4 - арифметическая;
- Во второй строке через запятую:
  - Число объектов (строк);
  - Число признаков (столбцов);
- во 2-ой строке: через запятую значения наблюдений по 1-ому объекту;
- во 3-ей строке: через запятую значения наблюдений по 2-ому объекту;
- и т.д по всем объектам.
Пример записи данных в файле данных:
```
4
6,4
7., 7., 9., 5.
3., 1., 5., 3.
7., 7., 9., 5.
7., 7., 9., 5.
7., 7., 9., 5.
7., 7., 9., 5.
```
Выходные данные
- Таблица расчетных значений сходства между классами, используемая для дендрограммы,
- Дендрограмма
Дендрограмма сходства объектов

Информационно-справочная система по класификации почв России v1.0