Разделение системы наблюдений на заданное число частей, куда входят наиболее сходные объекты. Определяется состав этих частей, характеризуются уровни сходства наблюдений в них (К-задача).
Определяются соотношения объектов(наблюдений)заданной системы в пространстве признаков. В основе лежит вычисление обобщенных расстояний между объектами, которые вычисляются в соответствии с метриками оценки информативности.
Производится упорядочение в "группы связности", или, в общем плане, построение иерархической системы, отражающей взаимное расположение объектов в пространстве признаков. Результаты упорядочения могут быть представлены графически - дендрограммой.
Реализуется наиболее распространенный "взвешенный парно-групповой метод".
Находятся два наиболее близких (сходных) объекта выборки. Они объединяются, т.е. в данном случае находится среднее арифметическое по всем признакам этих объектов. Получается новый объект, который в дальнейшем выступает вместо первых двух. Далее процедура поиска двух наиболее близких объектов повторяется. После того, как все пары исходных объектов подобраны, будет происходить объединение таких обобщенных образов до тех пор, пока все объекты не будут объединены в единую систему.
Такой анализ позволяет раскрыть структуру множества объектов, получить наглядную картину соотношений объектов в многомерном пространстве признаков.
Понятие расстояния (сходства) между наблюдениями имеет смысл применяемой метрики. Различные метрики могут дать несколько иные результаты.
В соответсвии с указанным количеством классов и количеством объектов в них объекты приписываются классам: указанное количество объектов по порядку к первому классу, следующие по порядку ко второму классу и т.д. Затем вычисляется сходство объектов внутри образованных классов, сходство между классами и строится дендрограмма классов.
В основе лежит вычисление обобщенных расстояний между объектами, которые вычисляются в соответствии с метриками оценки информативности.
При построении дендрограммы находятся два наиболее близких (сходных) объекта выборки. Они объединяются, т.е. в данном случае находится среднее арифметическое по всем признакам этих объектов. Получается новый объект, который в дальнейшем выступает вместо первых двух. Далее процедура поиска двух наиболее близких объектов повторяется. После того, как все пары исходных объектов подобраны, будет происходить объединение таких обобщенных образов до тех пор, пока все объекты не будут объединены в единую систему.
В зависимости от шкалы признаков используются различные меры сходства.