Пользуясь данными столбцов 1, 2, 3, 6, 7, составим нормальные уравнения (3.26), которые применительно к нашему случаю при удержании только двух первых членов формулы будут иметь вид:
Подставляя табличные данные, получим:
Решая эти уравнения, найдем: b0 =6,68; b1 = -3,48, следовательно,
Оценим точность выполненных построений. Подставив в полученную формулу значения x (табл. 8), определим вычисленные значения уt и отклонения.
Таблица 8
x |
yt |
y-yt |
(y-yt)2 |
0 0.5 1.0 1.5 2.0 |
+6.68 +4.94 +3.20 +1.46 -0.28 |
+0.32 -0.14 -0.40 -0.06 +0.28 |
0.1024 0.0196 0.1600 0.0036 0.0784 |
Суммируя данные последнего столбца, будем иметь:
Средняя квадратическая ошибка на единицу веса
Среднее абсолютное отклонение (5.9) равно
Полученные величины показывают, что формула подобрана неудовлетворительно, так как исходные данные имеют точность до 0,1, а средняя квадратическая ошибка на единицу веса значительно больше 0,1.
Повторим все операции, используя более точное выражение
Для записи нормальных уравнений (7) дополним вспомогательную табл. 3.8 новыми данными, которые приведены в столбцах 4, 5, 8 и выделены курсивом. Составим нормальные уравнения:
После решения этой системы найдем b0=7.00; b1=-4.74; b2=0.63 и запишем искомую зависимость:
Для определения средней квадратической ошибки составим табл. 9.
Таблица 9
x |
yt |
y-yt |
(y-yt)2 |
0 0.5 1.0 1.5 2.0 |
7,0 4.79 2,89 1.30 0.04 |
0 +0.01 -0.09 +0.10 -0.04 |
0 0.0001 0.0081 0.0100 0.0016 |
Суммируя последний столбец, получим
Средняя квадратическая ошибка на единицу веса
Среднее абсолютное отклонение
Следовательно, формула вполне удовлетворительно соответствует экспериментальным данным.
Основная цель кластерного анализа
Термин кластерный анализ (впервые ввел Tryon, 1939) в действительности включает в себя набор различных алгоритмов классификации. Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры, т.е. развернуть таксономии. Например, биологи ставят цель разбить животных на различные виды, чтобы содержательно описать различия между ними. В соответствии с современной системой, принятой в биологии, человек принадлежит к приматам, млекопитающим, амниотам, позвоночным и животным. Заметьте, что в этой классификации, чем выше уровень агрегации, тем меньше сходства между членами в соответствующем классе. Человек имеет больше сходства с другими приматами (т.е. с обезьянами), чем с "отдаленными" членами семейства млекопитающих (например, собаками) и т.д. Далее мы рассмотрим общие методы кластерного анализ: Объединение (древовидная кластеризация), Двувходовое объединение и Метод K средних.
Заметим, что предыдущие рассуждения ссылаются на алгоритмы кластеризации, но ничего не упоминают о проверке статистической значимости. Фактически, кластерный анализ является не столько обычным статистическим методом, сколько "набором" различных алгоритмов распределения объектов по кластерам". Существует точка зрения, что в отличие от многих других статистических процедур, методы кластерного анализа используются в большинстве случаев тогда, когда вы не имеете каких-либо априорных гипотез относительно классов, но все еще находитесь в описательной стадии исследования. Следует понимать, что кластерный анализ определяет "наиболее возможно значимое решение". Поэтому проверка статистической значимости в действительности здесь неприменима, даже в случаях, когда известны p-уровни (как, например, в методе K средних).
Техника кластеризации применяется в самых разнообразных областях. Хартиган (Hartigan, 1975) дал прекрасный обзор многих опубликованных исследований, содержащих результаты, полученные методами кластерного анализа. Например, в области медицины кластеризация заболеваний, лечения заболеваний или симптомов заболеваний приводит к широко используемым таксономиям. В области психиатрии правильная диагностика кластеров симптомов, таких как паранойя, шизофрения и т.д., является решающей для успешной терапии. В археологии с помощью кластерного анализа исследователи пытаются установить таксономии каменных орудий, похоронных объектов и т.д. Известны широкие применения кластерного анализа в маркетинговых исследованиях. В общем, всякий раз, когда необходимо классифицировать "горы" информации к пригодным для дальнейшей обработки группам, кластерный анализ оказывается весьма полезным и эффективным.
Объединение (древовидная кластеризация)
Приведенный пример поясняет цель алгоритма объединения (древовидной кластеризации). Назначение этого алгоритма состоит в объединении объектов (например, животных) в достаточно большие кластеры, используя некоторую меру сходства или расстояние между объектами. Типичным результатом такой кластеризации является иерархическое дерево.
Иерархическое дерево
Рассмотрим горизонтальную древовидную диаграмму. Диаграмма начинается с каждого объекта в классе (в левой части диаграммы). Теперь представим себе, что постепенно (очень малыми шагами) вы "ослабляете" ваш критерий о том, какие объекты являются уникальными, а какие нет. Другими словами, вы понижаете порог, относящийся к решению об объединении двух или более объектов в один кластер.