Авто Автоматизация Архитектура Астрономия Аудит Биология Бухгалтерия Военное дело Генетика География Геология Государство Дом Другое Журналистика и СМИ Изобретательство Иностранные языки Информатика Искусство История Компьютеры Кулинария Культура Лексикология Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлы и Сварка Механика Музыка Население Образование Охрана безопасности жизни Охрана Труда Педагогика Политика Право Приборостроение Программирование Производство Промышленность Психология Радио Регилия Связь Социология Спорт Стандартизация Строительство Технологии Торговля Туризм Физика Физиология Философия Финансы Химия Хозяйство Ценнообразование Черчение Экология Эконометрика Экономика Электроника Юриспунденкция

Глава 18. Дискриминантный анализ

Читайте также:

После изучения материала этой главы вы должны уметь...

1. Излагать концепцию дискриминантного анализа, его цели и применение в маркетинговых

исследованиях.

2. Обрисовывать процедуру выполнения дискриминантного анализа, включая формулирова-

ние проблемы, определение коэффициентов дискриминантной функции и значимости,

интерпретацию и проверку достоверности.

3. Обсуждать множественный дискриминантный анализ и различие между дискриминант-

ным анализом для двух групп и множественным дискриминантным анализом.

4. Объяснять пошаговый дискриминантый анализ и описывать метод Махаланобиса.

КРАТКИЙ ОБЗОР

Эта глава посвящена дискриминантному анализу. В начале главы мы установим его связь с

регрессионным (глава 17) и дисперсионным (глава 18) анализом. Опишем модель и общую про-

цедуру выполнения дискриминантного анализа, отметив такие стадии: формулировка проблемы,

вычисление коэффициентов дискриминантной функции, определение значимости, интерпрета-

ция и проверка результатов. Данная процедура проиллюстрирована на примере дискриминанто-

ного анализа для двух групп. Рассмотрен пример множественного дискриминантного анализа

(для трех групп). Кроме того, мы изучим пошаговый дискриминантный анализ.

Начнем с примеров, иллюстрирующих применение дискриминантного анализа для двух

групп и множественного дискриминантного анализа.

ПРИМЕР. Покупка товаров со скидкой

Для того чтобы определить корреляцию характеристик покупателей с их предрасполо-

женностью к покупке товаров со скидками, был проведен опрос 294 потребителей, которые

благосклонно относятся к рекламе таких товаров. Предикторами являлись четыре фактора,

связанные с отношением покупателей к процессу покупки товаров и их поведением, а также

избранные демографические характеристики (пол, возраст и доход).

Зависимой переменной выбрали степень предрасположенности респондентов к скидкам.

При этом определены три ее уровня. Респонденты, заявившие, что в течение последних 12

месяцев ни разу не купили товар со скидками, были отнесены к категории "не потребите-

ли"; респонденты, заявившие, что они сделали за этот период одну-две таких покупки, бы-

ли отнесены к редким покупателям; респонденты, сделавшие больше двух покупок, были

классифицированы как частые покупатели товаров со скидками. Для изучения данных мар-

кетологи применили множественный дискриминантный анализ.

Установлено два главных факта. Во-первых, восприятие потребителями соотношения

"усилия, необходимые для получения скидки/ размер скидки", было наиболее эффективной пе-

ременной для выведения различия (дискриминации) между частыми, редкими покупателями и

лицами, не являющимися потребителями предлагаемого товара со скидкой. Маркетологи выяс-

нилим, что чувствительные к скидкам покупатели согласны на относительно меньший размер

скидки по сравнению с другими покупателями. Во-вторых, потребители, которые были хорошо

осведомлены о постоянных ценах на товары и поэтому легко узнавали товары со скидками, веро-

ятно, чаще других, откликаются на предложение товаров по сниженным ценам [1].

Глава 18. Дискриминантный анализ 685

ИНОЙ ПРИМЕР. ВЫБОР УНИВЕРМАГА

Дискриминантный анализ для двух групп

В маркетинговом исследовании "Выбор универмага", маркетологи использовали дискри- 1

минантный анализ для двух групп, чтобы выяснить, отличаются ли значения, которые при- I

сваивают восьми факторам выбора универмага респонденты, которым известны универмаги I

от тех значений, которые выставляют респонденты, которым универмаги не известны.

Зависимой переменной были две группы респондентов — владеющие и не владеющие ин-!

формацией об универмагах, а независимыми переменными — важность (значение) восьми

факторов критерия выбора. Общая дискриминантная функция была значимой, что указы- |

вало на существенное различие между двумя группами. Результаты показали, что по срав- I

нению с респондентами, ничего не знающими о данных универмагах, респонденты, хорошо!

осведомленные о них, придавали большее относительное значение качеству товаров, уело- I

виям возврата товаров, услугам продавцов, а также условиям кредитования и расчета с по-

купателями.

—- „тчннн--..„„„,--—... -, TT-T.IIIJ ".•••"•"U-J.

В указанном примере с универмагом задействованы две группы респондентов (знакомые и

не знакомые с универмагом), в то время как в примере с предрасположенностью к покупкам

товаров со скидками проверяли три группы (лица, не являющиеся покупателями товаров со

скидкой; редкие покупатели и частые). В данных исследованиях обнаружены существенные

межгрупповые различия при использовании многих предикторов (независимых переменных),

Исследование различий между группами — основа концепции дискриминантного анализа.

ОСНОВЫ ДИСКРИМИНАНТНОГО АНАЛИЗА

Дискриминантный анализ (discriminant analysis) используется для анализа данных в том слу-

чае, когда зависимая переменная категориальная, а предикторы (независимые переменные)

интервальные [2].

Дискриминантный анализ (discriminant analysis)

Метод для анализа данных маркетинговых исследований в том случае, когда зависимая пе-

ременная категориальная, а предикторы (независимые переменные) интервальные.

Например, зависимая переменная может быть выбором торговой марки персонального

компьютера (торговые марки А, В или С), а независимыми переменными могут быть рейтинги

свойств персональных компьютеров, измеренные по семибалльной шкале Лайкерта. Дискри-

минантный анализ преследует такие цели.

1. Определение дискриминантных функций (discriminant functions) или линейных комбинаций

независимых переменных, которые наилучшим образом различают (дискриминируют) ка-

тегории (группы) зависимой переменной.

2. Проверка существования между группами значимых различий с точки зрения независимых

переменных.

3. Определение предикторов, вносящих наибольший вклад в межгрупповые различия.

4. Отнесение случаев к одной из групп (классификация), исходя из значений предикторов.

5. Оценка точности классификации данных на группы.

Дискриминантная функция (discriminant functions)

Выведенная посредством дискриминантного анализа линейная комбинация независимых

переменных, с помощью которой можно наилучшим образом различить (дискриминиро-

вать) категории зависимой переменной.

686 Часть III. Сбор, подготовка и анализ данных

Метод дискриминантного анализа описывается числом категорий, имеющихся у зависи-

мой переменной. Если она имеет две категории, то метод называют дискрииинантным анализом

для двух групп (two-group discriminant analsysis).

Дискриминантный анализ для двух групп (two-group discriminant analsysis)

Метод дискриминантного анализа, когда зависимая переменная имеет две категории.

Если анализируют три или больше категорий, то метод называют множественным дискри

минантным анализом (multiple descriminant analysis).

J Множественный Дискриминантный анализ (multiple descriminant analysis)

Метод дискриминантного анализа, когда у зависимой переменной имеется три или больше

категорий.

Главное отличие между ними заключается в том, что при наличии двух групп возможно

вывести только одну дискриминантную функцию. Используя множественный Дискрими-

нантный анализ, можно вычислить несколько функций [3].

В маркетинговых исследованиях можно привести массу примеров применения дискри-

минантного анализа. Так, с помощью этого метода можно получить ответы на следующие

вопросы [4].

• Чем, с точки зрения демографических характеристик, отличаются приверженцы данно-

го магазина от тех, у кого эта приверженность отсутствует?

• Отличаются ли в потреблении замороженных продуктов покупатели, которые пьют без-

алкогольные напитки мало, умеренно и много?

• Какие психографические характеристики помогают провести различия между воспри-

имчивыми и не восприимчивыми к цене покупателями бакалейных товаров?

• Различаются ли между собой различные сегменты рынка по своим предпочтениям к

средствам массовой информации?

• Какие существуют различия между постоянными покупателями местных универсаль-

ных магазинов и постоянными покупателями общенациональных сетей универмагов с

точки зрения стиля жизни?

• Какими отличительными характеристиками обладают потребители, реагирующие на

прямую почтовую рекламу?

СВЯЗЬ С РЕГРЕССИОННЫМ И ДИСПЕРСИОННЫМ

АНАЛИЗОМ

Связь между дискриминантным, дисперсионным и регрессионным анализом показана в

табл. 18.1.

Мы обьясним эту связь на примере, в котором исследователь пытается установить зависи-

мость величины суммы, на которую заключается договор страхования жизни, от возраста и до-

хода. Все три метода включают единственную зависимую переменную и несколько предикто-

ров или независимых переменных. Однако природа этих переменных различна. В случае дис-

персионного и регрессионного анализа зависимая переменная метрическая или интервальная

(страховая премия выражена в долларах), в то время как в дискриминантном анализе зависи-

мая переменная категориальная (страховая премия классифицируется как высокая, средняя

или низкая). Независимые переменные являются категориальными в дисперсионном анализе

(возраст и доход классифицируют как старый (высокий), средний и молодой (низкий)), но вы-

Глава 18. Дискриминантный анализ 687

ступают метрическими в регрессионном и дискриминантном анализе (возраст в годах и доход в

долларах, т.е. оба измерены с помощью относительной шкалы).

Таблица 18.1. Сходства и отличия между дисперсионным, регрессионным и дискрими-

1 нантным анализом

Дисперсионный анализ Регрессионный анализ Дискритнантный анализ

Сходства

Число зависимых переменных

Число независимых переменных

Отличия

Природа зависимой переменной

Природа независимой переменной

Одна

Несколько

Метрическая

Категориальная

Одна

Несколько

Метрическая

Одна

Несколько

Категориальная

Метрическая

Д искри минантный анализ для двух групп, когда зависимая переменная имеет только две ка-

тегории, тесно связан со множественным регрессионным анализом. В этом случае множествен-

ный регрессионный анализ, в котором зависимую переменную кодируют как фиктивную пере-

менную, имеющую значение 0 или 1, приводит к частным коэффициентам регрессии, которые

пропорциональны коэффициентам д искри минантной функции (см. следующий раздел).

МОДЕЛЬ ДИСКРИМИНАНТНОГО АНАЛИЗА

Модель дискриминантного анализа (discriminant analysis model) имеет следующий вид:

}

где/) — д искрим инантны и показатель (дискриминант), Ь — дискри минантный коэффици-

ент или вес, Х~ предиктор или независимая переменная.

Модель дискриминантного анализа (discriminant analysis model)

Статистическая модель, лежащая в основе дискриминантного анализа.

Коэффициенты или веса (Ь) определяют таким образом, чтобы группы максимально воз-

можно отличались значениями дискриминантной функции. Это происходит тогда, когда от-

ношение межгрупповой суммы квадратов к внутри групповой сумме квадратов для дискрими-

нантных показателей максимально. Любая другая линейная комбинация предикторов приво-

дит к меньшему значению этого отношения. Технические детали вычисления описаны в

приложении 18А. С дискриминантным анализом связан ряд статистик.

СТАТИСТИКИ, СВЯЗАННЫЕ

С ДИСКРИМИНАНТНЫМ АНАЛИЗОМ

Ниже приведены основные статистики, связанные с дискриминантным анализом.

Каноническая корреляция (canonical correlation). Измеряет степень связи между дискрими-

наитными показателями и группами. Это мера связи между единственной дискриминирую-

щей функцией и набором фиктивных переменных, которые определяют принадлежность к

данной группе.

Центроид (средняя точка) (centroid). Центроид — это средние значения для дискриминант-

ных показателей конкретной группы. Центроидов столько, сколько групп, т.е. один центроид

для каждой группы. Средние группы для всех функций — это групповые центроиды.

688 Часть III. Сбор, подготовка и анализ данных

Классификационная матрица (classification matrix). Иногда ее называют смешанной матрицей,

или матрицей предсказания. Классификационная матрица содержит ряд правильно классифи-

цированных и ошибочно классифицированных случаев. Верно классифицированные случаи

лежат на диагонали матрицы, поскольку предсказанные и фактические группы одни и те же.

Элементы, не лежащие по диагонали матрицы, представляют случаи, классифицированные

ошибочно. Сумма элементов, лежащих на диагонали, деленная на общее количество случаев,

дает коэффициент результативности.

Коэффициенты дискриминантной функции (discriminant function coefficients). Коэффициен-

ты д искри ми нантной функции (ненормированные) — это коэффициенты переменных, когда

они измерены в первоначальных единицах.

Дискриминантные показатели (discriminant scores). Сумма произведений ненормированных

коэффициентов дискриминантной функции на значения переменных, добавленная к посто-

янному члену.

Собственное (характеристическое) значение (eigenvalue). Для каждой дискриминантной

функции собственное значение — это отношение межгрупповой суммы квадратов к внутри-

групповой сумме квадратов. Большие собственные значения указывают на функции более вы-

сокого порядка.

f-статистика и ее значимость (F values and their significance). Значения /"-статистики вычис-

ляют однофакторный дисперсионный анализ, разбивая на группы независимую переменную.

Каждый предиктор, в свою очередь, служит в ANOVA метрической зависимой переменной.

Средние группы и групповые стандартные отклонения (group means and group standard deviations).

Эти показатели вычисляют для каждого предиктора каждой группы.

Объединенная межгрупповая корреляционная матрица (pooled within-group correlation matrix).

Объединенную межгрупповую корреляционную матрицу вычисляют усреднением отдельных

ковариационных матриц для всех групп.

Нормированные коэффициенты дискриминантных функций (standardized discriminant function

coefficients). Коэффициенты дискриминантных функций используют как множители для нор-

мированных переменных, т.е. переменных с нулевым средним и дисперсией, равной 1.

Структурные коэффициенты корреляции (structure correlations). Также известны как дискри-

минантные нагрузки, представляют собой линейные коэффициенты корреляции между предик-

торами и дискриминантной функцией.

Общая корреляционная матрица (total correlation matrix). Если при вычислении корреляций

наблюдения обрабатывают так, как будто они взяты из одной выборки, то в результате получа-

ют общую корреляционную матрицу.

Коэффициент л Уилкса (Wilks's А). Иногда называемый f-статисшкой, коэффициент X

Уилкса для каждого предиктора — это отношение внутригрупповой суммы квадратов к общей

сумме квадратов. Его значение варьирует от 0 до 1. Большое значение X (около 1) указывает на

то, что средние групп не должны различаться. Малые значения Я (около 0) указывают на то, что

средние групп различаются.

В дискриминантном анализе существуют такие допущения: каждая группа является вы-

боркой из многомерной нормально распределенной совокупности; все совокупности имеют

одну и ту же ковариационную матрицу. Чтобы лучше понять роль допущений и описанных

выше статистик, следует изучить методы выполнения д искри минантного анализа.

ВЫПОЛНЕНИЕ ДИСКРИМИНАНТНОГО АНАЛИЗА

Выполнение дискриминантного анализа включает следующие стадии: формулирование

проблемы, вычисление коэффициентов дискриминантной функции, определение значимо-

сти, интерпретация и проверка достоверности (рис 18.1).

Эти стадии обсуждаются и иллюстрируются для дискриминантного анализа двух групп.

Множественный дискриминантный анализ рассматривается в этой главе ниже.

Глава 18. Дискриминантный анализ 689

Определение зкачи

дискриминантной фунщии

Сленга достоверности

дискриминантного анализа

Рис. 18.1. Выполнение дискриминантного анализа

Формулирование проблемы

Первый шаг дискриминантного анализа — формулирование проблемы путем определе-

ния целей, зависимой переменой и независимых переменных. Зависимая переменная долж-

на состоять из двух или больше взаимоисключающих и взаимно исчерпывающих категорий.

Если зависимая переменная измерена с помощью интервальной или относительной шкалы,

то ее следует, в первую очередь, перевести в статус категориальной. Например, отношение к

торговой марке, измеренное по семибалльной шкале, можно категоризировать как неблаго-

приятное (1, 2, 3), нейтральное (4) и благоприятное (5, 6, 7). Можно поступить иначе. Для

этого следует построить график распределения значений зависимой переменной и сформи-

ровать группы равного размера с помощью точек отсечения. Предикторы следует выбирать,

исходя из теоретической модели или ранее проведенного исследования, или, в случае поис-

кового исследования, из интуиции и опыта исследователя.

Следующий шаг — разделение выборки на две части. Одна из них — анализируемая выбор-

ка (analysis sample) — используется для вычисления дискриминантной функции.

Анализируемая выборка (analysis sample)

Часть общей выборки, которую используют для вычисления дискриминантной функции.

Другая часть — проверочная выборка (validation sample) — предназначена для проверки дис-

криминантной функции.

Когда выборка достаточно большая, ее можно разбить на две равные части. Одна служит

анализируемой выборкой, а другую используют для проверки. Затем роль этих половинок вза-

690 Часть III. Сбор, подготовка и анализ данных

имно меняют и повторяют анализ. Это называется двойной перекрестной проверкой, и она

аналогична методу, рассмотренному в регрессионном анализе (глава 17).

Проверочная выборка (validation sample)

Часть общей выборки, которую используют для проверки результатов расчета на основании

анализируемой выборки.

Часто распределение количества случаев в анализируемой и проверочной выборки явствует из

распределения в обшей выборке. Например, если общая выборка содержит 50% лояльно и 50% нело-

яльно настроенных покупателей, то анализируемая и проверочная выборки должны каждая содер-

жать 50% лояльных и 50% нелояльных покупателей. В другом случае, если выборка содержит 25%

лояльных и 75% нелояльных покупателей, следует выбрать анализируемую и проверочную выборки

таким образом, чтобы их распределения отражали аналогичную картину (25% против 75%).

И наконец, проверку достоверности дискриминантной функции предлагают выполнять не-

однократно. Каждый раз выборку следует разбивать на две части: для анализа и проверки. Вычис-

ляют дискриминантную функцию и выполняют анализ достверности модели. Таким образом,

оценка достоверности основана на ряде испытаний. Предлагаются также более точные методы [5].

Чтобы лучше проиллюстрировать дискриминантный анализ для двух групп, обратимся к

примеру. Предположим, что мы хотим определить главные характеристики семей, которые от-

дыхали на курорте в последние два года, Данные получены на основании выборки, включаю-

щей 42 семьи. Из них 30 включены (как показано в табл. 18.2) в анализируемую выборку, а ос-

тавшиеся 12 (как показано в табл. 18.3) стали частью проверочной выборки.

Таблица 18.2. Информация об отдыхе на курорте: анализируемая выборка

Номер

•'-

Посещение

курорта

Ежегодный

доход семьи

fa тысячах

долларов)

50,2

70,3

Б2.9

46,5

52,7

75.;)

46,2

57,0

64,1

68,1

73,4

71,9

56,2

49,3

62,0

32,1

36,2

43,2

!)U t-

44,1

Отношение

к путешествию

'.;

•1

Значение,

придаваемое

семейному

отдыху

Размер

семьи

•

Возраст

главы семьи

Сумма,

потраченная

семьей на отдых

С (2)

Б(3)

5(3)

М(1)

Б(3)

5(3]

С (2)

Б(3)

5(3)

С (2)

Б(3)

М(1)

С (2)

Глава 18. Дискриминантный анализ 691

Окончание табл. 18.2

Номер

'•:/

Посещение

курорта

;

,•

Ежегодный

доход семьи

(в тысячах

долларов)

38,3

55,0

46,1

35,0

37,3

41,8

57,0

33,4

37,5

41,3

Отношение

к путешествию

Значение,

придаваемое

семейному

отдыху

Размер

семьи

Возраст

главы семьи

Сумма,

потраченная

семьей на отдых

МП)

С (2)

М(1)

МО)

М(1)

С (2)

МО)

МП)

Таблшр 18.3, Информа!

Номер Посещение Ежегодный Отношение Значение, Размер Возраст Сумма,

курорта доход семьи к путешествию придаваемое семьи главы семьи потраченная

(в тысячах семейному семьей на отдых

долларов) отдыху

•'<

50,8

63,6

54,0

45,0

68,0

62,1

35,0

49,6

39,4

37,0

54,5

38,2

г.

i'>

С (2)

Б(3)

С (2)

Б(3)

МП)

м(1)

Б(3)

мп)

С (2)

MJ1)

Семьям, которые отдыхали на курорте в последние два года, присвоен код I; тем же, кото-

рые не посетили курорт за указанный период времени, присвоен код 2. Обе выборки (как ана-

лизируемая, так и проверочная) сбалансированы с точки зрения посещаемости курорта. Как

видно, анализируемая выборка содержит 15 семей каждой категории, а проверочная — по 6 се-

мей каждой категории, Кроме того, получены данные о ежегодном доходе каждой семьи

(доход), отношении к путешествию (путешествие, оценивали по девятибалльной шкале), зна-

чении, придаваемом семейному отдыху (отдых, оценивали по девятибалльной шкале), размеру

семьи (размер семьи) и возрасту главы семьи (возраст).

Определение коэффициентов дискриминантной функции

После определения анализируемой выборки (табл. 18.2) мы можем вычислить коэффици-

енты дискриминантной функции, используя два метода. Прямой метод (direct method) — вы-

числение дискриминантной функции при одновременном введении всех предикторов.

692 Часть III. Сбор, подготовка и анализ данных

Прямой метод (direct method)

Метод дискриминантного анализа, в котором дискриминантную функцию вычисляют при

одновременном введении всех предикторов.

В этом случае учитывается каждая независимая переменная. При этом ее дискриминирую-

щая сила не принимается во внимание. Этот метод больше подходит к ситуации, когда анали-

тик, исходя из результатов предыдущего исследования или теоретической модели, хочет, чтобы

в основе различения лежали все предикторы. Альтернативным методом является пошаговый

метод. При пошаговом дискриминантом анализе (stepwise discriminant analysis) предикторы вво-

дят последовательно, исходя из их способности различить (дискриминировать) группы.

Пошаговый дискриминантный анализ (stepwise discriminant analysis)

Дискриминантный анализ, при котором предикторы вводятся последовательно, в зависимо-

сти от их способности различить группы.

Этот метод лучше применять в ситуации, когда исследователь хочет отобрать подмножество

предикторов для включения их в дискриминатную функцию.

Результаты выполнения дискриминантного анализа для двух групп данных из табл. 18.2 с

использованием SPSS представлены в табл. 18.4.

Таблица 18.4. Результаты дискриминантного анализа для двух групп

Средние значения внутри групп

Посещение Доход Путешествие Отдых Размер семьи Возраст

В целом

60,52000

41,91333

51,21667

5,40000

4,33333

4,86667

5,80000

4,06667

4,93333

4,33333

2,80000

3,56667

53,73333

50,13333

51,93333

Стандартные отклонения в группах

В целом

9,83065

7,55115

12,79523

1,91982

1,95180

1,97804

1,85052

2,05171

2,09981

1,23443

0,94112

1,33089

8,77062

8,27101

8,57395

Объединенная внутригрупповая корреляционная матрица

Доход

Путешествие

Отдых

Размер семьи

Возраст

Доход

1,00000

0,19745

0,91148

0,08887

-0,01431

Путешествие

1,00000

0,08434

-0,01681

-0,19709

Отдых

1,00000

0,07046

0,01742

Размер семьи

1,00000

- 0,04301

Возраст

), 00000

Коеффициент л (U -статистика) и F-критерий для одномерной выборки с одной

Переменная Коеффициент Я Уилкса Значение F

и 28 степенями свободы

Значимость

Доход

Путешествие

Отдых

Размер семьи

Возраст

0,45310

0,92479

0,82377

0,65672

0,95441

33,80

2,277

5,990

14,64

1,338

0,0000

0,1425

0,0209

0,0007

0,2572

Глава 18. Дискриминантный анализ 693

Продолжение табл. 18.4

Канонические дискрнминантные функции

Функция Собствен-

ное зна-

чение

Процент

вариация

Кумуля-

тивный

процент

Каноничес-

кая корре-

ляция

После

функ-

ции

Коэф-

фициент

Уилкса

Хи-квадрат Степени

свободы

Значи-

мость

О 0,3589 26,130 5 0,0001

Г 1,7862 100,0 100,0 0,8007

* обозначает каноническую дискриминантную функцию, оставшуюся в анализе.

Коэффициенты канонической дискриминацией функции

Функция 1

Доход 0,74301

Путешествие 0,09611

Отдых 0,23329

Размер семьи 0,46911

Возраст 0,20922

Структурная матрица:

Объединенная корреляционная матрица между дискриминирующими переменными и каноническими дискриминант-

ными функциями (переменные расположены в соответствии с размером корреляции внутри функции)

Функция 1

Доход 0,82202

Размер семьи 0,54096

Отдых 0,34607

Путешествие 0,21337

Возраст 0,20922

Ненормированные коэффициенты канонической дискриминацией функции

Функция 1

Доход 0,847671 ОЕ-01

Путешествие 0,4964455Е-01

Отдых 0,1202813

Размер семьи 0,4273893

Возраст 0,2454380Е-01

(Константа) -7,975476

Канонические дискрнминантные функции, оцененные по групповым средним (центроидам групп)

Группа Функция 1

Т~ 1,29118

2 -1,29118

Результаты классификации для случав, отобранных для анализа

Фактическая группа Число случаев Предсказанная группа - 1 Принадлежность к группе 2

Группа 1

Группа 2

80%

20%

100%

Процент правильно классифицированных по группам случаев; 90%

694 Часть III. Сбор, подготовка и анализ данных

Окончание табл. 18.4

Результаты -классификации для случав, не отобранных для анализа

Фактическая группа Число случаев Предсказанная

группа — 1

Группа 1 6 4

66,7%

Группа 2 6 0

Процент правильно шссифицированных по группам случаев 83,33%

Принадлежность к

группе 2

33,3%

100%

Некоторые результаты можно получить, изучив групповые средние и стандартные отклоне-

ния. Маркетологи обнаружили, что в деление совокупности на две группы самый большой

вклад внесла переменная "доход". Кроме того, оказалось, что переменная "значение, прида-

ваемое семейному отдыху'1, важнее для различения групп, чем переменная "отношение к пу-

тешествию". По возрасту главы семьи две группы различаются мало, а стандартное отклонение

этой переменной большое.

Объединенная внутригрупповая корреляционная матрица указывает на низкие коэффи-

циенты корреляции между предикторами. Маловероятно, что возникнет проблема мульти-

кол л и неарности. Значимость одномерных /^-статистик (отношений внутри групповых сумм

квадратов к обшей сумме квадратов) указывает, что когда предикторы рассматриваются по

отдельности, то только доход; значение, придаваемое семейному отдыху; и размер семьи

значимо различаются между семьями, которые посетили курорт, и между теми, кто не отды-

хал на курорте.

Поскольку имеется две группы, то оценивается только одна дискриминантная функция,

Собственное значение, соответствующее этой функции, равно 1,7862. Каноническая корреля-

ция, соответствующая этой функции, равна 0,8007. Квадрат корреляции, равный (0,8007)2 =

0,64, показывает, что 64% дисперсии зависимой переменной (посещение курорта) объясняется

этой моделью. Следующая стадия дискриминантного анализа включает определение значимо-

сти д искри ми нантной функции.

Определение значимости дискриминантной функции

Бессмысленно интерпретировать результаты анализа, если определенные дискрими-

нантные функции не являются статистически значимыми. Поэтому следует выполнить

статистическую проверку нулевой гипотезы о равенстве средних всех дискриминантных

функций во всех группах генеральной совокупности. В программе SPSS эта проверка ба-

зируется на коэффициенте лямбда (X) Уилкса. Если одновременно проверяют несколько

функций, как в случае множественного дискриминантного анализа, то коэффициент X

является суммой одномерных X для каждой функции. Уровень значимости оценивают,

исходя из преобразования Х-статистики в статистику хи-квадрат (исходя из распределе-

ния хи-кеадрат, которому подчиняется Х-статистика). При проверке значимости в приме-

ре с посещением курорта (табл. 18.4) можно отметить, что Я, равная 0,3589, преобразуется

в хи-квадрат статитстику, равную 26,13 с пятью степенями свободы. Она значима при

уровне, превышающем 0,05. В программе SAS вычисляют приближенную F-статистику,

основанную на апроксимации к распределению отношения правдоподобия. В программе

BMDP проверка нулевой гипотезы базируется на преобразовании Х- статистики Уилкса в

F-статистику. В Minitab нельзя выполнить проверку значимости. Если нулевую гипотезу

отклоняют, что указывает на значимую дискриминацию, то можно продолжать интерпре-

тировать результаты [6].

Глава 18. Дискриминантный анализ 695

Интерпретация результатов

Интерпретация дискриминантных весов аналогична интерпретации во множественном

регрессионном анализе. Значение коэффициента для конкретного предиктора зависит от дру-

гих предикторов, включенных в дискриминантную функцию. Знаки коэффициентов условны,

но они указывают, какие значения переменной приводят к большим и маленьким значениям

.функции и связывают их с конкретными группами.

При наличии мультиколлинеарности между независимыми переменными не существует

однозначной меры относительной важности предикторов для дискриминации между группа-

ми [7]. Помня об этом предостережении, можно получить некоторое представление об относи-

тельной важности переменных, изучив абсолютные значения нормированных коэффициентов

дискриминантной функции. Как правило, предикторы с относительно большими нормиро-

ванными коэффициентами вносят больший вклад в дискриминирующую мощность функции

по сравнению с предикторами, имеющими меньшие коэффициенты.

Некоторое представление об относительной важности предикторов можно также получить,

изучив структурные коэффициенты корреляции, которые также называют каноническими или

дискриминантными нагрузками. Эти линейные коэффициенты корреляции между каждым из

предикторов и дискриминантной функцией представляют дисперсию, которую предиктор де-

лит вместе с функцией. Как и нормированные коэффициенты, эти коэффициенты корреля-

ции следует использовать осторожно.

Полезно исследовать нормированные коэффициенты дискриминантной функции в при-

мере с отпуском на курорте. С данными низкими коэффициентами корреляциями между пре-

дикторами можно использовать значения нормированных коэффициентов, чтобы предполо-

жить, что доход — наиболее важный предиктор при дискриминации между группами, а за ним

следуют размер семьи и значение, придаваемое семейному отдыху. Аналогичное наблюдение

получено из проверки структурных корреляций. Эти коэффициенты линейной корреляции

между предикторами и дискриминантной функцией перечислены в порядке их убывания.

Также даны и ненормированные коэффициенты дискриминантной функции. Для класси-

фикации данных их можно применить к необработанным значениям переменных в провероч-

ной выборке. Кроме того, показаны групповые центроиды, дающие значения дискриминант-

ной функции, оцененные по групповым средним. Центроид группы 1 (семьи, отдыхающие на

курорте) имеет положительное значение, а центроид группы 2 — равное ему, но отрицательное.

Знаки коэффициентов соответствующих предикторов положительны. Это означает, что чем

выше доход семьи; ее размер; значение, придаваемое семейному отдыху; отношение к путеше-

ствию и возраст, тем выше вероятность семейной поездки на курорт. Разумно создать профиль

двух групп с точки зрения трех предикторов, которые кажутся наиболее важными: доход, раз-

мер семьи и значение, придаваемое семейному отдыху. Значения этих трех переменных для

двух групп приведены в табл. 18.4.

Относительную важность предикторов иллюстрирует следующий пример.

ПРИМЕР. Удовлетворенные сотрудники остаются

Чтобы определить, какие факторы объясняют различия между торговыми работниками,

уволившимися из крупной компании по производству компьютеров, и теми, кто остался,

использовали дискриминантный анализ. Независимыми служили следующие переменные:

рейтинг компании, безопасные условия труда, удовлетворение работой по семибалльной

шкале, наличие конфликтных ситуаций по четырехбалльной шкале, наличие неопределен-

ности по четырехбалльной шкале и объем продаж по девятибалльной шкале. Зависимой пе-

ременной было разделение между теми торговыми работниками, кто остался работать в дан-

ной компании, и теми, кто уволился. Каноническая корреляция, измеряемая коэффициен-

том дискриминации R = 0,4572, оказалась значимой (Л Уилкса = 0,7909; F (26,173) = 1,7588;

р = 0,0180).

Результаты, полученные при одновременном введении всех переменных в дискрими-

нантный анализ, даны в следующей таблице.

696 Часть III. Сбор, подготовка и анализ данных

Результаты дискриминантного анализа

Переменная

Работа3

Продвижение по службе3

Безопасные условия труда

Вэаимотношения с покупателями13

Рейтинг компании

Работа с другими15

Интенсивность трудаь

Менеджмент (управление) временем-территорией11

Продажи0

Мастерство презентации"

Техническая информация6

Выплата пособий3

Достигнутая норма выработки11

Менеджмент3

Сбор информации11

Семьяс

Менеджер по продажам3

Сослуживец3

Покупателе

Семья11

Работа11

Работа0

Покупатель11

Менеджер по продажам'

Менеджер по продажам11

Покупатель3

Коэффициенты

0,0903

0,0288

0,1567

0,0086

0,4059

0,0018

-0,0148

0,0126

0,0059

0,0118

0,0003

0,0600

0,0035

0,0014

-0,0146

- 0,0684

-0,0121

0,0225

- 0,0625

0,0473

0,1378

0,0410

- 0,0060

- 0,0365

- 0,0606

- 0,0338

Нормированные

коэффициенты

0,3910

0,1515

0,1384

0,1751

0,3240

0,0365

- 0,3252

0,2899

0,1404

0,2526

0,0065

0,1843

0,2915

0,0138

- 0,3327

- 0,3408

-0,1102

0,0893

- 0,2797

0,1970

0,5312

0,5475

-0,0255

-0,2406

- 0,3333

-0,1488

Канонические

нагрузки

0,5446

0,5044

0,4958

0,4906

0,4824

0,4651

0,4518

0,4496

0,4484

0,4387

0,4173

0,3788

0,3780

0,3571

0,3326

- 0,3221

0,2909

0,2671

-0,2602

0,2180

0,2119

-0,1029

0,1004

- 0,0499

0,0467

0,0192

Замечание. Ранговый порядок важности переменной присвоен в соответствии с величиной канонической нагрузки.

'Примечание. Удовлетворение

ь Эффективность работы

с Неопределенность

a Конфликт

Ранговый порядок важности переменной в соответствии с относительной величи-

ной канонических нагрузок представлен в первой колонке. Удовлетворение работой и

возможность продвижения по службе самые важные дискриминаторы, за которыми

следовали условия безопасной работы. Продавцы, оставшиеся работать в компании, в

отличие от уволившихся, считали свою работу увлекательной, интересной и принося-

щей удовлетворение [8].

Обратите внимание, что в этом примере, исходя из канонических нагрузок, продвижение

по службе идентифицировали как вторую наиболее важную переменную. Однако продвижение

по службе не является второй наиболее важной переменной, если исходить из абсолютной ве-

личины нормированных коэффициентов дискриминантной функции. Эта аномалия — ре-

зультат мультиколлинеарности.

Глава 18. Дискриминантный анализ 697

При интерпретации результатов дискриминантного анализа также может помочь разработ-

ка характеристической структуры (characteristic profile) для каждой группы посредством описа-

ния каждой группы через групповые средние для предикторов.

Характеристическая структура (characteristic profile)

Средство интерпретации результатов дискриминантного анализа описанием каждой группы

через групповые средние для предикторов.

Если важные предикторы установлены, то сравнение групповых средних по этим перемен-

ным может помочь понять межгрупповые различия. Однако прежде чем интерпретировать ка-

кие-либо факты, необходимо убедиться в достоверности результатов.

Оценка достоверности дискриминантного анализа

Как уже говорилось, данные разбивают случайным образом на две подвыборки. Анализи-

руемую часть выборки используют для вычисления д искри ми нантной функции, а провероч-

ную— для построения классификационной матрицы. Д искри ми нантные веса, определенные

анализируемой выборкой, умножают на значения независимых переменных в проверочной

выборке, чтобы получить дискриминантные показатели для случаев в этой выборке. Затем слу-

иаи распределяют по группам, исходя из д искрим и нантных показателей и соответствующего

правила принятия решения. Например, при дискриминантном анализе двух групп случай мо-

жет быть отнесен к группе с самым близким по значению центроидом. Затем, сложив элемен-

ты, лежащие на диагонали матрицы, и разделив полученную сумму на общее количество случа-

ев, можно определить коэффициент результативности (hit ratio) или процент верно классифи-

цированных случаев [9].

Коэффициент результативности (hit ratio)

Процент случаев, верно классифицированных с помощью дискриминантного анализа.

Полезно сравнить процент случаев, верно классифицированных с помощью дискрими-

нантного анализа, с процентом случаев, который можно получить случайным образом. Для

равных по размеру групп процент случайной классификации равен частному от деления еди-

ницы на количество групп. Превысит ли и насколько количество верно классифицированных

случаев их случайное количество? Здесь нет общепринятого подхода, хотя некоторые авторы

считают, что точность классификации, достигнутая с помощью дискриминантного анализа,

должна быть, по крайней мере, на 25% выше, чем точность, которую можно достичь случай-

ным образом [10].

Большинство программ для выполнения дискриминантного анализа также определяют

классификационную матрицу, исходя из анализируемой выборки. Поскольку программы учи-

тывают даже случайные вариации в данных, то полученные результаты всегда точнее, чем клас-

сификация данных на основе проверочной выборки [11].

В табл. 18.4 (пример семейного отдыха на курорте) также показаны результаты классифика-

ции, полученные на основе анализируемой выборки. Коэффициент результативности или

процент верно классифицированных случаев равен (12 + 15)/30 = 0,90 или 90%. Могут воз-

никнуть сомнения, что этот коэффициент результативности искусственно завышен, поскольку

данные, использованные для вычисления, использовались и для проверки. Выполнение клас-

сификационного анализа по независимому набору данных приводит к классификационной

матрице с немного меньшим коэффициентом результативности (4 + 6)/12 = 0,833 или 83,3%

(табл. 18.4). Задав случайным образом две группы равного размера, можно ожидать, что коэф-

фициент результативности равен 1/2 = 0,50 или 50%. Однако превышение точности классифи-

кации над случайной классификацией составляет свыше 25%, и поэтому достоверность дис-

криминантного анализа оценивают как удовлетворительную.

Следующий пример иллюстрирует иное применение дискриминантного анализа двух групп.

698 Часть III. Сбор, подготовка и анализ данных

ПРИМЕР. Домоседы

Маркетологи использовали д искрим и нантный анализ для двух групп, чтобы оценить

силу каждого из пяти факторов, использованных при делении людей на тех, кто смотрит те-

левизор, и тех, кто не смотрит. Данный метод хорошо подходил для этой цели вследствие

природы предопределенных категориальных групп (телезрители и нетелезрители) и интер-

вальных шкал, использованных для получения отдельных значений факторов.

Отобраны две группы по 185 взрослых зрителей (телезрителей и нетелезрителей) с общим

размером выборки «= 370. Дискриминантное уравнение для анализа вычислено с помощью

подвыборки, состоящей из 142 респондентов, взятых из выборки в 370 человек. Оставшиеся

198 респондентов служили как проверочная подвыборка в перекрестной проверке уравнения.

30 респондентов исключили из анализа из-за отсутствия дискриминантных значений.

Каноническая корреляция для дискриминантной функции, равная 0,4291, являлась

значимой при/» < 0,0001 уровне. Собственное значение равнялось 0,2257. В таблице приве-

дены нормированные канонические дискриминантные коэффициенты. Значительная часть

дисперсии объясняется дискриминантной функцией. Кроме того, как показано в таблице,

фактор "ориентация на дом" внес наибольшой вклад в классификацию индивидуумов на

телезрителей и нетелезрителей. Также свой вклад внесли мораль, безопасность и здоровье,

уважение. Как оказалось, социальный фактор играл небольшую роль.

Результаты дискриминактного анализа

Стандартные коэффициенты канонической дискриминантной функции

Мораль 0,27798

Безопасность и здоровье 0,39850

Ориентация на дом 0,77496

! Уважение 0,32069

Социальный фактор - 0,01996

Классификация результатов для случаев, отобранных для использования в анализе

Фактическая группа Число случаев Предсказанная групповая принадлежность

Телезрители Нетелезрители

Телезрители 77 56 21

72,7% 27,3%

Нетелезрители 65 24 41

36,9% 63,1%

Процент верно классифицированных случаев 68,31%

Классификация результатов для случаев, использованных для перекрестной проверки

Фактическая группа Количество случаев Предсказанная групповая принадлежность

Активные телезрители Пассивные телезрители

Телезрители 108 85 23

78,7% 21,3%

Нетелезрители 90 25 65

27,8% 72,2%

Процент верно классифицированных случаев 75,76%

Метод перекрестной проверки, использующий д искрим и нантную функцию из анали-

зируемой выборки, подтвердил точку зрения, что выбранный фактор помог исследователям

разделить людей на телезрителей и нетелезрителей. Как показано в таблице, применение

Глава 18. Дискриминантный анализ 699

дискриминантноЙ функции удачно при зачислении к определенной группе 75,76% случаев.

Это означает, что рассмотрение существенных факторов поможет специалистам по марке-

тингу понять потребности пожилых людей [12],

МНОЖЕСТВЕННЫЙ ДИСКРИМИНАНТНЫЙ АНАЛИЗ

Формулирование проблемы

Данные табл. 18.2 и 18.3 можно использовать для иллюстрации дискриминантного анализа

для трех групп. В последней колонке этих таблиц домашние хозяйства классифицируют по

трем категориям, исходя из суммы, потраченной на семейный отдых (Б — большая, С — сред-

няя и М — маленькая). Десять домашних хозяйств попали в каждую из категорий. Интересно

выяснить, действительно ли семьи, которые потратили большую, среднюю или маленькую

сумму на отдых (сумма), различаются с точки зрения семейного дохода (доход), отношения к

путешествию (путешествие), значения, придаваемого семейному отдыху (отдых), размера се-

мьи (размер семьи) и возраста главы семьи (возраст) [13].

Определение коэффициентов дискриминантноЙ функции

В табл. 18.5 представлены результаты, полученные с помощью дискриминантного анализа

трех групп. Изучение групповых средних показало, что переменная "доход" разделяет группы

более широко, чем любая другая переменная. Существует некоторое разделение по переменным

"путешествие" и "отдых". А вот с точки зрения размера семьи и возраста главы семьи группы 1

и 2 почти не различаются.

Таблица 18.5. Результаты дискриминантного анализа трех груш

Групповые средине

Группы Доход Путешествие Отдых Размер семьи Возраст

В целом

38,57000

50,11000

64,97000

51,21667

4,50000

4,00000

6,10000

4,86667

4,70000

4,20000

5,90000

4,93333

3,10000

3,40000

4,20000

3,56667

50,30000

49,50000

56,00000

51,93333

Групповые стандартные отклонения

В целом

5,2971В

6,00231

3,61434

12,79523

1,71594

2,35702

1,19722

1,97804

1,88856

2,48551

1,66333

2,09981

1,19722

1,50555

1,13529

1,33089

9,09732

9,25263

7,601 17

8,57395

Объединенная межгрупповая корреляционная матрица

Доход

Путешествие

Отдых

Размер семьи

Возраст

Доход

1,00000

0,05120

0,30681

0,38050

- 0,20939

Коэффициент Я Уилксэ (£Астагистика)

Путешествие

1,00000

0,03588

0,00474

- 0,34022

Отдых

1,00000

0,22080

-0,01326

Размер семьи

1,00000

-0,02512

Возраст

1,00000

— одномерный f-фитерий с двумя и 27 степенями свободы

700 Часть III. Сбор, подготовка и анализ данных

Продолжение табл. 18.5

Переменная

Доход

Путешествие

Отдых

Размер семьи

Возраст

Коэффициент Я Унлкса

0,26215

0,78790

0,88060

0,87411

0,88214

Значение F

38,00

3,634

1,830

1,944

1,804

Значимость

0,0000

0,0400

0,1797

0,1626

0,1840

Канонические дискриминангные функции

Функция Собствен- Процент Кумулч-

ное эна- варка- тивный

чение ции процент

Каноничес- После

паякорре- удаления

Я Уилкса Хи-квадрат Степени Значи-

свободы мостъ

ляция функции

3,8190

0,2469

93,93

6,07

93,93

100,00

: 0

0,8902: 1

0,4450:

0,1664 44,831 10 0,0001

0,8020 44,831 4 0,24

обозначает две канонические дискриминантные функции, оставшиеся в анализе.

Нормированные коэффициенты канонической дискриминангной функции

Доход

Путешествие

Отдых

Размер семьи

Возраст

Функция 1

1,04740

0,33991

-0,14198

-0,16317

0,49474

Функция 2

- 0,42026

0,76861

0,53354

0,12932

0.52447

Структурная матрица

Объединенные внутригрупповые корреляции между различающими переменными и каноническими дискриминант-

ными функциями (переменные ранжированы в соответствии с размером корреляции внутри функции}

Функция 1 функция 2

Доход

Размер семьи

Отдых

Путешествие

Возраст

0,65556*

0,19319*

0,21935

0,148999

0,16576

- 0,27833

0,7749

0,58829*

0,45362*

0,34079*

Ненормированные коэффициенты канонической дискриминантной функции

Функция 1 Функция 2

Доход

Путешествие

Отдых

Размер семьи

Возраст

(Константа)

0,1542658

0,1867977

- 0,6952264Е-01

-0,1202813

0,5928055Е-01

-11,09442

-0,619714ВЕ-01

0,4223430

0,2612652

0,1002796

0,6284206Е-01

-3,791600

Глава 18. Дискриминантный анализ 701

Окончание табл. J8.5

Канонические дискриминангные функции, оцененные по групповым средним (центроидам групп)

Группа

Результаты классификации

Функция 1

-0,04100

- 0,40479

2,44578

Фактическая группа Число случаев

Функция 2

0,41847

- 0,65В67

0,24020

Предсказанная групповая принадлежность

1 2 3

Группа 1

Группа 2

Группа,'i

90,0%

10,0%

0,0%

10,0%

90,0%

20,0%

0,0%

80,0%

Процент правильно классифицированных по группам случаев 86,67%

Результаты классификации для случав, не отобранных для анализа

Предсказанная групповая принадлежность

Фактическая группа Число случаев 1 2 3

Группа

4 3

75,0%

4 0

0,0%

4 1

25,0%

75,0%

0,0%

25,0%

75,0%

Процент верно классифицированных по группам случаев 75,00%

Самое большое стандартное отклонение внутри группы для всех трех групп имеет перемен-

ная "возраст". Объединенная межгрупповая корреляционная матрица указывает на некоторую

корреляцию переменных '"отдых" и "размер семьи" с "доходом". Переменная "возраст" имеет

отрицательную корреляцию с "путешествием" (т.е. зависимость между путешествием и возрас-

том обратная). К тому же эти корреляции находятся в нижнем ряду, указывая, что хотя муль-

ти колли неарность и может иметь место, но она, вероятно, не вызовет серьезной проблемы.

Значимость соответствующих одномерных /^статистик (отношений межгрупповой суммы

квадратов к внутри групповой) указывает, что когда предикторы рассматриваются по отдельно-

сти, то при дифференциации двух групп только доход и путешествие значимы.

Если при проведении множественного дискриминантного анализа имеется G групп, то

можно определить (С— 1) дискриминантную функцию, если число предикторов больше этого

количества. Вообще, с G группами и k предикторами можно вычислить и меньше, чем (G — 1)

или k дискриминантных функций. Первая функция имеет самое высокое значение отношения

межгрупповой суммы квадратов к внутригруппововой сумме квадратов. Вторая функция, не-

коррелирующая с первой, имеет второе по величине собственное значение и т.д. Однако не все

функции могут быть статистически значимыми.

Поскольку имеется три группы, можно определить значения двух функций. Собственное зна-

чение первой функции равно 3,8190, и эта функция объясняет 93, 93% объяснимой дисперсии.

702 Часть III. Сбор, подготовка и анализ данных

Поскольку собственное значение большое, то первая функция, вероятно, старше. Вторая

функция имеет небольшое собственное значение, равное 0,2469, и объясняет только 6,07% объ-

яснимой дисперсии.

Определение значимости дискриминантной функции

Чтобы проверить нулевую гипотезу о равенстве центроидов групп, рассмотрим обе функции од-

новременно. Можно успешно проверить средние функций, выполнив первую проверку всех средних

одновременно. Затем, на следующих этапах, каждый раз исключают одну из функций и проверяют

средние оставшихся функций. Если в табл. 18.5 в колонке ''После удаления функции" стоит 0, то

значит не была удалена ни одна функция. Значение коэффициента Я, Уилкса равно 0,1644. Коэффи-

циент Я Уилкса преобразуется в статистику хи-квадрат, равную 44,831 с 10-тью степенями свободы,

которая является значимой выше 0,05 уровня. Таким образом, две функции вместе значимо дискри-

минируют (различают) три группы. Однако после исключения первой функции коэффициент А,

Уилкса, соответствующий второй функции, равен 0,8020, и является не значимой при уровне 0,05.

Поэтому вторая функция не вносит значимый вклад в групповые различия.

Интерпретация результатов

Интерпретировать результаты анализа помогает проверка нормированных коэффициентов

дискриминантной функции, структурных корреляций и построение диаграмм. Нормированные

коэффициенты показывают высокое значение коэффициента для дохода по функции 1; в то вре-

мя как функция 2 имеет относительно большие значения коэффициентов для переменных

4,0

0.0

-4,0

По горизонтали: функция 1

По вертикали: функция 2

1 1

-I 23 3 3 3

1 1 12 3* 3

1 1 *2 2 3

1 2 2

-6,0 40 -2,0

"Отмечает групповой центр

3,0 4,0 6,0

Рис. 18.2. Диаграмма рассеяния всех, групп

Глава 18. Дискриминантный анализ 703

"путешествие", "отдых'' и "возраст'. К аналогичному заключению можно прийти, изучив струк-

турную матрицу (см. табл. 18.5), Для удобства интерпретации переменные с большими коэффи-

циентами для конкретной функции группируют вместе. Эти группировки отмечены звездочкой.

Так "доход" и "размер семьи" помечены звездочкой для функции 1, поскольку эти переменные

имеют коэффициенты, значения которых для функции 1 выше, чем для функции 2. Эти пере-

менные связаны главным образом с функцией 2, что и показывают звездочки.

На рис. 18.2 приведена диаграмма рассеяния всех групп для функций 1 и 2.

Видно, что группа 3 имеет наивысшее значение по функции 1, а группа 1 — самое низкое. По-

скольку функция 1 в первую очередь связана с переменными "доход" и "размер семьи", можно ожи-

дать, что три группы будут ранжированы по этим двум переменным, Большие семьи, имеющие бо-

лее высокие доходы, вероятно, будут тратить большую сумму на отдых. И наоборот, небольшие семьи

с низкими доходами, вероятно, будут тратить небольшие суммы денег на отдых. Эти результаты под-

тверждаются проверкой групповых средних по переменным: доход и размер семьи.

Кроме того, рис. 18.2 показывает, что функция 2 стремится разделить группы 1 (наивысшее

значение) и 2 (наиболее низкое значение). Эта функция главным образом связана с перемен-

ными "путешествие", "отдых" и "возраст". Имея положительную корреляцию этих переменных

с функцией 2 в структурной матрице, мы ожидаем, что значения переменных "путешествие",

"отдых" и "возраст" в группе 1 больше, чем значения тех же переменных в группе 2. Это дейст-

вительно верно для переменных "путешествие1" и "отдых", на что указывают внутригрупповые

средние этих переменных. Если семьи в группе 1 лояльнее относятся к путешествию и придают

По горизонтали: функция 1

По вертикали: функция 2

-8,0 -6,0 -4,0

'Отмечает групповой центр

Рис. 18.3. Территориальная карта

6,0 8,0

704 Часть III. Сбор, подготовка и анализ данных

большее значение семейному отдыху, по сравнению с семьями из группы 2, то почему они тра-

тят на это меньше денег? Возможно, они и хотели бы потратить большую сумму на отдых, но

они не могут сделать этого из-за низких доходов.

Аналогичные выводы получены с помощью территориальной карты, (territorial map), пока-

занной на рис. 18.3.

Территориальная карта (territorial map)

Инструмент для оценки результатов дискриминантного анализа на основе построения диа-

граммы групповой принадлежности каждого случая.

На территориальной карте каждый групповой центроид указан звездочкой. Границы груп-

пы показаны числами в соответствии с номерами групп. Таким образом, центроид группы 1

ограничен цифрами 1; центроид группы 2 — цифрами 2; центроид группы 3 — цифрами 3.

Оценка достоверности дискриминантного анализа

Результаты классификации, полученные на основе анализируемой выборки показывают,

что (9 + 9 +8)/30 = 86,67% случаев классифицировано верно. Если классификационный ана-

лиз выполняют на основе проверочной независимой выборки табл. 18.3, то процент попаданий

немного меньше— 83,3%. Задав три группы равного размера, и исходя только из случайности,

можно ожидать, что коэффициент результативности (процент попаданий) равен 1/3 = 0,333

или 33,3%. Превышение полученного результата над случайным составляет 50%, и это свиде-

тельствует об удовлетворительной достоверности модели [14].

Следующий пример иллюстрирует применение множественного дискриминантного ана-

лиза для нескольких групп.

ПРИМЕР. Дом — там, где нравится пациенту

Для определения отношения людей к четырем системам предоставления медицинских

услуг (медицинское обслуживание на дому, больницы, дома престарелых и амбулаторные

клиники) проведен их опрос по 10 характеристикам обслуживания. Полученные 102 ответа

проанализированы с помощью множественного дискриминантного анализа (табл. 1).

Таблица 1. Нормированные коэффициенты дискриминацией функции

Дискриминантная функция

Переменная 1 2 3

Безопасность - 0,20 - 0,04 0,15

Удобство (близость) 0,08 0,08 0,07

Вероятность медицинских осложнений3 - 0,27 0,10 0,16

Дороговизна (услуги)3 0,30 - 0,28 0,52

Комфортабельность (комфорт) 0,53 0,27 - 0,19

1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 |

Поиск по сайту:

Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.314 сек.)

Главная | О проекте | Полезные cсылки | Контакты | Случайная страница