Теория однофакторного дисперсионного анализа

При сформулированном выше допущении наш «чёрный ящик» выглядит (см. рисунок) очень просто. Здравый смысл и очевидные соображения подсказывают, что для вы-

явления влияния фактора А на величину от-

ИССЛЕДУЕМАЯ СИСТЕМА клика следует несколько раз (например, n раз)

измерить этот отклик при разных уровнях

Фактор А Отклик У фактора А (например, при а1, а2,.. аi, ...,аn),

получив при этом n штук (y1,y2, …..yi… ,yn),

Рис. 7.3 по всей видимости, разных значений отклика.

Очевидно, что каждое yi из этих значений будет определяться реальным средним значением Y(n)Ср = yi и прибавкой к нему ± Δyi, обусловленной влиянием (если такое влияние имеет место) фактора А на данном (аi) уровне, и ошибкой ± έип измерительного прибора.

Фиксируем этот факт математически: yi = YСр ± Δyi ± έ ип.

Далее Y(n)Ср будем обозначать символом Yn, а έ ип – символом έn

Соотношение yi = Yn ± Δyi ± έn равносильно (yi – Yn) = ± Δyi ± έn и говорит о том, что дисперсия σ2 Генеральной совокупности слагается из двух составляющих:

- σέ2 – дисперсии, обусловленной неточностью измерений έn и

- σА2– дисперсии, обусловленной возможным влиянием фактора А.

Аддитивность дисперсии позволяет записать: σ2 = σА2+ σέ2 или σА2= σ2– σέ2.

На базе множества (yi –Yn), где i = 1,2,3… n,

можно сформировать упомянутую выше исправленную выборочную дисперсию

sи2 = [ (yi)2 – ( yi)2], которая является оценкой дисперсии σ2 Генеральной совокупности реальных значений отклика (sи2 ~ σ2), ибо σn2 ≡ σ2). Но это – смешанзная оценка (sи2 ~ σА2+ σέ2) потому, что в ней обе составляющие не разделены. Разделить составляющие этой смешанной оценки, ограничившись только этими n измерениями, невозможно.Предварительно следовало бы найти отдельно оценку s2иέ для дисперсии σέ2 и только потом можно искать σА2 простым вычитанием: s2 – s2иέ. ~ σА2

Для нахождения выборочной оценки s2иέ для дисперсии σέ2 необходимо создать такую выборку {ykj}m из Генеральной совокупности {yij}, в которой разброс значений был бы обусловлен только ошибками измерений. Это мог бы быть, например, набор {ykj}m из m значений отклика, полученных в одинаковых условиях эксперимента, включая и постоянство уровня фактора А (один из столбцов: аi = аk = Const, а j=1,2,3,..,m).

Эта выборзка позволяет вычислить её (выборки) параметры

Yk= ykj и s2иέm = (ykj –Ymk)2.

Однако, найденную на базе такой выборки по соответствующей формуле исправленную выборочную дисперсию s2иέm уже нельзя вычитать из sи2, ибо они не есть слагаемые одной оценки Генеральной дисперсии. Они – параметры разных выборок. Из этого следует, что в ходе эксперимента необходимо получить ещё одну выборку {yij}q – такую, на базе которой можно вычислить и s2иqέ, и sq2 .



Реализовать это можно следующим образом.

Выполнив эксперимент, который был выше представлен первым и предполагал, что ykj = Yk ± Δkj± έkj, и получив m значений отклика, нужно проделать эту же операцию n раз и получить n малых выборок типа{yij}m, где j=1,2,3,..,m, и i=1,2,3,.., n.

Получившаяся новая большая выборка {yij}q – выборка из Генеральной совокупности с объёмом q = nm. то есть для неё теперь Y(nm)Ср ≡ Yq = yij.

В итоге мы можем записать: σq2 = σА 2 + σέ2, где:

- σέ2– дисперсия, обусловленная инструментальной погрешностью, которая не зависит от индекса измеряемого параметра, а σq2 ≡ σ2– общая дисперсия большой Генеральной совокупности {y}, выборочной оценкой для которой теперь будет

sq2 = (Σq):fq= (Σnm):fnm = [ (yij)2 – ( yij)2] =

= [СКq – КЧq]. где: - nm – объём большой выборки и потому выше:

- fq= nm–1 ≡ fnm, - (Σq) = СКnm– КЧnm ≡ СКq– КЧq = (Σnm)

- СКq = (yij)2 ≡ (ynm)2 = СКnm и

- КЧq = ( yij)2 ≡ ( ykm)2 = КЧnm

Общая дисперсия σ2, как и всегда, выглядит составленной из дисперсии σqип2 ≡ σέ2, которая обусловлена только случайными факторами, и дисперсии σА2, которая обусловлена только изменениями уровня фактора А, то есть: σ2= σА2 + σέ2.

Если теперь на базе любой части {ykj)m общей выборки {yij}q, которая получена при одном и том же значении фактора А, то есть на базе малой выборки {ykj)m при i=k, вычислить исправленную выборочную дисперсию s2έm = (ykj–Yk)2 , тоона будет оценкой групповой исправленной дисперсии малой выборки.

Таких оценок здесь будет nштук, и каждая из них будет характеризовать разброс значений отклика, обусловленный внутри своей малой выборки только случайными факторами.



Но n штук малых выборок образуют большую выборку из единой Генеральной совокупности всех возможных значений отклика. В таких случаях математическая статистика позволяет усреднять групповые оценки s2έm, а результат усреднения s2έq – рассматривать в качестве выборочной оценки s2έq дисперсии σέq2≡ σέ2≡ σвэ2, которую ещё называют дисперсией воспроизводимости эксперимента(s2έq ≡ s2вэ~ σέ2).

Итак, s2έq ≡s2вэ = [s2έm], а s2έm = [ (ykj)2 – ( ykj)2].

То есть s2 вэ = [ (ykj)2 – ( ykj)2] =

= [ (ykj)2 – ( ykj)2] = [СКq– КЧq].

Количество степеней свободы дисперсии воспроизводимости f έв= n(m-1).

Особо подчеркнём, что СКq= (ykj)2 = (yij)2, а корректирующий член КЧq “собирает” со всей выборки средние квадраты откликов, вычисленные в каждом столбце. В связи с этим (в столбце фактор А остаётся неизменным) и КЧq можно обозначить КЧqА≡. КЧА– корректирующий член, обусловленный фактором А.

Действительно, КЧq= ( ykj)2 ≡ ( yij)2] = КЧqА ≡. КЧА

Всё это означает, что мы можем переписать выражение для выборочной оценки дисперсии воспроизводимости (повторим, что именно так в теории эксперимента часто называют дисперсию, обусловленную множеством сопровождающих эксперимент случайных факторов, включая ошибки измерений):

s2вэ ≡ s2έq = [СКq – КЧqА] = (Σ вэ):f вэ , где - f вэ= n(m-1),

- (Σέ)q = [СКq – КЧА]

- СКq = (yij)2 и

- КЧА = ( ykj)2.

В этих условиях, в условиях одной большой выборки, где σ2 = σА 2 + σέ2,

а σέ 2 ≡ σ έq, полученные выборочные оценки уже можно комбинировать, то есть выразить: s2 – s2вэ~ σqА2, то есть s2 – s2вэ~ σА 2, гдеs2 ~ σ2, s2вэ ~ σέ2 и

s2 = [СКq – КЧq] , а s2вэ ≡ s2έq = [СКq – КЧА].

- s2 = sq2 = (Σq):fq = (Σ):f при (Σq)≡ (Σ) = [СК – КЧ] и fq ≡ f = nm–1;

- s2вэ≡s2έq= (Σέq):fέq = (Σέ):fέ при (Σ вэ) =[СКq – КЧq] = [СК – КЧА] и f вэ = n(m–1).

Таким образом, составляющие смешанной оценки для σ2 разделены, а

[СКq – КЧq] – [СКq – КЧА]~ σА 2

Но это ещё не вся информация, которую можно извлечь из результатов только что представленного здесь теоретически (мысленного) однофакторного эксперимента, в котором использовалась выборка объёмом q = mхn.

На базе каждой из n введённых в рассмотрение выше малых выборок, кроме представленной выше собственной групповой дисперсии s2έm, можно вычислить групповое среднее значение отклика Ykm = ykj. Таких средних будет n штук, все они будут разными и отличающимися от всеобщего среднего – среднего большой выборки Yq= yij . Это означает, что будут существовать ещё и n штук разностей типа (Ymq–Yq), на базе которых можно вычислить некую (ещё одну) выборочную дисперсию

s2нвыб = (Ymk–Yq)2 = [ (Ymk)2 – ( Yq)2], которая является оценкой (s2нвыб≡ s2мг) межгрупповой дисперсии σмг2 = σА2+ σип2, обусловленной и ожидаемым влиянием фактора А и неизбежным в ходе эксперимента влиянием случайных факторов. В составе этой дисперсии составляющая от случайных ошибок σип = σέ2 – уменьшенная в m раз дисперсия σип ≡ σέ2 (σмг2= σА2+ σέ2) потому, что она входит в левую часть этого соотношения через вычисления группового среднего, при которых

(при вычислениях по формуле Ymk = ykj) такие ошибки усредняются.

При справедливости соотношений:

[ (Ymk)2 – ( Yq)2] ~σмг 2 и σмг 2 = σА2 + σέ2, очевидно, что

S мг ~ σА2 + σέ 2 или [ (Ymk)2 – ( Yq)2] ~ σА2 + σέ 2

Переписав последнее соотношение в несколько ином виде, получаем:

s2 мг = [ (Ymk)2 – ( Yq)2] ~ mσА2 + σέ2 или s2мг ~ mσА2 + σέ2,

откуда следует более точная по сравнению с полученной на предыдущем листе выборочная оценка s2А дисперсии σА2, обусловленной возможным влиянием исследуемого фактора А:

(sмг 2 – sέ2) ~σА 2

Приглядимся более внимательно к выборочной оценке s2мг для σмг 2

s2мг = [ (Ymk) 2 – ( Yq)2]

Во-первых, как обычно, s2 мг = (Σ мг) :f мг) Здесь f мг = n–1, следовательно,

(Σмг) = m [(Ymk)2 – ( Yq)2].

Во-вторых, (Ymk) 2 = ( ykj)2 = [ ( ykj)2]= КЧА.

В-третьих, [(Yq)2 = (Yq)2( 1)2 = n 2(Yq)2 = n ( yij)2 =

=[ ( yij)2] = КЧq ≡ КЧq≡ КЧ.

В итоге имеем:

(Σ мг) = m[ [(Ymk)2 – ( Yq)2] = m{ КЧА – КЧ} = [КЧА– КЧ]

Вспомним теперь ранее полученные соотношения:

(Σq) ≡ (Σ) = [СК – КЧ] и (Σέ) = [СК – КЧА].

Сопоставив их с только что полученным (Σ мг) = [КЧА – КЧ], обнаруживаем:

(Σq) – (Σ έ) = [СК – КЧ – СК+ КЧА] = [КЧА – КЧ] = (Σмг).

Мы, следовательно, выяснили, что после вычисления выборочных оценок дисперсий mσА2 + σέ 2 и σ2 можно непосредственно вычислить остаточную сумму (Σмг), которая потребуется для последующего нахождения выборочной оценки s2вэ дисперсии воспроизводимости σвэ2 и уточнить оценку для σА2.

Всё это означает, что представленный выше теоретически однофакторный эксперимент позволяет найти две (одна из которых уточняет другую) выборочные оценки для дисперсии σА2, обусловленной влиянием фактора А. Следовательно, такой эксперимент способен решить основную задачу дисперсионного анализа – задачу разделения составляющих общей дисперсии, а только что рассмотренные соотношения позволяют выполнить все необходимые вычисления, используя измеренные в ходе опытов значения {ylj} отклика.

Проблему решают три промежуточных интегральных параметра одной и той же выборки СК,КЧ, КЧА.

Планирование эксперимента при однофакторном дисперсионном анализе.

Представленные в предыдущем параграфе теоретические соображения, казалось бы, полностью определяют план эксперимента при однофакторном дисперсионном анализе. Этот план должен выглядеть в форме прямоугольной таблицы (см. таблицы ниже), в

План-матрица однофакторного эксперимента при дисперсионном анализе

Уровни фактора А

Номер опыта a1 a2 a3 Ai an
y11 y21 y31 ….yi1…. yn1
y12 y22 y32 ….yi2…. yn2
y13 y23 y33 ….yi3…. yn3
…. j …. …. y1j…. …. y2…. …. y3j…. …. ….yij…. …. …. ynj ….
m y1m y2m y3m ….yim…. ynm

соответствующие клеточки которой по ходу эксперимента будут вписываться измеренные значения отклика – элементы множества {yij}.

Подготовка план-матрицы представляет собой очень малую (только формализованную в рамках приведённых в предыдущем параграфе теоретических рассуждений) часть планирования эксперимента.

Большую часть планирования составляют операции, связанные с подготовкой объекта эксперимента, средств измерения, с обеспечением необходимых условий проведения опытов и сохранения их неизменными в ходе всего эксперимента, а также с правильным оформлением сопровождающей эксперимент документации (соответствующим образом оформленная методика, журнал регистрации хода и данных опытов, передача смен и т. п.).

Эти аспекты планирования (традиционные и рутинные) здесь не рассматриваются. Более существенными для нас выглядят вопросы технологии обработки данных, которые получают в ходе опытов, и оформления итогов эксперимента в целом. Такие итоги

оформляются в таблицу, макет которой приведён на следующем листе.

Вначале представлены форма и содержание Итоговой таблицы, но не её окончательный вид и не тот вид, в котором она предстанет перед экспериментом.

План эксперимента и Итоговую таблицу (см. следующий лист) целесообразно подготовить заблаговременно в форме единой электронной (например, в Exzele) рабочей таблицы.

Первые слева колонки таблицы (в объёме представленной выше план-матрицы) следует оставить («зарезервировать») для последующего внесения в них (перенос из рабочего журнала после окончания эксперимента) измеренных в опытах значений {yij} отклика. До окончания эксперимента все m строк в n столбцах исходной таблицы будут оставаться незаполненными.

Незаполненными до конца эксперимента будут оставаться третий и пятый столбцы Итоговой таблицы, (её макет представлен ниже), предназначенные для внесения

Макет итоговой таблицы однофакторного эксперимента

Источники дисперсии Матема-тическое ожидание дисперсии Итоговая сумма квадратов дисперсии (Σ) = СК – КЧ Кол-во степеней свободы f дисперсии Выборочная оценка дисперсии
Эксперимент в целом σ2 (Σlj) = СКlj –КЧlj flj = nm-1 (Σlj):(nm-1)
Случайные факторы σέ 2 (Σέ) = СКlj–КЧА fέ= n(m-1) (Σέ):n (m-1)
Исследуемый фактор А mσА2+ σέ 2 (Σнвыб) =КЧА–КЧlj fнвыб = n-1 (Σнвыб):(n -1)

Примечаие: fέ= flj - fАj= nm-1- n+1= n(m-1)

в нихпромежуточных и окончательных результатов обработки экспериментальных данных. Поэтому заготовленная в рамках единой электронной таблицы Итоговая таблица будет выглядеть иначе (См. ниже). В ней заполнены только те колонки, данные для которых уже известны на момент составления плана, – известны из представленного в параграфе 7.1 теоретического анализа, который, конечно же, всегда предшествует эксперименту. Что касается “пустых» клеток таблицы, то они пусты только внешне. На самом деле в них в ходе программирования эксперимента и вносятся (в режиме записи «невидимых» формул) представленные выше на макете соотношения. По этим соотношениям электронная таблица подсчитает и автоматически внесёт в соответствующую клетку таблицы получившийся там результат обработки данных.

Итоговая таблица однофакторного эксперимента

Источник дисперсии Матема-тическое ожидание дисперсии Итоговая сумма квадратов дисперсии (Σ) = [СК – КЧ] Кол-во степеней свободы f дисперсии Выборочная оценкаs2 дисперсии
Эксперимент целиком σ2 flj = nm-1
Случайные факторы σέ 2 fέ= n(m-1)
Исследуемый фактор А mσА2 + σέ 2 fА= n-1
s А2выборочная оценка дисперсии

В нижней правой клетке должна «сработать» формула: sА2 = (sмг 2 – sέq2)

Однако, такой автоматизм следует программно подготовить.

Рассмотрим, что для этого следует предусмотреть в этой же электронной таблице.

В первой сроке третьего столбца Итоговой таблицы, как это показано на её макете, должна находиться итоговая сумм всеобщей дисперсии (Σuj), которая вычисляется по формуле: (Σlj) = [СКlj–КЧlj]. Именно эта формула и должна быть записана в этой, якобы “пустой” ячейке электронной таблицы. Тогда сумма появится в Итоговой таблице автоматически. Но для записи этой формулы в электронную таблицу нужно знать номера двух ячеек этой же электронной таблицы, в которых предварительно заготовлены СКlj и КЧlj . Следовательно, в ходе подготовки плана следует предусмотреть ещё две рабочие ячейки, и в одну из них записать формулу

СКij = yuj2, а в другую – КЧlj= ( yuj)2.

Такие же рассуждения справедливы и относительно формул, которые где-то надо записать, чтобы нужные во второй и третьей строках этого же столбца итоговые формулы

((Σέ) = [СКlj–КЧА] и (Σмг) = [КЧА – КЧlj]) «сработали” соответствующим образом.

Все подобные формулы сложны и громоздки для использования в электронных таблицах. Поэтому на практике следует действовать иначе: вначале “запасаться” промежуточными величинами, которые считаются по относительно простым формулам.

В данном случае поступают следующим образом. В строке электронной таблицы, следующей сразу после план-матрицы (на приведённой ниже таблице план-матрица обведена «жирной» линией, а строка помечена символом Аl) в каждой из n ячеек размещается одна та же формула Аl = ylj, по которой считается сумма всех откликов соответствующего столбца (заметим, что в ячейках одного столбца исследуемый фактор А не изменяется, но вычисляемая сумма будет изменятся вместе с номером столбца и эти изменения будут обусловлены только изменением уровня фактора А, чем и объясняется использование здесь символа Аl). В следующей строке аналогичным образом можно разместить (Аl)2 и далее суммирование всех (Аl)2, а в самой правой ячейке этой же строки можно разместить формулу для вычисления корректирующего члена.

Ниже в рабочей таблице следует продублировать ячейки основной план-матрицы, разместив в каждой из них алгоритм возведения в квадрат значений отклика, измеренного в каждом опыте. Эти квадраты ({yij2}) потребуются в формуле, по которой электронная таблица в (n+2)ой ячейке этой последней строки вычислит и здесь же “запасёт” СКij. Присмотревшись внимательно к дополненной таким образом исходной план-матрице, легко обнаружить, что в ней уже присутствуют не только все промежуточные величины, но и необходимые для вычисления представленных выше трёх итоговых сумм

((Σij), (Σέ) и (Σ мг)) их основные слагаемые КЧij, СКij и КЧА.

Номера именно этих трёх ячеек должны фигурировать в алгоритмах вычислений, которые будут вписываться в якобы «пустые» ячейки третьей колонки Итоговой таблицы эксперимента, подготавливаемой в ходе его планирования.

Подготовка электронной таблицы

для учёта и автоматизированной обработки опытных данных

в ходе эксперимента при однофакторном дисперсионном анализе

n– количество уровней фактора А, m – количество опытов на каждом уровне.

Уровни фактора А

Номер опыта a1 a2 a3 al аn n nm
y11 y21 y31 ….yl1 yn1 -
y12 y22 y32 ….yl2 yn2 - -
y13 y23 y33 ….yi3 yn3 - -
j y1 j y2j y3j .ylj… ynj - -
m y1m y2m y3m ….ylm. ynm - -
Аl y1j y2j y3 .. ylj. ynj ylj КЧlj
(Аl)2 (А1)2 (А2)2 (А2)2 . (Аl)2 (Аn)2 (Аl)2 КЧA
y211 y221 y231 ….y2l1 y2n1 - -
y212 y222 y232 ….y2l2 y2 n 2 - -
y213 y223 y233 ….y2l3 y2n3 - -
… ..j …. …. y21j …. … y22j …. …. y23j …. ….. ….y2l……. ….. y2nj …. - -
m y21m y22m y23m ….y2lm y2nm - -
y2lj y21j y22j y23j y2lj. y2nj - СКlj

Рабочие оценки дисперсии (s2 – s2вэ)~σА 2– грубая оценкаи

(sмг 2 – sέ2) ~σА 2 – уточнённая оценка) должны быть программно проверены на значимость по известным в математической статистике табличным критериям проверки гипотез за пределами Итоговой таблицы.


7167788445872589.html
7167809639273270.html
    PR.RU™