Регрессионный анализ при пассивном и активном факторном эксперименте

Идея регрессионного анализа и метод наименьших квадратов

Постановка задачи регрессионного анализа

Задача регрессионного анализа ставится следующим образом. Для каждого -того опыта имеется набор входных параметров и соответствующее им значение выходного параметра. Таблица опытных данных выглядит следующим образом (см. табл.5.1).

Таблица 5.1. Форма представления опытных данных

Номер опыта Входы Выходы
12

Необходимо определить зависимость выходного параметра от входных факторов , которая, для случая линейной связи, может иметь следующий вид:

        (5.17)
Задача сводится к тому, чтобы при измеренных во время опытов значениях входных переменных и выходной переменной определить оценки коэффициентов уравнения регрессии, которые с определенной степенью вероятности будут отражать влияние аргументов на .

Определение коэффициентов уравнения регрессии

Применение метод наименьших квадратов

Для определения этих коэффициентов широко используется метод наименьших квадратов, идея которого заключается в следующем.

Обозначим через расчетное значение выходной величины, полученное по уравнению регрессии (5.17), а под будем понимать фактическое значение выходной переменной, измеренной в-том опыте.

Задача сводится к минимизации суммы квадратов отклонений от следующего вида:

        (5.18)
где – число опытов.

Подставив в это выражение значение из (163), получаем

        (5.19)
То есть процесс сводится к нахождению таких значений коэффициентов которые давали бы минимальное расхождение между расчетными и измеренными в опыте значениями выходного параметра .

Это условие может быть выполнено, если приравнять к нулю частные производные выражения (5.19) по каждому из коэффициентов и решить совместно полученную при этом систему так называемых определяющих уравнений вида

        (5.20)
которые после дифференцирования превращаются в нормальную система линейных уравнений, например, для случая зависимости от двух входных переменных, центрированных относительно средних, имеющую вид:

        (5.21)
Искомые коэффициенты и могут быть получены в результате совместного решения этой системы уравнений. Исходные данные, необходимые для определения коэффициентов уравнения регрессии (табл. 5.1) могут быть получены двумя путями.

  1. В результате пассивного наблюдения за процессом или явлением.
  2. Путем постановки активного, заранее спланированного эксперимента.

Графическое представление метода Гаусса – Зайделя (Г) и факторного эксперимента (Ф)

Рис. 5.2 Графическое представление метода Гаусса – Зайделя (Г) и факторного эксперимента (Ф)

Остановимся кратко на каждом из этих подходов.

Первый подход

В первом случае данные для табл. 5.1 получают путем наблюдения и регистрации в некоторых моментах времени значений входных и выходных переменных. Однако, даже при пассивном наблюдении или, так называемом, пассивном эксперименте, требуется составить определенный план сбора исходных данных, выбрать наиболее существенно влияющие факторы, оценить интервал времени, через который нужно снимать показания приборов, и т. д. Но наиболее характерной особенностью такого подхода является отсутствие какого-либо вмешательства в процесс, что имеет ряд преимуществ, как с точки зрения простоты реализации, так и с точки зрения возможности исключения аварийных ситуаций на объекте.

Однако, этот способ получения экспериментальных данных страдает целым рядом крупных недостатков, которые связаны прежде всего с тем, что метод наименьших квадратов, положенный в основу определения коэффициентов уравнения регрессии, может дать раздельные несмещенные (достоверные) оценки коэффициентовлишь при соблюдении определенных предпосылок (допущений), которые часто трудновыполнимы.

Главнейшими из них являются следующие:

  1. входные величины (теоретически неслучайные) должны измеряться с точностью значительно превышающей точность измерения выходной величины ;
  2. входные величины не должны быть коррелированны, т. е. статистически связаны между собой. Это условие весьма трудно соблюсти на практике. Например, из соображений управления процессом часто требуется одновременно согласованное изменение нескольких управляющих воздействий;
  3. выходной параметр есть случайная величина, подчиняющаяся нормальному закону распределения;
  4. рассеяние ( дисперсия) выходного параметра не зависит от его абсолютной величины (условие равноточности опытов).

Кроме того, некоторые из выходных переменных в течение всего периода наблюдения могут колебаться в очень узких пределах, вследствие чего коэффициенты при этих переменных, как правило, оказываются незначимыми, в то время как фактически, исходя из физических соображений, этот параметр в определенных условиях оказывает существенное влияние на выходную переменную .

При таком подходе очень сложно решается задача введения в уравнение регрессии новых переменных и отбраковка незначимых, так как в этом случае требуется заново строить и решать системаопределяющих уравнений (5.20) и вытекающую из нее систему линейных уравнений типа (5.21).

Этих недостатков можно в значительной мере избежать, если специальным образом спланировать эксперимент и поддерживать входные переменные на определенных фиксированных уровнях.

Второй подход

Второй подход ориентирован на активный спланированный эксперимент. Можно выделить две его разновидности: однофакторный и многофакторный эксперимент. В первом случае применяют поочередное варьирование одной из переменных, оставляя остальные на постоянных уровнях. Это так называемый метод Гаусса – Зайделя, при котором требуется проведение большого числа опытов, что, однако, не позволяет определить эффекты парных взаимодействий и не гарантирует при решении задачи поиска оптимума достижения истинного экстремума, так как процедура поиска может остановиться уже при попадании на гребень мысленного “холма”, если под ординатами поверхности этого “холма” понимать выходную величину у, что можно видеть на рис.5.2.

Эффективность метода

Более эффективным является активный факторный (точнее многофакторный) эксперимент, при котором в каждом опыте производится варьирование всеми переменными по определенному плану, что позволяет существенно сократить число опытов и на основе описания локального участка поверхности выбрать направление крутого восхождения, в результате нескольких этапов которого может быть достигнута окрестность оптимума с минимальными затратами времени и средств.

Активный факторный эксперимент

Определение уравнения регрессии

Остановимся более подробно на этом подходе [31] . Для определения уравнения регрессии линейного вида (5.17), входные переменные, которые будем называть в дальнейшем варьируемыми факторами, поддерживаются в этом случае на двух заранее выбранных фиксированных уровнях. Верхний уровень кодируется через +1, нижнийкодируется через +1, нижний через -1. Соотношение между натуральными и кодированными переменными имеет вид

,
где

  • – натуральная переменная;
  • – кодированная переменная, принимающая значения +1 или -1;
  • – средний (нулевой) уровень, около которого осуществляется варьирование;
  • – интервал (шаг) варьирования по отношению к .

Число опытов определяется из соотношения

,
где– число варьируемых факторов.

Следовательно, при двух факторах минимальное число опытов (без повторения) равно 4, при трех факторах 8 и т. д. Матрицы планирования для этих случаев приведены соответственно в табл. 5.2 и 5.3

Таблица 5.2. Матрица планирования эксперимента типа

Номер опыта Номер опыта
1 -1 -1 3 -1 +1
2 +1 -1 4 +1 +1

Таблица 5.3. Матрица планирования эксперимента типа

Номер опыта Номер опыта
1 -1 -1 -1 5 -1 -1 +1
2 +1 -1 -1 6 +1 -1 +1
3 -1 +1 -1 7 -1 +1 +1
4 +1 +1 -1 8 +1 +1 +1

Как легко заметить, матрица так называемого полного факторного эксперимента (ПФЭ) строится по принципу – ни одной повторяющейся комбинации уровней факторов. Для того, чтобы для любого числа факторов строить матрицы целенаправленно, а не путем простого перебора, можно воспользоваться следующим правилом. Например, как видно из сравнения табл. 5.2 и 5.3, матрица эксперимента получается путем повторения матрицы эксперимента при нижнем (-1), а затем при верхнем (+1) значении нового фактора Можно привести еще более простое правило. Уровни факторов для первой переменной варьируют в каждой следующей ситуации, для второго фактора в два раза реже, для третьего еще в два раза реже, то есть через четыре опыта на пятый и т. д. Таким образом, при введении каждого нового фактора число опытов удваивается и при возрастании числа независимых переменных может стать довольно большим. Так, например, уже при шести факторах для осуществления ПФЭ требуется 64 опыта.

ДЭФ

Для сокращения числа опытов часто используют дробный факторный эксперимент (ДФЭ), основная идея которого заключается в том, что, если из каких-либо соображений можно пренебречь необходимостью определения коэффициентов при некоторых факторах или их взаимодействиях, то реализуется не вся матрица ПФЭ, а, например половинная, четвертая, восьмая и т. д. часть полной матрицы.

Интересно отметить, что при полном факторном эксперименте имеется возможность определить коэффициенты не только для уравнения регрессии линейного вида (5.17)

,
но и для уравнения, отражающего взаимодействия факторов, например

        (5.22)
в случае эксперимента или

        (5.23)
для эксперимента и аналогично для большего числа факторов.

Матрицы планирования при этом дополняются столбцами произведений (взаимодействий) факторов и приобретают вид (табл. 5.4 и 5.5)

Таблица 5.4. Матрица планирования эксперимента типа со столбцом взаимодействия

Номер опыта Номер опыта
1 -1 -1 +1 3 -1 +1 -1
2 +1 -1 -1 4 +1 +1 +1

Таблица 5.5. Матрица планирования эксперимента типа со столбцами взаимодействий

Номер опыта
1 -1 -1 -1 +1 +1 +1 -1
2 +1 -1 -1 -1 +1 +1
3 -1 +1 -1 -1 +1 -1 +1
4 +1 +1 -1 +1 -1 -1 -1
5 -1 -1 +1 +1 -1 -1 +1
6 +1 -1 +1 -1 +1 -1 -1
7 -1 +1 +1 -1 -1 +1 -1
8 +1 +1 +1 +1 +1 +1 +1

Значения кодированных переменных в столбцах произведений получаются путем перемножения соответствующих переменных, например, для произведения перемножаются переменные в соответствующих строках (вариантах опытов) столбцов и и т. д.

При большом числе факторов (более трех) полный факторный эксперимент обладает значительной избыточностью опытов, так как коэффициенты при некоторых взаимодействиях (особенно при тройных и более высоких произведениях) не имеют физического смысла и являются незначительными. Если для описания какого-либо локального участка поверхности отклика можно ограничиться уравнением линейного вида, то число необходимых опытов может быть существенно сокращено. Для этой цели используется ДФЭ. Если реализуется половинная матрица, эксперимент обозначается , а далее соответственно, и т. д. При этом вместо взаимодействия, которым можно пренебречь, вводится новый фактор, уровни которого во время эксперимента поддерживаются в соответствии со значениями кодированных переменных столбца произведения, которое заменяется новым фактором. Например, если в матрице ПФЭ типа (см. табл. 5.4) можно пренебречь первым взаимодействием и принять , то план эксперимента, состоящего из четырех опытов, окажется достаточным для определения уравнения, описывающего линейную зависимость от трех факторов,

Реализация матрицы планирования

При реализации ПФЭ потребовалось бы провести восемь опытов, половина которых для решения поставленной задачи являлась бы избыточной. Следует, однако, заметить, что при реализации ДФЭ оценки коэффициентов при линейных членах оказываются смешанными с эффектами взаимодействия, которыми пренебрегают.

Прежде чем приступить к реализации матрицы планирования необходимо выбрать для каждого фактора опорный уровень и интервал варьирования , что позволит определить нижнее и верхнее значение уровня каждой из всех варьируемых переменных.

После того, как составлена матрица планирования и выбраны уровни варьирования факторов можно перейти к постановке опытов, в каждом из которых должна быть реализована одна из строк матрицы. При этом, как уже указывалось выше, кодированному значению переменной (-1) соответствует нижний уровень варьируемого фактора, а значению (+1) – верхний уровень.

Устранение систематических ошибок

Для устранения предвзятости или субъективизма исследователя, а также систематических ошибок, связанных, например, с разогревом или охлаждением агрегатов и приборов во время эксперимента, старением катализатора, опыты проводятся не в очередности, соответствующей их порядковому номеру в матрице планирования, а в случайном порядке, называемом порядком рандомизации. Порядок рандомизации может быть, например, разыгран путем вытаскивания номеров опытов из урны.

В результате реализации на объекте каждого из опытов заполняется последний столбец матрицы, т. е. записываются значения выходной величины , полученные при проведении соответствующих вариантных опытов (строк матрицы).

Как правило, каждый из вариантов опытов затем повторяется. Число повторений зависит от конкретных условий проведения опытов, но в конечном итоге определяется по степени расхождения результатов для одних и тех же вариантов опыта, т. е. по степени разброса выходной величины в каждой из строк матрицы.

Расчет коэффициентов уравнения регрессии

После реализации опытов в соответствии с матрицей планирования и проверки воспроизводимости можно приступить к расчету коэффициентов уравнения регрессии. Благодаря переходу к кодированным переменным, которые принимают лишь два значения (-1) (+1), и специальному планированию экспериментов автоматически выполняется весьма важное условие статистической независимости варьируемых факторов (условие ортогональности)

,

т. е. выполняется одна из важнейших предпосылок регрессионного анализа (см. выше). Вследствие этого коэффициенты уравнения регрессии определяются раздельно, независимо друг от друга и по очень простой формуле.

Например, коэффициент при -том факторе

        (5.24)
где

  • – число вариантов опытов в матрице планирования;
  • – значение кодированной переменной в -той строке, -того столбца, равное либо (-1), либо (+1);
  • – среднее значение выхода для -того варианта опыта (строки).

Отсюда видно, что расчет коэффициента сводится к простому алгебраическому суммированию построчных средних значений выходов со знаками столбца, соответствующего данному фактору, и делению на число вариантов опытов. Например, коэффициент при переменной для уравнения (168) с использованием табл. 4 определяется следующим образом:

Почти аналогично и независимо от линейных членов определяются коэффициенты при взаимодействиях

          (5.25)
т.е. необходимо сложить построчные средние значения выхода с учетом знаков соответствующего столбца произведения. Например, для произведения в табл. 5.4

Коэффициент по физическому смыслу соответствует опыту с поддержанием всех варьируемых факторов на средних (опорных) уровнях

          (5.26)
т. е.

Эффективность метода

Более подробно обработка результатов экспериментов и статистический анализ уравнения регрессии рассмотрены на примере. Прежде чем перейти к нему необходимо заметить, что, несмотря на всю заманчивость и большие преимущества активного спланированного эксперимента перед пассивным наблюдением, в его применении имеется целый ряд трудностей, связанных с определенными ограничениями на его реализацию.

Важнейшим условием применимости этого подхода является управляемость процесса по каждому из варьируемых факторов, т.е. возможность независимого изменения каждого из этих факторов и поддержания его на заданном уровне в период проведения опыта.

Пример активного факторного эксперимента

Цель эксперимента

Целью эксперимента является определение зависимости скорости нагрева металла в мартеновской печи от величины абсолютного избытка воздуха и тепловой нагрузкив период чистого кипения.

Выбор уровней варьирования факторов

Выбираем уровни варьирования факторов из соображений возможности реализации опытов в пределах технологических ограничений и получения значимых эффектов, превышающих ошибки эксперимента (табл. 5.6).

Таблица 5.6. Уровни варьирования факторов

Уровни Факторы Уровни Факторы
Основной…Нижний… Верхний…Интервалварьирования…

Матрица планирования

Составляем матрицу планирования и карту проведения эксперимента (табл. 5.7).

Таблица 5.7. Карта проведения эксперимента

Номер опыта Порядок реализации опытов по рандомизации (две серии) Матрица планирования Выход у, оС/ч
1 2; 3 -1 -1 +1 61 87 74,0
2 3; 1 +1 -1 -1 53 45 49,0
3 4; 4 -1 +1 -1 67 77 72,0
4 1; 2 +1 +1 +1 97 89 93,0

Проведение эксперимента

После составления матрицы планирования проводится эксперимент на выбранном объекте исследования (лабораторном или промышленном). Опыты проводятся в случайном порядке в соответствии с принципом рандомизации. В нашем случае в первой серии опытов на мартеновской печи первым был реализован опыт с порядковым номером 4, в котором избыток воздуха и тепловая нагрузка поддерживались на верхних уровнях, при этом получена скорость нагрева 97°С/ч, вторым реализован опыт номер 1, в котором оба фактора иподдерживались на нижних уровнях, а скорость нагрева оказалась равной 60°С/ч, и т.д.

Таким образом, после проведения двух серий опытов (в каждой по четыре опыта с неповторяющимися комбинациями уровней факторов) оказались заполненными столбцы значений выхода и .

Обработка и статистический анализ результатов

Теперь есть все необходимое для обработки и статистического анализа результатов эксперимента.

Рассчитывают построчные средние

        (5.27)
где– число повторных опытов:

Результаты расчета заносят в столбец карты проведения эксперимента (см. табл. 5.7).

Определяют построчные дисперсии (дисперсии воспроизводимости)

        (5.28)
 

;

, , .

Сумма построчных дисперсий:

        (5.29)
Проверяют воспроизводимость опытов по критерию Кохрена

        (5.30)
где– максимальная из построчных дисперсий. Опыты равноточны, если , где– табличное значение критерия Кохрена, выбираемое в зависимости от, и уровня значимости (надежности). Для данного случая при , ,табличное значение , т. е.. В случае неравноточности опытов необходимо увеличить число повторных экспериментов или повысить их точность.

Определяют коэффициенты уравнения регрессии по формулам (5.24), (5.76)

;

;

;

;

Проверяют значимость коэффициентов регрессии.

Для этого определяют дисперсию эксперимента

        (5.31)
а также усредненную дисперсию эксперимента с учетом повторных опытов

        (5.32)
Определяют дисперсию и среднюю квадратическую ошибку коэффициентов регрессии и

        (5.33)
Находят значение доверительного интервала для коэффициентов регрессии

        (5.34)
где – табличное значение критерия Стьюдента, выбираемое в зависимости от числа степеней свободы и выбранного уровня значимости (обычно 0,05).

Коэффициент значим, если его абсолютное значение больше доверительного интервала, т. е. коэффициент должен быть больше ошибки его определения, взятой с определенным запасом.

В данном примере при значение критерия Стьюдента =2,78. Значение доверительного интервала.

Сравнивают полученные коэффициенты с доверительным интервалом

Значим Значим
Незначим Значим

Таким образом, один из коэффициентов регрессии оказался незначим и, следовательно, окончательно уравнение регрессииется в виде

При необходимости перехода от кодированных переменных к натуральным следует подставить в полученное уравнение соответствующие соотношения связи между этими переменными.

Проверяют адекватность (пригодность) модели, т. е. насколько хорошо полученное уравнение описывает результаты эксперимента в исследуемой области.

Для этого чаще всего применяют критерий Фишера .

       (5.35)
где

        (5.36)
где

  • – рассчитанные по полученному уравнению значения выхода при значениях кодированных переменных, соответствующих каждой из строк матрицы планирования;
  • – усредненное значение выхода (параметра оптимизации), полученное при реализации повторных опытов для соответствующей строки (комбинации значений факторов матрицы планирования).

Выводы об адекватности модели

Модель можно считать адекватной, если . Табличное значение критерия Фишера находят в зависимости от числа степеней свободы и , которые численно равны знаменателям соответствующих дисперсий и , и уровня значимости (чаще всего 0,05).

где

  • – число вариантов опытов (строк) в матрице планирования;
  • – число варьируемых факторов;
  • – число повторных (параллельных) опытов.

В данном примере для определения вычислим сначала значения выхода, предсказываемые полученным выше уравнением регрессии:

Для удобства расчетов рядом сопоставлены усредненные опытные значения для тех же условий. В результате имеем

Ранее получено значение .

Вычисляем значение критерия Фишера

;

при ;

.

; т. е. имеются основания сделать вывод об адекватности полученной модели.

Полный или дробный факторный эксперимент может использоваться для решения задач оптимизации и интерполяции.

Определение оптимальных условий.

Иллюстрация движения к оптимуму методом крутого восхождения

Рис. 5.3 Иллюстрация движения к оптимуму методом крутого восхождения

Задача оптимизации часто решается с использованием метода крутого восхождения (метод Бокса– Уилсона), в основе которого лежит шаговый принцип достижения оптимума с движением на каждом шаге в направлении наибольшего возрастания градиента. На первом этапе локальные области, далекие от оптимума (например, окрестность точки на рис. 5.2), описываются по результатам факторного эксперимента (точки 1 – 4) линейным уравнением регрессии вида (5.17), на основе которого определяется направление движения по градиенту

        (5.37)
где , – единичные векторы в направлении координатных осей.

Практически направление движения зависит от знаков и величин коэффициентов уравнения регрессии. Так как при этой процедуреуравнение регрессии меняется для прогнозирования параметра оптимизации за пределами области его определения, то для проверки соответствия предсказанное таким образом значение мысленный опыт) сравнивается с фактическим знанием , в связи с чем в определенных точках факторного пространства реализуются проверочные опыты (точки 5 и 6 на рис. 5.2).

Более наглядно этот процесс показан на рис. 5.3, который можно рассматривать как сечение изображенной на рис. 5.2 поверхности отклика по линии (нумерация точек на рис. 5.3, кроме точек 5 и 6, не совпадает с рис. 5.2). Здесь можно видеть, что в точке 4 результаты реализованного и мысленного опыта (предсказание по уровню плоскости I-I, полученному по результатам первой серии опытов ПФЭ) существенно расходятся. Принимается решение в окрестности точки 4 поставить новую серию опытов ПФЭ, по результатам которой находится уравнение плоскости II-II (в частном случае уравнение прямой линии) и движение к оптимуму продолжается.

В области, близкой к оптимуму, когда линейная аппроксимация поверхности отклика становится неадекватной, может быть поставлена задача описания участка поверхности, близкого к оптимуму с заданной точностью при минимальном числе опытов (задача, относящаяся к классу интерполяционных). Из-за значительной кривизны поверхности в области оптимума, как правило, требуется повышать порядок полинома. Чаще всего ограничиваются алгебраическим полиномом второго порядка вида

       (5.38)
для чего, естественно, необходимо использование более сложных, чем ПФЭ, планов эксперимента. Наиболее известными из них являются центральное композиционное, рототабельное и -оптимальное планирование.

Материалы по теме

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *