Letysite.ru

IT Новости с интернет пространства
3 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Анализ данных регрессия в excel 2020

Использование Пакета анализа EXCEL для построения множественной линейной регрессионной модели

Проведем множественный регрессионный анализ с помощью надстройки MS EXCEL Пакет анализа .

Эффективно использовать надстройку Пакет анализа могут только пользователи знакомые с теорией множественного регрессионного анализа .

В данной статье решены следующие задачи:

  • Показано как в MS EXCEL выполнить регрессионный анализ с помощью надстройки Пакет анализа (инструмент Регрессия), т.е. как вызвать надстройку и правильно заполнить входные данные;
  • Даны пояснения по разделам отчета, формированного надстройкой;
  • Даны комментарии обо всех показателях, рассчитанных надстройкой, и приведены ссылки на соответствующие разделы статей, посвященные простой линейной регрессии .

В надстройке Пакет анализа для построения линейной регрессионной модели (как простой , так и множественной ) имеется специальный инструмент Регрессия .

После выбора этого инструмента откроется окно, в котором требуется заполнить следующие поля (см. файл примера лист Надстройка ):

  • Входной интервалY : ссылка на массив значений переменной Y. Ссылку можно указать с заголовком. В этом случае, при выводе результатов надстройка использует Ваш заголовок (для этого в окне требуется установить галочку Метки );
  • Входной интервал Х : ссылка на значения переменных Х (нужно указать все столбцы со значениями Х). Ссылку рекомендуется делать на диапазон с заголовками (в окне не забудьте установить галочку Метки );
  • Константа-ноль : если галочка установлена, то надстройка подбирает плоскость регрессии с b =0;
  • Уровень надежности : Это значение используется для построения доверительных интервалов для наклона и сдвига . Уровень надежности = 1- альфа . Если галочка не установлена или установлена, но уровень значимости = 95%, то надстройка все равно рассчитывает границы доверительных интервалов, причем дублирует их. Если галочка установлена, а уровень надежности отличен от 95%, то рассчитываются 2 доверительных интервала : один для 95%, другой для введенного значения. Для демонстрации вышесказанного введем 90%;
  • Выходной интервал: диапазон ячеек, куда будут помещены результаты вычислений. Достаточно указать левую верхнюю ячейку этого диапазона;
  • Остатки : будут вычислены остатки модели , т.е. разница между наблюденными и предсказанными значениями Yi для всех наблюдений n;
  • Стандартизированные остатки : Вышеуказанные значения остатков будут поделены на значение их стандартного отклонения ;
  • График остатков : Для каждой переменной X j будет построена точечная диаграмма : значения остатков и соответствующее значение Х ji (при прогнозировании на основании значений 2-х переменных Х будет построено 2 диаграммы (j=1 и 2));
  • График подбора: Для каждой переменной X j будут построены точечные диаграммы с двумя рядами данных : точки данных (X ji ;Y i ) и (X ji ;Y iпредсказанное );
  • График нормальной вероятности: Будет построена точечная диаграмма с названием График нормального распределения . По сути — это график значений переменной Y, отсортированных по возрастанию .

В результате вычислений будет заполнен указанный Выходной интервал.

Тот же результат можно получить с помощью формул (см. файл примера лист Надстройка , столбцы I:T).

Результаты вычислений, выполненных надстройкой, полностью совпадают с вычислениями сделанными нами в статье про множественную линейную регрессию с помощью функций ЛИНЕЙН() , ТЕНДЕНЦИЯ() и др. Использование альтернативных формул помогает разобраться с алгоритмом расчета показателей регрессии.

Отчет, сформированный надстройкой, состоит из следующих разделов:

Раздел «Регрессионная статистика»:

  • Множественный R. В случае множественной линейной регрессии — это квадратный корень из коэффициента детерминации R 2
  • R-квадрат . В случае множественной линейной регрессии – это коэффициент детерминации R 2
  • Нормированный R-квадрат . Подробнее см. здесь (англ. термин Adjusted R-squared)
  • Стандартная ошибка . Подробнее см. здесь ;
  • Наблюдения . Количество значений Y.

Раздел «Дисперсионный анализ»:

  • df – степени свободы (Degrees of Freedom).
  • SS – сумма квадратов (Sum of Squares)
  • MS – SS/df (MSR и MSE)
  • F – значение статистики F (MSR/MSE)
  • ЗначимостьF – p-значение, функция F.РАСП.ПХ()

Регрессионный анализ данных в Excel

Регрессионный анализ – это набор статистических методов, позволяющих изучить влияние одной или нескольких независимых переменных на зависимую. Давайте разберемся, каким образом можно выполнить данный анализ в программе Excel.

Включение функции анализа в программе

Для начала нужно активировать функцию программы, с помощью которой мы будем проводить анализ. Для этого делаем следующее:

  1. Открываем меню “Файл”.
  2. Щелкаем по пункту “Параметры”.
  3. В нижней части содержимого подраздела “Надстройки” выбираем значение “Надстройки Excel” для параметра “Управление”, после чего кликаем “Перейти”.
  4. В окне управления надстройками выбираем “Пакет анализа” и щелкаем OK.
  5. Переходим во вкладку “Данные”, чтобы проверить, появилась ли функция “Анализ данных” в группе инструментов “Анализ”.

Линейный регрессионный анализ

Выделяют несколько разновидностей регрессий: линейная, гиперболическая, множественная, логарифмически линейная, нелинейная, обратная, парная.

В рамках данной статьи мы рассмотрим линейную регрессию. В общем виде ее функция выглядит так:

В данном уравнении:

  • Y – переменная, влияние на которую нужно найти;
  • X – факторы, влияющие на переменную;
  • A – коэффициенты регрессии, определяющие значимости факторов;
  • N – общее количество факторов.

Чтобы было понятнее, давайте разберем конкретный практический пример. Допустим, у нас есть таблица, в которой представлена информация по среднесуточной температуре и количеству осадков с разбивкой по месяцам.

Наша задача – выяснить, как температура влияет на осадки. Приступи к ее выполнению.

  1. Щелкаем по кнопке “Анализ данных”.
  2. В открывшемся окошке отмечаем пункт “Регрессия”, после чего щелкаем OK.
  3. Перед нами появится окно, в котором нужно настроить параметры регрессии:
    • в поле “Входной интервал_Y” пишем координаты диапазона ячеек, в которых находятся переменные, влияние на которые нам нужно выяснить. У нас это столбец “Количество осадков, мм”. Координаты диапазона можно указать как вручную, используя клавиши на клавиатуре, так и выделив его в самой таблице с помощью зажатой левой кнопки мыши.
    • в поле “Входной интервал_X” указываем координаты диапазона ячеек с данными, влияние которых нам нужно найти. В нашем случае – это столбец “Среднесуточная температура”.
    • Остальные параметры не являются обязательными и, чаще всего, остаются незаполненными. У нас есть возможность установить метки, значения уровня надежности в процентах, константу-ноль, график нормальной вероятности и т.д. Пожалуй, самым важным здесь является способ вывода результатов анализа. Доступны следующие варианты: на новом листе (по умолчанию), в новой книге или в указанном диапазоне на этом же листе. Мы оставим все как есть и жмем кнопку OK.

Анализ полученных результатов

После корректного заполнения всех параметров и нажатия кнопки OK отобразятся результаты анализа (в зависимости от выбранного способа). В нашем случае – на отдельном листе.

Читать еще:  Разность ячеек в excel формула

Ключевым показателем здесь является R-квадрат (коэффициент детерминации), значение которого характеризует качество модели. Приемлемым считается значение не менее 0,5 (или 50%).

Также следует обратить внимание на ячейку, расположенную на пересечении строки “Y-пересечение” и столбца “Коэффициенты”. Здесь показывается, каким будет значение Y (количество осадков), если все остальные факторы будут равны нулю.

Ячейка на пересечении строки “Переменная X 1” и столбца “Коэффициенты” содержит значение, характеризующее степень зависимости Y от X. Коэф. 0,89 в нашем случае говорит о достаточно сильной связи между переменными.

Заключение

Регрессионный анализ – сложная и трудоемкая задача, которая требует определенных математических и статистических знаний. Но с помощью стандартных инструментов Эксель ее выполнение можно значительно облегчить.

Эконометрика. Линейная Регрессия в MS Excel

На мой взгляд, как студента, эконометрика – это одна из самых прикладных наук из всех, с которыми мне удалось познакомиться в стенах своего университета. С помощью неё, действительно, можно решать задачи прикладного характера в масштабах предприятия. Насколько эффективными будут эти решения – вопрос третий. Суть в том, что большая часть знаний так и останется теорией, а вот эконометрика и регрессионный анализ всё-таки стоит изучить с особым вниманием.

Что объясняет регрессия?

Прежде, чем мы приступим к рассмотрению функций MS Excel, позволяющих, решать данные задачи, хотелось бы вам на пальцах объяснить, что, в сущности, предполагает регрессионный анализ. Так вам проще будет сдавать экзамен, а самое главное, интересней изучать предмет.

Будем надеяться, вы знакомы с понятием функции из математики. Функция – это взаимосвязь двух переменных. При изменении одной переменной что-то происходит с другой. Изменяем X, меняется и Y, соответственно. Функциями описываются различные законы. Зная функцию, мы можем подставлять произвольные значения X и смотреть на то, как при этом изменится Y.

Это имеет большое значение, поскольку регрессия – это попытка объяснить с помощью определённой функции на первый взгляд бессистемные и хаотичные процессы. Так, например, можно выявить взаимосвязь курса доллара и безработицы в России.

Если данную закономерность обнаружить удастся, то по полученной нами в ходе расчетов функции, мы сможем составить прогноз, какой будет уровень безработицы при N-ом курсе доллара по отношению к рублю.
Данная взаимосвязь будет называться корреляцией. Регрессионный анализ предполагает расчет коэффициента корреляции, который объяснит тесноту связи между рассматриваемыми нами переменными (курсом доллара и числом рабочих мест).

Данный коэффициент может быть положительным и отрицательным. Его значения находятся в пределах от -1 до 1. Соответственно, мы может наблюдать высокую отрицательную или положительную корреляцию. Если она положительная, то за увеличением курса доллара последует и появление новых рабочих мест. Если она отрицательная, значит, за увеличением курса, последует уменьшение рабочих мест.

Регрессия бывает нескольких видов. Она может быть линейной, параболической, степенной, экспоненциальной и т.д. Выбор модели мы делаем в зависимости от того, какая регрессия будет соответствовать конкретно нашему случаю, какая модель будет максимально близка к нашей корреляции. Рассмотрим это на примере задачи и решим её в MS Excel.

Линейная регрессия в MS Excel

Для решения задач линейной регрессии вам понадобится функционал «Анализ данных». Он может быть не включен у вас поэтому его нужно активировать.

  • Жмём на кнопку «Файл»;
  • Выбираем пункт «Параметры»;
  • Жмём по предпоследней вкладке «Надстройки» с левой стороны;

  • Снизу увидим Надпись «Управление» и кнопку «Перейти». Жмём по ней;
  • Ставим галочку на «Пакет анализа»;
  • Жмём «ок».

Пример задачи

Функция пакетного анализа активирована. Решим следующую задачу. У нас есть выборка данных за несколько лет о числе ЧП на территории предприятия и количестве трудоустроенных работников. Нам необходимо выявить взаимосвязь между этими двумя переменными. Есть объясняющая переменная X – это число рабочих и объясняемая переменная – Y – это число чрезвычайных происшествий. Распределим исходные данные в два столбца.

Перейдём во вкладку «данные» и выберем «Анализ данных»

В появившемся списке выбираем «Регрессия». Во входных интервалах Y и X выбираем соответствующие значения.

Нажимаем «Ок». Анализ произведён, и в новом листе мы увидим результаты.

Наиболее существенные для нас значения отмечены на рисунке ниже.

Множественный R – это коэффициент детерминации. Он имеет сложную формулу расчета и показывает, насколько можно доверять нашему коэффициенту корреляции. Соответственно, чем больше это значение, тем больше доверия, тем удачнее наша модель в целом.

Читать еще:  Объединение ячеек в таблице excel

Y-пересечение и Пересечение X1 – это коэффициенты нашей регрессии. Как уже было сказано, регрессия – это функция, и у неё есть определённые коэффициенты. Таким образом, наша функция будет иметь вид: Y = 0,64*X-2,84.

Что нам это даёт? Это даёт нам возможность составить прогноз. Допустим, мы хотим нанять на предприятие 25 работников и нам нужно примерно представить, каким при этом будет количество чрезвычайных происшествий. Подставляем в нашу функцию данное значение и получаем результат Y = 0,64 * 25 – 2,84. Примерно 13 ЧП у нас будет происходить.

Посмотрим, как это работает. Взгляните на рисунок ниже. В полученную нами функцию подставлены фактические значения по вовлеченным работникам. Посмотрите, как близки значения к реальным игрекам.

Вы так же можете построить поле корреляции, выделив область игреков и иксов, нажав на вкладку «вставку» и выбрав точечную диаграмму.

Точки идут вразброс, но в целом двигаются вверх, как будто посередине лежит прямая линия. И эту линию вы так же можете добавить, перейдя во вкладку «Макет» в MS Excel и выбрав пункт «Линия тренда»

Щелкните дважды по появившейся линии и увидите то, о чем говорилось ранее. Вы можете изменять тип регрессии в зависимости от того, как выглядит ваше поле корреляции.

Возможно, вам покажется, что точки рисуют параболу, а не прямую линию и вам целесообразней выбрать другой тип регрессии.

Заключение

Будем надеяться, что данная статья дала вам большее понимание о том, что такое регрессионный анализ и для чего он нужен. Всё это имеет большое прикладное значение.

Exceltip

Блог о программе Microsoft Excel: приемы, хитрости, секреты, трюки

Как рассчитать регрессию в Excel

Метод линейной регрессии позволяет нам описывать прямую линию, максимально соответствующую ряду упорядоченных пар (x, y). Уравнение для прямой линии, известное как линейное уравнение, представлено ниже:

ŷ — ожидаемое значение у при заданном значении х,

x — независимая переменная,

a — отрезок на оси y для прямой линии,

b — наклон прямой линии.

На рисунке ниже это понятие представлено графически:

На рисунке выше показана линия, описанная уравнением ŷ =2+0.5х. Отрезок на оси у — это точка пересечения линией оси у; в нашем случае а = 2. Наклон линии, b, отношение подъема линии к длине линии, имеет значение 0.5. Положительный наклон означает, что линия поднимается слева направо. Если b = 0, линия горизонтальна, а это значит, что между зависимой и независимой переменными нет никакой связи. Иными словами, изменение значения x не влияет на значение y.

Часто путают ŷ и у. На графике показаны 6 упорядоченных пар точек и линия, в соответствии с данным уравнением

На этом рисунке показана точка, соответствующая упорядоченной паре х = 2 и у = 4. Обратите внимание, что ожидаемое значение у в соответствии с линией при х = 2 является ŷ. Мы можем подтвердить это с помощью следу­ющего уравнения:

ŷ = 2 + 0.5х =2 +0.5(2) =3.

Значение у представляет собой фактическую точку, а значение ŷ — это ожидаемое значение у с использованием линейного уравнения при заданном значении х.

Следующий шаг — определить линейное уравнение, максимально соответствующее набору упорядоченных пар, об этом мы говорили в предыдущей статье, где определяли вид уравнения по методу наименьших квадратов.

Использование Excel для определения линейной регрессии

Для того, чтобы воспользоваться инструментом регрессионного анализа встроенного в Excel, необходимо активировать надстройку Пакет анализа. Найти ее можно, перейдя по вкладке Файл –> Параметры (2007+), в появившемся диалоговом окне Параметры Excel переходим во вкладку Надстройки. В поле Управление выбираем Надстройки Excel и щелкаем Перейти. В появившемся окне ставим галочку напротив Пакет анализа, жмем ОК.

Во вкладке Данные в группе Анализ появится новая кнопка Анализ данных.

Чтобы продемонстрировать работу надстройки, воспользуемся данными с предыдущей статьи, где парень и девушка делят столик в ванной. Введите данные нашего примера с ванной в столбцы А и В чистого листа.

Перейдите во вкладку Данные, в группе Анализ щелкните Анализ данных. В появившемся окне Анализ данных выберите Регрессия, как показано на рисунке, и щелкните ОК.

Установите необходимыe параметры регрессии в окне Рег­рессия, как показано на рисунке:

Щелкните ОК. На рисунке ниже показаны полученные результаты:

Эти результаты соответствуют тем, которые мы получили путем самостоя­тельных вычислений в предыдущей статье.

Excel регрессия

Регрессионный анализ в Microsoft Excel

​Смотрите также​ При значении коэффициента​ 75,5%. Это означает,​х​ нескольких независимых переменных.​ D, F.​ получено, что t=169,20903,​ = 11,714* номер​1755 рублей за тонну​+ ε строим систему​ Иными словами можно​ кнопка.​20​ того или иного​ или в отдельной​

​ В нём обязательными​степенная;​

Подключение пакета анализа

​Регрессионный анализ является одним​ 0 линейной зависимости​ что расчетные параметры​к​Ниже на конкретных практических​Отмечают пункт «Новый рабочий​ а p=2,89Е-12, т.​ месяца + 1727,54.​4​

    ​ нормальных уравнений (см.​​ утверждать, что на​​Теперь, когда под рукой​

​50000 рублей​​ параметра от одной​​ книге, то есть​

​ для заполнения полями​логарифмическая;​​ из самых востребованных​​ между выборками не​

Читать еще:  Редактировать excel файл онлайн

​ модели на 75,5%​.​ примерах рассмотрим эти​​ лист» и нажимают​​ е. имеем нулевую​​или в алгебраических обозначениях​​3​ ниже)​ значение анализируемого параметра​​ есть все необходимые​​7​

  • ​ либо нескольких независимых​ в новом файле.​ являются​​экспоненциальная;​​ методов статистического исследования.​ существует.​
  • ​ объясняют зависимость между​Где а – коэффициенты​​ два очень популярные​​ «Ok».​ вероятность того, что​​y = 11,714 x​​март​Чтобы понять принцип метода,​​ оказывают влияние и​​ виртуальные инструменты для​

    Виды регрессионного анализа

    • ​ переменных. В докомпьютерную​
    • ​После того, как все​
    • ​«Входной интервал Y»​
    • ​показательная;​
    • ​ С его помощью​
    • ​Рассмотрим, как с помощью​
    • ​ изучаемыми параметрами. Чем​

    ​ регрессии, х –​ в среде экономистов​Получают анализ регрессии для​ будет отвергнута верная​

    Линейная регрессия в программе Excel

    ​ + 1727,54​1767 рублей за тонну​ рассмотрим двухфакторный случай.​ другие факторы, не​ осуществления эконометрических расчетов,​15​ эру его применение​ настройки установлены, жмем​и​гиперболическая;​ можно установить степень​ средств Excel найти​ выше коэффициент детерминации,​ влияющие переменные, к​

    ​ анализа. А также​ данной задачи.​ гипотеза о незначимости​ ​Чтобы решить, адекватно ли​5​ ​ Тогда имеем ситуацию,​​ описанные в конкретной​​ можем приступить к​55000 рублей​ было достаточно затруднительно,​ на кнопку​«Входной интервал X»​линейная регрессия.​​ влияния независимых величин​​ коэффициент корреляции.​ тем качественнее модель.​ – число факторов.​​ приведем пример получения​​«Собираем» из округленных данных,​ свободного члена. Для​ полученное уравнения линейной​4​ описываемую формулой​​ модели.​​ решению нашей задачи.​8​

      ​ особенно если речь​​«OK»​​. Все остальные настройки​О выполнении последнего вида​​ на зависимую переменную.​​Для нахождения парных коэффициентов​​ Хорошо – выше​​В нашем примере в​

    ​ результатов при их​ представленных выше на​​ коэффициента при неизвестной​​ регрессии, используются коэффициенты​​апрель​​Отсюда получаем:​

    ​Следующий коэффициент -0,16285, расположенный​ Для этого:​6​ шла о больших​​.​​ можно оставить по​​ регрессионного анализа в​​ В функционале Microsoft​ применяется функция КОРРЕЛ.​ 0,8. Плохо –​

    ​ качестве У выступает​​ объединении.​​ листе табличного процессора​ t=5,79405, а p=0,001158.​ множественной корреляции (КМК)​1760 рублей за тонну​где σ — это​ в ячейке B18,​щелкаем по кнопке «Анализ​15​ объемах данных. Сегодня,​Результаты регрессионного анализа выводятся​ умолчанию.​ Экселе мы подробнее​ Excel имеются инструменты,​Задача: Определить, есть ли​

    ​ меньше 0,5 (такой​​ показатель уволившихся работников.​​Показывает влияние одних значений​ Excel, уравнение регрессии:​ Иными словами вероятность​ и детерминации, а​6​ дисперсия соответствующего признака,​ показывает весомость влияния​ данных»;​60000 рублей​ узнав как построить​ в виде таблицы​В поле​ поговорим далее.​ предназначенные для проведения​ взаимосвязь между временем​ анализ вряд ли​

    ​ Влияющий фактор –​ (самостоятельных, независимых) на​СП = 0,103*СОФ +​ того, что будет​ также критерий Фишера​5​ отраженного в индексе.​ переменной Х на​в открывшемся окне нажимаем​Для задачи определения зависимости​ регрессию в Excel,​ в том месте,​«Входной интервал Y»​Внизу, в качестве примера,​ подобного вида анализа.​ работы токарного станка​ можно считать резонным).​ заработная плата (х).​ зависимую переменную. К​ 0,541*VO – 0,031*VK​ отвергнута верная гипотеза​ и критерий Стьюдента.​май​МНК применим к уравнению​ Y. Это значит,​

    ​ на кнопку «Регрессия»;​ количества уволившихся работников​ можно решать сложные​​ которое указано в​​указываем адрес диапазона​

    Разбор результатов анализа

    ​ представлена таблица, в​ Давайте разберем, что​ и стоимостью его​ В нашем примере​В Excel существуют встроенные​

    ​ примеру, как зависит​ +0,405*VD +0,691*VZP –​​ о незначимости коэффициента​​ В таблице «Эксель»​1770 рублей за тонну​ МР в стандартизируемом​ что среднемесячная зарплата​в появившуюся вкладку вводим​ от средней зарплаты​ статистические задачи буквально​ настройках.​

    ​ ячеек, где расположены​ которой указана среднесуточная​ они собой представляют​​ обслуживания.​​ – «неплохо».​​ функции, с помощью​​ количество экономически активного​ 265,844.​ при неизвестной, равна​ с результатами регрессии​7​ масштабе. В таком​ сотрудников в пределах​ диапазон значений для​ на 6 предприятиях​

    ​ за пару минут.​​Одним из основных показателей​​ переменные данные, влияние​​ температура воздуха на​​ и как ими​Ставим курсор в любую​Коэффициент 64,1428 показывает, каким​ которых можно рассчитать​ населения от числа​В более привычном математическом​ 0,12%.​ они выступают под​6​

    ​ случае получаем уравнение:​ рассматриваемой модели влияет​ Y (количество уволившихся​ модель регрессии имеет​ Ниже представлены конкретные​ является​ факторов на которые​ улице, и количество​ пользоваться.​

    ​ ячейку и нажимаем​

    Регрессия в Excel: уравнение, примеры. Линейная регрессия

    ​ будет Y, если​ параметры модели линейной​ предприятий, величины заработной​ виде его можно​Таким образом, можно утверждать,​ названиями множественный R,​июнь​в котором t​ на число уволившихся​ работников) и для​ вид уравнения Y​ примеры из области​R-квадрат​ мы пытаемся установить.​ покупателей магазина за​Скачать последнюю версию​ кнопку fx.​ все переменные в​ регрессии. Но быстрее​ платы и др.​

    Виды регрессии

    ​ записать, как:​ что полученное уравнение​ R-квадрат, F-статистика и​1790 рублей за тонну​y​

    • ​ с весом -0,16285,​
    • ​ X (их зарплаты);​
    • ​ = а​
    • ​ экономики.​
    • ​. В нем указывается​
    • ​ В нашем случае​
    • ​ соответствующий рабочий день.​

    Пример 1

    ​ Excel​В категории «Статистические» выбираем​ рассматриваемой модели будут​ это сделает надстройка​ параметров. Или: как​

    ​y = 0,103*x1 +​ линейной регрессии адекватно.​ t-статистика соответственно.​8​, t​ т. е. степень​подтверждаем свои действия нажатием​

    Ссылка на основную публикацию
    Adblock
    detector