Линейна регресия с една променлива (проста регресия)

Страницата е създадена на:10 март 2018 и редактирана на: 5 април 2018

Нека да разполагаме с данни от `n` измервания на две случайви величини `X` и `Y`. Стойностите на тези величини, получени при измерванията да представим в матрица с 2 стълба и `n` реда:

(163.1)
`((x_1, y_1), (x_2, y_2), (x_3, y_3), (..., ...), (x_n, y_n))`

Съставяме линеен модел на зависимостта на величината `Y` от `X`:

(163.2)
`Y = a X + b`

Изчислените по този модел стойности на `Y`, които съответстват на измерените стойнисти на `X` са:

`y'_i = a x_i + b`

За намиране на неизвестните коефициенти `a` и `b` използваме метода на най-малките квадрати. При този метод търсим коефициенти, които правят минимална стойноста на сумата от квадратите на разликите между измерените и изчислените стойности на `Y`:

`min{ sum_(i=1)^n (y'_i - y_i)^2}` = `min{ sum_(i=1)^n (a x_i + b - y_i)^2 }`

За да намерим коефициентите `a` и `b`: диференцираме сумата от квадратите по всеки от коефициентите и приравняваме получените производни на нула:

`partial / (partial a) (sum_(i=1)^n (a x_i + b - y_i)^2)` = `sum_(i=1)^n 2 (a x_i + b - y_i) x_i` = `2 a sum_(i=1)^n (x_i)^2 + 2 b sum_(i=1)^n x_i - 2 sum_(i=1)^n y_i x_i` = `0`

`partial / (partial b) (sum_(i=1)^n (a x_i + b - y_i)^2)` = `sum_(i=1)^n 2 (a x_i + b - y_i)` = `2 a sum_(i=1)^n x_i + 2 b n - 2 sum_(i=1)^n y_i` = `0`

Да въведем по-кратки означения:

`sum_(i=1)^n (x_i)^2 = Σx^2`
`sum_(i=1)^n x_i = Σx`
`sum_(i=1)^n y_i = Σy`
`sum_(i=1)^n x_i y_i = Σxy`

При тези означения получената система от две линейни уравнения е:

`{( a Σx^2, + b Σx, = Σxy ) , (a Σx, + b n, = Σy) :}`

Решението на която по формулите на Крамер е:

(163.3)
`a = ( n Σxy - Σx Σy ) / (n Σx^2 - (Σx)^2 )`

`b = ( Σx^2 Σy - Σx Σxy ) / (n Σx^2 - (Σx)^2 )`

За пресмятане на тези коефициенти в електронните таблици има функции: slope и intersect. Вижтe:
SLOPE function - Office Support,
INTERCEPT function - Office Support или
OpenOffice - SLOPE function Wiki,
OpenOffice - INTERCEPT function Wiki.

В цитираните източници се използва друг вид на формулите (163.3):

(163.4)
`a = ( Σ(x - overline x)(y - overline y) ) / ( Σ(x - overline x)^2 )`

`b = overline y - a overline x`

в които се използват средните стойности на `X` и `Y`:

`overline x = (Σx)/n`   и   `overline y = (Σy)/n`

Получените тук формули (163.3) лесно се преобразуват във вида (163.4). Първо от числителя и знаменателя във формулата за `a` изнасяне пред скоби и съкращаване на `n`. После разлагане събираемите в сумите на множители:

`a = ( Σxy - n (Σx)/n (Σy)/n ) / (Σx^2 - n ((Σx)/n)^2 )` = `( Σxy - n overline x overline y ) / ( Σx^2 - n overline x^2)` = `( Σxy - Σ x overline y - Σ overline x y + Σ overline x overline y ) / ( Σx^2 - 2 Σx overline x + Σ overline x^2 )` = `( Σ( xy - x overline y - overline x y + overline x overline y )) / ( Σ(x^2 - 2 x overline x + overline x^2 ))` = `( Σ(x - overline x)(y - overline y) ) / ( Σ(x - overline x)^2 )`

Формулата за коефициента `b` преобразуваме така:

`b = ( Σx^2 Σy - Σx Σxy ) / (n Σx^2 - (Σx)^2 )` = `( n Σx^2 overline y - (Σx)^2 overline y + (Σx)^2 overline y - Σx Σxy ) / (n Σx^2 - (Σx)^2 )` = `overline y - (Σx Σxy - (Σx)^2 overline y) / (n Σx^2 - (Σx)^2 )` = `overline y - (n overline x Σxy - overline x Σx Σy) / (n Σx^2 - (Σx)^2 )` = `overline y - (n Σxy - Σx Σy) / (n Σx^2 - (Σx)^2 ) overline x = overline y - a overline x`

До линеeн модел от вида (163.2) се свеждат модели като степенния и експоненциалния. Степенният модел:

`Y = A X^B`

след логаритмуване се свежда до модел:

`ln Y = ln A + B ln X`

който съвпада с липеен модел с коефициенти:

`a = B`   и   `b = ln A`

и метрица от данни:

(163.5)
`(( ln x_1   ln y_1 ), ( ln x_2   ln y_2 ), ( ...     ... ), ( ln x_n   ln y_n ))`

Намирането на параметрите `A` и `B` на степенния модел преминава през: преобразуване на матрицата от опитни данни (163.1) до вида (163.5), присмятане на `a` и `b` по формули (163.3) и изчисляване на `A` и `B` по формулите:

`B = a`   и   `A = e^b`

Експоненциалният модел:

`Y = A е^(B X)`

след логаритмуване се свежда до модел:

`ln Y = ln A + B X`

който съвпада с липеен модел с коефициенти:

`a = B`   и   `b = ln A`

и метрица от данни:

`(( x_1   ln y_1 ), ( x_2   ln y_2 ), ( ...     ... ), ( x_n   ln y_n ))`

Параметрите на експиненциалният модел са:

`B = a`   и   `A = e^b`

 

Направено с MyCMS. Copyright CC BY-ND 4.0.