Regression

$\hat{y} = X\beta$ $\text{Expandidamente: } \hat{y}_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \dots + \beta_p x_{ip}$

$X \in \mathbb{R}^{n \times p}$ : matriz de dados (cada linha é uma observação, cada coluna é uma feature). Ou seja, $p$ é o número de predictors/features.
$y \in \mathbb{R}^n$ : vetor com valor real dos $n$ dados observados.
$\beta \in \mathbb{R}^{p}$ : vetor de coeficientes (parâmetros do modelo). $\beta_i$ é o peso, quanto $y_i$ varia quando aumente $x_i$ varia.
$\hat{y} \in \mathbb{R}^{n}$ : vetor de predições. Em que $\hat{y}_i$ é a saída do modelo para uma instância.
$e_i=y_i-\hat{y}_i$ : resíduo/erro, a diferença entre real e previsto. $\min_{\beta} J(\beta)$
$J(\beta)$ : Loss Function/função de perda/custo. É uma função que compara todos os resíduos $e_i = y_i -\hat{y}_i, \forall i=0,1,\dots,n$ e retorna um valor de custo. Quanto mais baixo $J$ melhor é o modelo. Ou seja, o objetivo é minimizar a loss function ajustando os vetor de pesos do modelo, encontrando a melhor linha/plano que se ajusta ao dados.

OLS - Ordinary Least Squares

Esse é o método de Regressão Linear mais clássico que existe. "Ordinary/Ordinário" porque distingue das variações com regularização (como Ridge, Lasso) e Least Squares refere-se a minimizar a soma dos quadrados dos erros. $\min_{\beta} J(\beta) \text{, } J(\beta)=SSE$ Ou seja, encontrar os pesos $\beta$ que resultam na menor $SSE$ possível.

SSE - Sum of Squared Errors

$SSE=\sum_{i=1}^n (y_i - \hat{y}_i)^2$ Mas por que usar o quadrado em vez do módulo?

Penalizar $e_i$ discrepantes.
A função $e_i^2$ é suave/contínua, o que, diferentemente da $|e_i|$ (que possuí uma "quina"), é possível usar do cálculo para encontrar a exato ponto mínimo.

Solução Analítica

Uma característica do OLS é a presença de uma solução analítica, isto é, uma fórmula fechada (que não precisa de iterações) para esse problema de otimização.

$J(\beta)=\sum_{i=1}^n (y_i - \hat{y}_i)^2 = (y - X\beta)^T(y - X\beta)$ $e = (y - X\beta) = y - \hat{y} = \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix} - \begin{bmatrix} \hat{y}_1 \\ \hat{y}_2 \\ \vdots \\ \hat{y}_n \end{bmatrix} = \begin{bmatrix} (y_1 - \hat{y}_1) \\ (y_2 - \hat{y}_2) \\ \vdots \\ (y_n - \hat{y}_n) \end{bmatrix}$ $(y - X\beta)^T (y - X\beta)=e^T e=(e_1 \cdot e_1) + (e_2 \cdot e_2) + \dots + (e_n \cdot e_n)$

Loss Function: $J(\beta) = (y - X\beta)^T(y - X\beta)$
Expandir (álgebra de matrizes):
- $J(\beta) = (y^T - \beta^T X^T)(y - X\beta)$
- $J(\beta) = y^T y - y^T X \beta - \beta^T X^T y + \beta^T X^T X \beta$
Derivar em relação a $\beta$ $β$ (Cálculo de Matrizes):
- $\frac{\partial J}{\partial \beta} = -2X^T y + 2 X^T X \beta$
Igualar a Derivada a Zero (encontrar o ponto mínimo):
- $0 = -2X^T y + 2 X^T X \beta$
Resolver para $\beta$ $β$ :
- $2 X^T X \beta = 2 X^T y$
- $X^T X \beta = X^T y$ Para isolar $\beta$ , multiplicamos ambos os lados pela inversa de $(X^T X)$ :

$\beta = (X^T X)^{-1} X^T y$

Esta é a Solução Analítica, também conhecida como Equação Normal.

Essa solução analítica permite calcular o ponto $(\beta_0, \beta_1,\beta_2,\dots,\beta_p)$ que faz com que $J(\beta)$ seja mínima de forma ótima. Diferentemente de métodos iterativos, que são uma aproximação.

Exemplo

Imagina um cenário que foram coletado o comprimento e o peso de ratos. Dessa forma, o objetivo é estimar/prever o comprimento $y$ com base no peso $X$ dos ratos.

A #Solução Analítica seria "teletransportasse" para o mínimo do gradiente. Já a iterativa seria esse caminho, em que, a cada iteração, $(\beta_0, \beta_1, SSE_i)$ é encontrado.

MSE - Mean Squared Error

$MSE=\frac{SSS}{n}=\frac{1}{n}\sum_{i=1}^n (y_i - \hat{y}_i)^2$ Uma observação é que minimizar SSE é equivalente a minimizar MSE porque a diferença entre eles é uma constante positiva que não altera a posição do mínimo. O vetor de pesos que minimiza a loss function $MSE$ é o mesmo que $SSE$ . O único fator que muda é a coordenada minima/ ponto mínimo do gradiente, $(\beta_0, \beta_1, \dots, \beta_p, SSE)$ de $(\beta_0, \beta_1, \dots, \beta_p, MSE)$ . É como se a altura do mapa/ gradiente fosse diminuída.

Dessa forma, encontrar a solução analítica usando SSE ou MSE não faz diferença. No entanto, usando uma abordagem iterativa, apesar de $\beta$ que minimiza a loss não mudar, é mais vantajoso utilizar MSE para o processo de treinamento.