Regression
- : matriz de dados (cada linha é uma observação, cada coluna é uma feature). Ou seja, é o número de predictors/features.
- : vetor com valor real dos dados observados.
- : vetor de coeficientes (parâmetros do modelo). é o peso, quanto varia quando aumente varia.
- : vetor de predições. Em que é a saída do modelo para uma instância.
- : resíduo/erro, a diferença entre real e previsto.
- : Loss Function/função de perda/custo. É uma função que compara todos os resíduos e retorna um valor de custo. Quanto mais baixo melhor é o modelo. Ou seja, o objetivo é minimizar a loss function ajustando os vetor de pesos do modelo, encontrando a melhor linha/plano que se ajusta ao dados.
OLS - Ordinary Least Squares
Esse é o método de Regressão Linear mais clássico que existe. "Ordinary/Ordinário" porque distingue das variações com regularização (como Ridge, Lasso) e Least Squares refere-se a minimizar a soma dos quadrados dos erros. Ou seja, encontrar os pesos que resultam na menor possível.
SSE - Sum of Squared Errors
Mas por que usar o quadrado em vez do módulo?
- Penalizar discrepantes.
- A função é suave/contínua, o que, diferentemente da (que possuí uma "quina"), é possível usar do cálculo para encontrar a exato ponto mínimo.
Solução Analítica
Uma característica do OLS é a presença de uma solução analítica, isto é, uma fórmula fechada (que não precisa de iterações) para esse problema de otimização.
- Loss Function:
- Expandir (álgebra de matrizes):
- Derivar em relação a (Cálculo de Matrizes):
- Igualar a Derivada a Zero (encontrar o ponto mínimo):
- Resolver para :
- Para isolar , multiplicamos ambos os lados pela inversa de :
Esta é a Solução Analítica, também conhecida como Equação Normal.
Essa solução analítica permite calcular o ponto que faz com que seja mínima de forma ótima. Diferentemente de métodos iterativos, que são uma aproximação.
Exemplo
Imagina um cenário que foram coletado o comprimento e o peso de ratos. Dessa forma, o objetivo é estimar/prever o comprimento com base no peso dos ratos.

A #Solução Analítica seria "teletransportasse" para o mínimo do gradiente. Já a iterativa seria esse caminho, em que, a cada iteração, é encontrado.

MSE - Mean Squared Error
Uma observação é que minimizar SSE é equivalente a minimizar MSE porque a diferença entre eles é uma constante positiva que não altera a posição do mínimo. O vetor de pesos que minimiza a loss function é o mesmo que . O único fator que muda é a coordenada minima/ ponto mínimo do gradiente, de . É como se a altura do mapa/ gradiente fosse diminuída.
Dessa forma, encontrar a solução analítica usando SSE ou MSE não faz diferença. No entanto, usando uma abordagem iterativa, apesar de que minimiza a loss não mudar, é mais vantajoso utilizar MSE para o processo de treinamento.