Bias-Variance Trade-off

Bias é o quão distante o modelo está da verdade real. (um bias alto significa que o modelo não está aprendendo os padrões dos dados). O alto bias é como se o modelo ficasse "rígido" demais, generalizando até demais. (um bias alto nos dados de treino provavelmente será alto nos dados de val/teste). Ou seja, bias alto é o mesmo que underfitting .

Variance é o quão distante está o modelo (que foi treinado em um dataset específico) quando comparado a outra amostra (teste/val). O quanto ele se desvia da “verdade” quando muda o contexto (outros dados da mesma distribuição). Uma variância alta demais é como se o modelo ficasse "sensível" demais ao dados que ele foi treinado e não consegue generalizar o suficiente.

Ou seja, o ideal é um equilíbrio entre bias e variance. Ajustar um modelo na medida que ele consiga generalizar o suficiente para ter um bom desempenho.

#Regularization, #Boosting e #Bagging são jeitos comuns para encontrar o ponto ideal entre bias e variance. Ou seja, um modelo suficientemente simples (não gera overfitting) que consiga ter uma baixa variance (tenha um bom acerto).

Regularization

Regularização é, de forma geral, a ideia de se adicionar uma penalidade na loss function que faz o modelo errar um pouco mais, porém, generalizar mais do que um modelo perfeito apenas no treino ("overfitado").

Em outras palavras, regularização é adicionar uma pequena quantia de bias para "deixar menos overfitado", fazendo diminuir a variância (o que é bom).

L2

Ridge (L2) regularization

J(\beta)=\frac{1}{n}\sum_{i=1}^n (y_i - \hat{y}_i)^2 + \lambda \sum_{j=1}^p\beta_i^2

Norma L2

$\sum_{j=1}^p\beta_i^2$ é a norma L2/euclidiano, isto é, o comprimento do vetor de pesos.

$\lambda$

Esse é o hiperparâmetro da regularização que controla a força da penalização sobre. No exemplo da imagem abaixo, a predição é do Size. Quanto maior o $\lambda$ passado como hiperparâmetro, as predições de size ficam mais sensíveis a varável weight (como se fosse inclinando a linha azul para baixo, se aproximando de weight=0). Para estimar o melhor valor de weight se utiliza de Cross Validation

Bias-Variance Trade-off

Regularization

L2

Norma L2

$\lambda$

Boosting

Bagging

Referências

On this page

Bias-Variance Trade-off

Regularization

L2

Norma L2

λ\lambdaλ

Boosting

Bagging

Referências

On this page

$\lambda$