Bias-Variance Trade-off
Bias é o quão distante o modelo está da verdade real. (um bias alto significa que o modelo não está aprendendo os padrões dos dados). O alto bias é como se o modelo ficasse "rígido" demais, generalizando até demais. (um bias alto nos dados de treino provavelmente será alto nos dados de val/teste). Ou seja, bias alto é o mesmo que underfitting .
Variance é o quão distante está o modelo (que foi treinado em um dataset específico) quando comparado a outra amostra (teste/val). O quanto ele se desvia da “verdade” quando muda o contexto (outros dados da mesma distribuição). Uma variância alta demais é como se o modelo ficasse "sensível" demais ao dados que ele foi treinado e não consegue generalizar o suficiente.
Ou seja, o ideal é um equilíbrio entre bias e variance. Ajustar um modelo na medida que ele consiga generalizar o suficiente para ter um bom desempenho.
#Regularization, #Boosting e #Bagging são jeitos comuns para encontrar o ponto ideal entre bias e variance. Ou seja, um modelo suficientemente simples (não gera overfitting) que consiga ter uma baixa variance (tenha um bom acerto).
Regularization
Regularização é, de forma geral, a ideia de se adicionar uma penalidade na loss function que faz o modelo errar um pouco mais, porém, generalizar mais do que um modelo perfeito apenas no treino ("overfitado").
Em outras palavras, regularização é adicionar uma pequena quantia de bias para "deixar menos overfitado", fazendo diminuir a variância (o que é bom).
L2
Ridge (L2) regularization
Norma L2
é a norma L2/euclidiano, isto é, o comprimento do vetor de pesos.
Esse é o hiperparâmetro da regularização que controla a força da penalização sobre. No exemplo da imagem abaixo, a predição é do Size. Quanto maior o passado como hiperparâmetro, as predições de size ficam mais sensíveis a varável weight (como se fosse inclinando a linha azul para baixo, se aproximando de weight=0).
Para estimar o melhor valor de weight se utiliza de Cross Validation