Sesgo y varianza en aprendizaje automático: guía completa y práctica

Последна актуализация: 11/23/2025
Автор: C SourceTrail
  • Sesgo es error sistemático y varianza es sensibilidad al muestreo; el MSE се декомпонира в Bias² + Var + σ².
  • Regularización, dimensionalidad y datos gobiernan el equilibrio: menos complejidad y más datos reducen varianza, más rasgos bajan sesgo.
  • En k-NN, el sesgo crece con ky la varianza cae; опаковане намаляване varianza y стимулиране намаляване sesgo.
  • Различавайте sesgo estadístico (MSE) de sesgo de equidad y mídelo con métricas y auditorías por grupo.

Ilustración de sesgo y varianza en aprendizaje automatico

En aprendizaje supervisado, el equilibrio entre sesgo y varianza es el quid de la cuestión: hay que capturar la estructura real de los datos sin quedarse con el ruido. La gracia (y el dolor de cabeza) está en que, por lo general, no se pueden minimizar ambos a la vez; cuanto más fuerzas uno, más sufre el otro.

Para situarnos, cuando hablamos de sesgo y varianza aquí hablamos de rendimiento estadístico y de generalización, no de ética. El sesgo estadístico mide qué tan lejos, de media, se va tu modelo de la verdad, y la varianza mide cuánto cambian sus predicciones si vuelves a entrenarlo con otras muestras del mismo processo generador de datos. Veremos definiciones formales, una derivación paso a paso de la descomposición sesgo-varianza, ejemplos intuitivos, casos como k-vecinos, regularización, clasificación, efectos del tamaño muestral, y hasta paralelismos con RL y la cognición humana, sin olvidarnos del otro “sesgo” (equidad) y cómo medirlo y mitigarlo.

Qué significan realmente „sesgo“ y „varianza“ (sentido técnico y etimologia)

Aunque a veces se explica de forma antropomórfica („el modelo llega con ideas preconcebidas“), el término „sesgo“ viene de la estadística: es la diferencia entre la esperanza del estimador y el valor verdadero. En ML, para cada punto x, el sesgo es la distancia sistemática entre la media de las predicciones del modelo (sobre distintos conjuntos de entrenamiento) y la función real f(x).

La „varianza“ se refiere a la variabilidad de la predicción debida a cambiar la muestra de entrenamiento. Técnicamente, es Var_D, condicionada ax: si reentrenas con diferentes D muestreados de la misma distribución, ¿cuánto fluctúa \hat f? Que los pesos cambien mucho es un síntoma posible, pero lo que medimos de verdad es la variabilidad de la salida del modelo, no de los parametros en sí.

Формално планиране

Suponemos datos generados por y = f(x) + ε, не ε tiene media 0 y вариант σ². Contamos con un conjunto de entrenamiento D = {(x₁, y₁), …, (x_n, y_n)} и алгоритъмът, който произвежда функция за приложение \hat f(x; D). Nuestro objetivo es aproximar f(x) lo mejor posible tanto en el entrenamiento como, sobre todo, en puntos no vistos.

Как се е направил руидо, имам един грешка, неотстранима que ningún modelo puede eliminar: incluso con \hat f perfecta, el término ε aporta σ² al error cuadrático medio.

Descomposición sesgo-varianza del error cuadrático

Para un x fijo, el error esperado puede separarse en tres piezas: sesgo al cuadrado, varianza y ruido нередуцируем. Es la famosa identidad que estructura el diagnóstico y el tuning de modelos.

E_{D,ε} = (Bias_D)^2 + Var_D + σ^2

Къде, по-подробно, дефиниции:

Bias_D = E_D - f(x)
Var_D  = E_D)^2]

Si tomamos después la expectativa respecto a la distribución de x, obtenemos la función de pérdida global de tipo MSE със смешната структура:

MSE = E_x{ Bias_D^2 + Var_D } + σ^2

Derivación paso a paso (para no quedarse con dudas)

La identidad anterior se obtiene expandiendo el MSE y usando propiedades básicas de la esperanza. Arrancamos de y = f + ε, con E=0 y Var(ε)=σ²:

MSE = E = E - 2 E + E

Desglosando cada pieza: primero, E = f² + σ² porque f не зависи от данните y E=0.

E = E = f^2 + 2 f E + E = f^2 + σ^2

на второ място, E = f E al ser ε independiente de \hat fy de media cero.

E = E = E + E = f E

Tercero, usamos que E = Var(X) + (E)², con lo que E = Var(\hat f) + (E)².

E = Var(\hat f) + (E)^2

Ал рекомбинантен: MSE = (f − E)² + Var(\hat f) + σ². El primer término es el sesgo al cuadrado, el segundo la varianza debida al muestreo, y el tercero el ruido inevitable.

Intuiciones visuales y por qué „más parametros“ no siempre significa „más complejidad“

Un ejemplo clásico para construir intuición es aproximar una función roja con funciones de base radial azules. Si las RBF tienen gran “anchura” (curvas muy suaves), el modelo es rígido: алто сесго, баха варианца. Si estrechamos la anchura, el modelo se adapta mejor a cada ensayo y puede seguir detalles finos: baja el sesgo y sube la varianza entre reentrenamientos.

Ojo también a cómo definimos „complejidad“. Contar parametros engaña: el modelo f_{a,b}(x) = a·sin(bx) tiene dos parametros y, aun así, puede interpolar un montón de puntos oscilando con frecuencia alta. Ese comportamiento puede traducirse en sesgo y varianza elevados en presencia de ruido, desmintiendo la idea simplona de que “pocos parámetros = modelo simple” siempre.

Точност и прецизност: una analogía útil

Често използва Диана: exactitud (точност) se asocia con bajo sesgo (golpes cerca del centro de la diana), y precisión con baja varianza (golpes muy agrupados). Un ajuste lineal a datos con patrón cuadrático suele ser exacto “de media” solo si la estructura es lineal; си не, афлора алто сесго. Противно на това, моделите с много гъвкави консигуени прецизни местни, но una sensibilidad excesiva al ruido genera alta varianza.

La regularización actúa como изрично подкрепено: penalizar la complejidad amortigua cuánto “se mueve” el modelo al ver datos parecidos, reduciendo varianza a costa de introducir sesgo controlado (guía sobre прекомерно оборудване y недостатъчно оборудване).

Qué solutiones reducen sesgo o varianza (y sus efectos colaterales)

Algunas palancas son bastante universales: намаляване на размерите или избрани характеристики опростяване на модела и намаляване на варианта; añadir predictores tiende a bajar el sesgo pero под вариацията. Más datos, en general, recortan varianza y permiten usar modelos de sesgo más bajo.

En modelos concretos hay mandos claros: линейна регресия и MLG se benefician de regularización (L1/L2) para disminuir varianza; en redes neuronales, más unidades ocultas suele bajar el sesgo y subir la varianza (aunque la visión clásica se matiza con practicas modernas y regularizadores potentes). En k-vecinos, k alto = más sesgo y menos varianza; en árboles, la profundidad controla en gran medida la varianza y el резитба la limita. Los ensembles también ayudan: намаляване на варианцията y повишаване на намаляването на сесго.

La validación cruzada es tu aliada para ajustar hiperparámetros y encontrar el punto dulce. Оценявайте в множество дялове permite detector si andas corto de sesgo o pasado de varianza sin engañarte con una sola partición afortunada.

k-vecinos más próximos: una formula cerrada que lo deja cristalino

Para la regresión k-NN, conexpecativa tomada sobre posibles etiquetados de un conjunto de entradas fijo, existe una expresión que separa claramente sesgo, varianza y ruido:

E = ( f(x) - (1/k) \sum_{i=1}^k f(N_i(x)) )^2 + σ^2/k + σ^2

El primer término es el sesgo (crece con k), el segundo la varianza (se reduce con k) y el tercero el ruido irreductible. Con supuestos razonables, el sesgo del 1-NN tiende a desaparecer cuando el tamaño del conjunto de entrenamiento tiende a infinito.

Regularización en regresión: por qué Lasso y Ridge mejoran el MSE

En mínimos cuadrados, la solución OLS es insesgada, pero може да има голяма вариация. Lasso (L1) y Ridge (L2) въведе sesgo de forma controlada y, a cambio, намалено notablemente la varianza, lo que baja el MSE total. Este compromiso entronca con resultados clásicos como Гаус-Марков (eficiencia de OLS dentro de la familia lineal insesgada) y límites fundamentales tipo Крамер-Рао para estimadores más generales.

Clasificación: pérdida 0-1 y probabilidades

La descomposición original es para MSE en regresión, pero съществуват аналози в класификацията срещу победа 0-1. Si planteas la tarea como classificación probabilística y miras el грешка cuadrático esperado de las probabilidades predichas frente a las verdaderas, vuelve aparecer la misma estructura de sesgo, varianza y ruido.

Más datos, menos varianza (y modelos de menor sesgo)

Практична идея: al crecer el conjunto de entrenamiento, la varianza tiende a bajar. Eso abre la puerta a usar modelos más expresivos (menor sesgo) sin disparar el error total. Con pocos datos, en cambio, suele interesar вариант на контейнер con modelos más simples y regularización fuerte.

Aprendizaje por refuerzo: un equilibrio primo hermano

Aunque la descomposición formal no se aplica tal cual en RL, la generalización también se entiende como la suma de un sesgo asintótico (propio del algoritmo) и край на пренатоварване ligado a datos limitados. Dos caras de la misma moneda: método y muestra.

La mirada de la psicología: heurísticas de alto sesgo/baja varianza

Con datos escasos y ruidosos, el cerebro humano parece optar por reglas simples (alto sesgo) con baja varianza. Esa preferencia puede ser adaptativa: generalizas mejor con poco, a costa de no capturar detalles finos. En tareas como el reconocimiento generico de objetos, cierto “cableado previo” ayuda y la experiencia lo va afinando.

Sesgo estadístico срещу sesgo social en IA (no es lo mismo)

Conviene distinguir: aquí “sesgo” es el грешка sistemático del estimador. En ética de IA, hablamos de трато десигуал между групите (por datos или algoritmos). Reducir el sesgo estadístico mejora el MSE; mitigar el sesgo social persigue собствен капитал. Ambas agendas se cruzan, pero no son idénticas.

Tipos frecuentes de sesgo en datos y sistemas de IA (equidad)

  • пристрастие при избора: la muestra no representa a la población objetivo y прекратете предсказанията за тези подгрупи.
  • Сесго муестрал: categorías sobrerrepresentadas o infrarrepresentadas que нарушаване на равновесието на обучението.
  • Пристрастност на потвърждението: solutiones de modelado o anotación que refuerzan expectativas previas.
  • Сего де медициън: datos mal recogidos o instrumentos sesgados замърсявам обекта.
  • Алгоритмично отклонениеиндуктивности на метода, който favorecen cierto tipo de relaciones no siempre ajustadas a la realidad.
  • Групов период: segmentaciones o classificaciones que agrupan mal y arrastran errores.
  • Sesgo por variabilidad de los datos: datos demasiado homogéneos o heterogéneos respecto a producción que несъстоятелно обобщение.

Cómo identificar y medir sesgos (equidad) en modelos de IA

  • Изпълнение от група: evalúa por separado métricas en sexo, edad, origen и т.н., параграф детектори за нарушения.
  • Показатели за несъответствие: точки от FP/FN за групата, разлика в прецизността y ударно разпръскване (probabilidad de resultado favorable entre grupos).
  • Тестове за чувствителност: cambios controlados en atributos (p. ej., nombre o dirección) параграф ver si la predicción se sesga.
  • Симулация на сценарийсинтетични профили за explorar posibles desigualdades (стр. ей., оценяване на кредити).
  • Анализ на приносите: técnicas tipo LIME/SHAP за вер que variables empujan solutiones y si algún atributo domina indebidamente.
  • Външен одит: equipos independientes, datos de prueba y възпроизводими протоколи.
  • Conjuntos equilibrados de evaluaciónтест, проектиран за medir equidad sin sesgos de base.
  • Кръстосано валидиране: evalúa la estabilidad del rendimiento por partición y открий крехкостта връзките на музея.

Por qué los datos anotados pueden introducir sesgos

Las anotaciones son poderosas, pero tienen trampa: la subjetividad humana y los errores repetitivos деян хуела. He aquí los principales focos:

  • субективност: escalas y criterios dispares след персоната.
  • Непоследователност между анотаторите: погрешно ръководство или съгласие aumenta la varianza de etiquetas.
  • потвърждаванеподходящи индикации alinean etiquetas con hipótesis.
  • Муестрео сесгадо: si lo que anotamos ya está sesgado, разширяваме проблема.
  • човешки грешкиумора и изтощение общи системни грешки.
  • инструменти за анотация: интерфейси que empujan opciones предизвикани технологични процеси.

Elección del conjunto de datos: representatividad, diversidad y procedencia

В основата му е всичко. Представителност: si tu dataset no refleja la población objetivo, el modelo aprenderá a нормализиране на изкривяванията. разнообразие: equilibrar categorías (edad, género, etnia и др.) permite estimar sesgos con mayor precisión.

Те също имат значение качество на анотациите (coherencia y guía claras) y la произход: fuentes como redes sociales tienen demografías y comportamientos particulares; si solo bebes de ahí, наследство от самите тях.

Métricas y evaluación: clasificación y regresión

В бинарна класификация, la матрица на объркване concentra aciertos y errores (TP, FP, FN, TN). Métricas clave: precision, exhaustividad/recobrado, F1, заедно с ROC крива (sensibilidad срещу 1−especificidad) y su AUC correspondiente para comparar modelos a distintos umbrales.

En regresión, más allá del MSE/MAE, el coeficiente de determinación R² възобновяване на обяснението на фракцията на варианта: R² = 1 − SS_res/SS_tot. внимание: версиите, коригирани и критериите за информация (AIC/BIC), позволяват сравняване на модели с различни комплекти.

Selección de modelo, validación cruzada y regularización

Разделяй и владей: обучение, валидиране и тестване con partición honesta, o bien k-fold CV para tener más estabilidad. En k-fold, entrenas k veces dejando cada fold como validación una vez; promedias el error de validación y afinas hiperparámetros desde ahí.

Регулирането (L1/L2, отпадане, ранно спиране, намаляване на теглото и т.н.) actúa de “freno” a la complejidad efectiva. Reduce varianza y previene sobreajuste, asumiendo un sesgo extra que suele compensar con creces el MSE final. En árboles, ел пода (резитба) има същия дух.

Aplicaciones y prácticas recomendadas (con un guiño a MLOps)

В разумните владетели, както автономни превозни средства, un modelo muy sesgado puede ignorar peatones atípicos, y uno de alta varianza puede ver сенките като препятствия, En Медицинска диагностика, cuidado con memorizar artefactos de un hospital que luego hacen fallar en otro centro. Aquí brillan los conjuntos de datos масивни и разнообразни, el aumento de datos y los ensambles para estabilizar.

En vision por ordenador moderna, familias como Йоло равновесна прецизност и скорост; ajustar hiperparámetros como тегло_разпад ayuda a controlar la varianza. Един генеричен Python използва пакет от Ultralytics за илюстриране на идеята:

from ultralytics import YOLO

# Cargar un modelo ligero de la familia YOLO
model = YOLO("yolo-nano.pt")

# Entrenar ajustando weight_decay para controlar la varianza (sobreajuste)
results = model.train(data="coco8.yaml", epochs=10, weight_decay=5e-4)

Integra estos ajustes con monitorización continua, Наблюдаемост на машинното обучение y auditorías de equidad. No nos engañemos: sin validación robusta y datos de calidad, el mejor truco de regularización se queda corto.

Para cerrar el círculo, recuerda que todo este andamiaje convive con conceptos como интервали на прогнозиране (incertidumbre total para nuevos puntos), cotas de información y garantías estadísticas. Afinar el balance sesgo-varianza, elegir el modelo adecuado a los datos que tienes y medir bien lo que importa son las claves que marcan la diferencia en producción.

свръхобучение срещу недостатъчно обучение
Свързана статия:
Прекомерно оборудване срещу недостатъчно оборудване: guía completa con señales, causas y soluciones
Подобни публикации: