- Validación cruzada
-
La validación cruzada o cross-validation, es la práctica estadística de partir una muestra de datos en subconjuntos de tal modo que el análisis es inicialmente realizado en uno de ellos, mientras los otros subconjuntos son retenidos para su uso posterior en la confirmación y validación del análisis inicial.[1] Es una técnica muy utilizada en Inteligencia Artificial para validar los modelos generados a partir de un conjunto de datos o muestra.
La validación simple consiste en dividir en dos conjuntos complementarios los datos de la muestra, usar uno de ellos para construir el modelo (training set) y usar el otro para medir el ratio de error del modelo construido (test set). Por desgracia de esta manera se suele sobrestimar el modelo construido.
La validación cruzada aplica k-veces la validación simple, dividiendo en k conjuntos la muestra (k-fold cross validation). En cada iteración se construirá y evaluará un modelo, usando uno de los conjuntos como test set y el resto como training set. Al final obteniendo la media aritmética de los ratios de error obtenidos conseguiremos el ratio de error para la muestra final.
La elección del valor k dependerá del tamaño y características de la muestra, pero un valor muy utilizado es 10-fold.
Otras técnicas de evaluación
- Bootstrap
Material Externo
- (en inglés) Cross-Validation tutorial
Referencias
- ↑ Kohavi, Ron (1995). «A study of cross-validation and bootstrap for accuracy estimation and model selection». Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence 2 (12): pp. 1137–1143. http://www1.cs.columbia.edu/ids/oldwebsite_before_12_2005/library/accest.ps.(Morgan Kaufmann, San Mateo)
Wikimedia foundation. 2010.