Monte Carlo methods for estimating Mallows's Cp and AIC criteria for PLSR models. Illustration on agronomic spectroscopic NIR data
2021
Lesnoff, Matthieu | Roger, Jean‐michel | Rutledge, Douglas | Systèmes d'élevage méditerranéens et tropicaux (UMR SELMET) ; Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE)-Institut Agro - Montpellier SupAgro ; Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro) | Département Environnements et Sociétés (Cirad-ES) ; Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad) | Information – Technologies – Analyse Environnementale – Procédés Agricoles (UMR ITAP) ; Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE)-Institut Agro - Montpellier SupAgro ; Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro) | Paris-Saclay Food and Bioproduct Engineering (SayFood) ; AgroParisTech-Université Paris-Saclay-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE) | Qualinov project (European Union)
International audience
اظهر المزيد [+] اقل [-]إنجليزي. Mallows's Cp and Akaike information criterion (AIC) are common criteria for selecting the dimensionality of regression models, as an alternative to cross-validation (CV) and nonparametric bootstrap. A key parameter in the calculation of Cp and AIC is the effective number of degrees of freedom of the model, or model complexity (d). Parameter d is generally easy to calculate for linear smoothers, that is, models for which the prediction of the training response y is given by urn:x-wiley:08869383:media:cem3369:cem3369-math-0001 = S y where S is a projector matrix that does not involve y. Nevertheless, d is more difficult to estimate for nonlinear smoothers, such as partial least squares regression (PLSR). In this article, we present two algorithms for estimating d for PLSR based on Monte Carlo simulation methods (parametric bootstrap and perturbation analysis) and with the particular case of high dimensional data. We compare these Monte Carlo methods to three other algorithms already published. We used the d estimates to compute Cp and AIC and select PLSR model dimensionalities that we then compare to CV. Two real and heterogeneous agronomic near infrared (NIR) datasets were considered as examples.
اظهر المزيد [+] اقل [-]المعلومات البيبليوغرافية
تم تزويد هذا السجل من قبل AgroParisTech