lundi 11 avril 2011

Présentations Jeudi 12 mai 2011 : Random Forests et conjoncture économique

Deux présentations pour le jeudi 12 mai :


Date : jeudi 12/05/2011
Lieu :
ENGREF
19 avenue du Maine
75732 PARIS
Métro : Montparnasse, Falguière
Salle 208

########################################
"Random forests / Forêts aléatoires"
Gérard Biau (Université Pierre et Marie Curie)


et


"Euro area GDP forecasting using large survey datasets: a Random Forest approach"
Olivier Biau (Commission Européenne)

#####Lieu


#####Résumés
Titre : Random forests / Forêts aléatoires

Résumé : Random forests are a scheme proposed by Leo Breiman in the 00's for building a predictor ensemble with a set of decision trees that grow in randomly selected subspaces of data. Despite growing interest and practical use, there has been little exploration of the statistical properties of random forests, and little is known about the mathematical forces driving the algorithm. In this talk, we will discuss an in-depth analysis of a random forests model suggested by Breiman in 2004, which is very close to the original algorithm. We show in particular that the procedure is consistent and adapts to sparsity, in the sense that its rate of convergence depends only on the number of strong features and not on how many noise variables are present.


"Euro area GDP forecasting using large survey datasets: a Random Forest approach"

Résumé: This paper investigates the potential of applying the Random Forests technique to modelling and forecasting macro-economic aggregates using large datasets of survey variables, in the same vein as Biau, Biau and Rouvière (2007). A specific application for short-term GDP forecasting in the euroarea is shown using the harmonised European Union Business and Consumer Survey dataset. The Random Forests technique is explored with two aims in mind: the first is to obtain (through a Monte Carlo exercise) a preliminary non-parametric forecast of GDP growth, and the second is to analyse a number of candidate explanatory variables to distinguish between those which significantly contribute to explaining and predicting the analysed phenomenon and those which mostly add random noise. The forecast performance of this survey-based model is assessed with an out-of-sample exercise (using vintage data): the results are compared both with the outputs from an auto-regressive model (taken as benchmark) and with the quarterly projections of the euro zone economic outlook (jointly released by three major European economic institutes: the German IFO, the French INSEE and the Italian ISAE), which are deemed to be among the most reliable forecasts. Evidence is found that a well-performing and parsimonious survey-based model can be specified to forecast GDP quarter-on-quarter growth in the euro area, and that Random Forests is therefore an effective tool for selecting the most relevant predictive variables.



lundi 7 mars 2011

Présentation du vendredi 08/04/2011, prédiction conforme parcimonieuse

Date : vendredi 08/04/2011
Lieu :
ENGREF
19 avenue du Maine
75732 PARIS
Métro : Montparnasse, Falguière
Salle 7


Prédiction conforme parcimonieuse

par Mohamed Hebiri (Université Marne la Vallée)



Résumé :
La prédiction conforme a été introduite par Vovk et al. (Vovk V.,
Gammerman A., et Shafer G. "Algorithmic learning in a random world".
Springer, New York, 2005.) dans le but de construire des intervalles de
confiance en utilisant la notion de conformité entre la nouvelle
observation et celles déjà observées.
Nous étendons ici cette méthode au modèle linéaire multivarié parcimonieux
(seul un petit nombre des variables a une réelle influence sur la variable
de sortie). Notre approche combine la méthodologie de la prédiction
conforme aux méthodes de régularisation parcimonieuse et plus
particulièrement à l'estimateur des moindres carrés pénalisé par la norme
$\ell_1$ des coefficients de régression (LASSO).

lundi 7 février 2011

Présentation du 04/03/2011 : prédiction avec experts, application à la qualité de l'air

Lieu :
ENGREF
19 avenue du Maine
75732 PARIS
Métro : Montparnasse, Falguière
Salle 7

Prédiction avec experts, statistiques déterministes appliquées à la prédiction de la qualité de l'air

par Gilles Stoltz (HEC, CNRS)


mardi 25 janvier 2011

Présentation du 04/02/2011 : prévision traffic passagers (ADP)



Daniel Sallier, Aéroports de Paris

A/ La méthode non économétrique Kenza d'estimation et de prévision à long terme de la demande finale des consommateurs (ici son papier sur le sujet).

Il s'agit de la méthode primaire de prévision du trafic annuel utilisée à ADP.

B/ la prévision probabilisée. Il s'agit de techniques dont partie des travaux de R&D ont été financés par la Commission Européenne qui permettent de déterminer les loi empirique de probabilité année après année des prévisions de trafic. Cette approche est en œuvre également à Aéroports de Paris depuis 2003.

Lieu :
ENGREF
19 avenue du Maine
75732 PARIS
Métro : Montparnasse, Falguière
Salle 7
Horaires : 12h30-14h00








jeudi 16 décembre 2010

Présentation du 21/01/2011 : Méthodes de validation et d'évaluation de prévision en loi

Lieu :
ENGREF
19 avenue du Maine
75732 PARIS
Métro : Montparnasse, Falguière
Salle 7

Méthodes de validation et d'évaluation de prévision en loi

par Jérome Collet (EDF R&D)

Abstract :

De plus en plus souvent, les prévisions sont fournies avec une indication de précision. Il existe même des méthodes permettant une prévision en loi, c'est à dire une estimation de la loi de la variable d'intérêt, conditionnellement au passé. On peut citer sur ce point la régression quantile (Koenker, 1978), les modèles ARCH (Engle, 1985), et plus récemment l'état de l'art de Tay et Wallis en 2000.


La validation et l'évaluation de ce type de prévision pose un certain nombre de problèmes de natures assez variées. En particulier, il ne semble pas y avoir actuellement de consensus sur les qualités que l'on attend d'une prévision en loi. Par ailleurs, certaines questions techniques semblent difficiles.

Télécharger la présentation

vendredi 19 novembre 2010

Présentation du 10/12/2010 Théorie de l'apprentissage "à la Vapnik" pour des séries temporelles.

Lieu :
ENGREF
19 avenue du Maine
75732 PARIS
Métro : Montparnasse, Falguière

Salle : amphi 208


Théorie de l'apprentissage "à la Vapnik" pour des séries temporelles.

Présentation par Pierre Alquier (Université Paris 7)

Abstract
L'idée de la théorie de l'apprentissage statistique est d'éviter de formuler un modèle, paramétrique ou non, sur les données. On se donne plutôt une famille de prédicteurs, et on essaie de répondre aux deux questions suivantes: existe-t'il dans cette famille un prédicteur capable d'effectuer de bonnes prévisions? comment "apprendre" (ou estimer) ce prédicteur à partir de données, si possible avec des garanties théoriques et sans faire tendre le nombre d'observations vers l'infini (cadre non-asymptotique).

Cette approche a connu un franc succès dans le traitement de données iid. Tenter de l'étendre au cas des séries temporelles semble donc naturel, il y a plusieurs approches possibles. Dans cet exposé je vais tenter de présenter l'approche qui colle au plus près la version "iid" de la théorie. Pour cela, je me baserai sur 3 articles qui, bien que proposant des résultats différents, visent grosso modo ce même objectif:

1) Modha & Masry, Minimum Complexity Regression Estimation with Weakly Dependent Observations,
1996, IEEE Transactions on Information Theory.

2) Meir, Non-Parametric Time Series Prediction Through Adaptive Model Selection, 2000, Machine
Learning.

3) Alquier & Wintenberger, Model Selection for Weakly Dependent Time Series Forecasting, 2009,
soumis et disponible sur arXiv.

Contrairement au cas iid, des hypothèses techniques sur les données sont nécessaires. On discutera les hypothèses dans ces 3 articles. J'essaierai également de discuter les liens et les différences avec d'autres approches pour la prédiction qui seront présentées plus tard dans ce séminaire (comme l'approche "prédiction de suites individuelles").

jeudi 4 novembre 2010

Présentation du 19/11/10 prévision consommation électrique

Date : 19/11/10 de 12h30 à 14h00

Lieu :
ENGREF
19 avenue du Maine
75732 PARIS
Métro : Montparnasse, Falguière

Salle : amphi 208
Présentation par Yannig Goude (EDF R&D)

Titre : Short-term electricity load forecasting with Adaptive Generalized Additive Model

Abstract
Modeling and forecasting the electricity load at short-term and middle-term horizons is a key activity for electrical companies. The need to maintain the equilibrium between the electricity supply and demand at any time is essential to avoid power systems injuries and blackouts that generate financial penalties or more important drawbacks. The French electrical load company Electricity De France (EDF) has always attached the utmost importance to that issue which stands for a central point in power system scheduling.
The advent of the wholesale electricity market in Europe and in France has brought renewed focus on load forecasting methods as the EDF demand which has been equal to the France is now submitted to customers departures or arrivals. In addition, the emergence of new consumption habits mainly due to new technologies (computers, heat pumps, flat panel displays…) entails slow modifications of the load curves.
Historical EDF models are based on parametric non-linear regression and classical time series modeling (ARIMA models) that needs a large amount of a-priori information from experts. We present a new model based on GAM methods, implemented in R thanks to the mgcv package developed by Simon Wood. This nonparametric model allows us to take into account exogenous predictors like temperature and cloud cover, as well as calendar effects (thanks to cyclic spline projection) or the lag effects of the load itself. We apply it on a part of the EDF portfolio (big customers) and show that this model can face with various situations, needs fewer a-priori information than a parametric model. To deal with the problem of non-stationnarity we propose an online update of this model, based on online recalculation of the coefficients of the projection on the spline basis. We obtain significant improvement of the forecasts, especially when parametric modeling fails.

Télécharger la présentation