Affichage des articles dont le libellé est Présentations. Afficher tous les articles
Affichage des articles dont le libellé est Présentations. Afficher tous les articles

jeudi 17 mai 2012

Vendredi 8 juin 2012 Prévisions ponctuelles et probabilistes de trafic aérien à partir de l'outil ADN

Vendredi 8 juin 2012 Prévisions ponctuelles et probabilistes de trafic aérien à partir de l'outil ADN , par Alexandre Servigne (ADP) et Raphaël Boudra (ADP)
   
 Lieu ENGREF
 Salle 7
12h30-13h30 : présentation

  ###### Alexandre Servigne (ADP) et Raphaël Boudra (ADP)
Prévisions ponctuelles et probabilistes de trafic aérien à partir de l'outil ADN

L'outil ADN (Alexander's drifts net : les filets dérivants d'Alexandre) permet de combiner différentes méthodes de prévisions pour effectuer les prévisions ponctuelles et probabilistes de trafic passagers et de mouvements avions à Aéroports de Paris..
La modélisation des séries, en fonction des différentes configurations, est organisée en arborescence et approchée par différentes méthodologies en fonction de son niveau dans l'arborescence.
Approche physique (méthode Kenza estimant la population susceptible de voyager) , différentes méthodes statistiques et prise en compte des points cibles décidés par le comité exècutif se partagent la modélisation.
Des techniques d'agrégation de modèles permettront de combiner les résultats issus des différentes méthodes statistiques.
Dans un cadre comptable, le respect des contraintes de cohérence (la somme des prévisions doit être égale à la prévision de la somme) pourra être assuré par la mise en place de techniques d'approches verticales/horizontales et d'optimisation quadratique.

lundi 19 mars 2012

Vendredi 13 avril : Prediction of Quantiles by Statistical Learning and Application to GDP Forecasting,

Lieu ENGREF
Salle 7
12h30-13h30
Vendredi 13 avril 2012

Pierre Alquier (Paris 7) et X.Li (Université de Cergy)
Prediction of Quantiles by Statistical
Learning and Application to GDP Forecasting

In this paper, we tackle the problem of prediction and confidence intervals for time series using a statistical learning approach and quantile loss functions.
In a first time, we show that the Gibbs estimator (also known as Exponentially Weighted aggregate) is able to predict as well as the best predictor in a given family for a wide set of loss functions.
In particular, using the quantile loss function of Koenker and Bassett (1978), this allows to build confidence intervals. We apply these results to the problem of prediction and confidence regions for the French Gross Domestic Product (GDP) growth, with promising results. 

lundi 13 février 2012

Présentation vendredi 16 mars 2012 : Adaptive GAM models for Day-Ahead and Intra-Day Electricity Consumption Forecasts

Lieu ENGREF
Salle 7
12h30-13h30
Vendredi 16 mars 2012

Yannig Goude
EDF R&D

Adaptive GAM models for Day-Ahead and Intra-Day Electricity Consumption Forecasts

Generalized Additive Models have been investigated recently to forecasts day-ahead electricity consumptions at EDF R&D. These models achieve an interesting trade-off between accuracy of forecasts and adaptation to different data sets thanks to their semi-parametric structures. We propose here a new method based on QR decomposition (joined work with S. Wood) to learn this models on-line as we receive new data. This allows GAM models to react to smooth changes in the data generation process: economic crisis, loss or gain of customers… We illustrate it on different data sets and real forecasts.

lundi 23 janvier 2012

Présentation Jeudi 9/02 : Nowcasting GDP directional change with an application to French business survey data

Matthieu Cornec, Fanny Mikol
Insee, CREST
DREES

ENSAE, Amphi 1
Jeudi 9 Février 2012
"Nowcasting GDP directional change with an application to French business survey data".


Abstract

Despite a rich litterature on GDP growth level forecasting, few studies
have focused on forecasting GDP directional change. This is all the more
suprising that economic outlook analysis is mainly explained in terms of
acceleration or deceleration. We conduct a comparative study between
di erent class of models ranging from econometrics to machine learning.
Empirical investigations on French economy suggest that classi cation
models slightly outperform their level-based counterpart, with the respect
to the sign forecast exercise. We also provide analytical properties for
future model-based predictions. Eventually, we construct a directional
risk index which describes in probability terms the risk of an upcoming
deceleration. Applied to the balances of di erent business surveys, it
appears as a useful tool for economic forecasters


jeudi 6 octobre 2011

Présentation 20/01/2012 Prediction in dynamic graph sequences

Lieu ENGREF
amphi b 208 2eme etage
12h30-13h30
Vendredi 20 janvier 2012

Emile RICHARD
1000mercis (en CIFRE) et au CMLA-ENS Cachan



Prediction in dynamic graph sequences

Nous nous intéressons aux problèmes de prédiction dans les graphes dynamiques. Les données relationnelles générées massivement par les applications internet (telles que les réseaux sociaux, réseaux de collaborations ou les historiques d'achats), ainsi que les données d'interaction des gènes et des protéines étudiées en biologie cellulaire, sont naturellement modélisées par des graphes. Le problème de prédiction dans ces graphes évoluant dans le temps présente un intérêt majeur pour divers types d'applications : par exemple pour la conception de moteurs de recommandation, ou en biologie, pour l'analyse des mécanismes sous-jacents au développement du cancer.
Nous suggérons d'aborder le problème sous forme de minimisation d'un problème régularisé. Après formulation du problème comme un problème d'optimisation, nous suggérons des algorithmes inspirés des récents travaux sur la complétion de matrice ainsi que des méthodes de prédiction de séries temporelles multi-variées pour approcher la solution. Nous étudierons le rôle de différents régulariseurs et présenterons des résultats empiriques.

Présentation 16/12/2011 Prévision non paramétrique de processus à valeurs fonctionnelles.

Lieu ENGREF
12h30 - 13h30
Lieu : Amphi 7 Rdc


Jairo Cugliari
Postdoc at SELECT team, INRIA
Travail réalisé en thèse à EDF


Titre
Prévision non paramétrique de processus à valeurs fonctionnelles.
Résumé
Nous traitons le problème de la prédiction d’un processus stochastique à valeurs fonctionnelles. Nous commençons par étudier le modèle proposé par Antoniadis et al.
(2006) dans le cadre d’une application pratique -la demande d’énergie électrique en France- où l’hypothèse de stationnarité semble ne pas se vérifier. L’écart du cadre stationnaire est double: d’une part, le niveau moyen de la série semble changer dans le temps, d’autre part il existe groupes dans les données qui peuvent être vus comme des classes de stationnarité.

Nous explorons corrections qui améliorent la performance de prédiction. Les corrections
visent à prendre en compte la présence de ces caractéristiques non stationnaires. En particulier, pour traiter l’existence de groupes, nous avons contraint le modèle de prévision à n’utiliser que les données qui appartiennet au même groupe que celui de la dernière observation disponible.

Si le regroupement est connu, un simple post-traitement suffit pour obtenir des meilleures
performances de prédiction. Si le regroupement en blocs est inconnu, nous proposons de découvrir le regroupement en utilisant des algorithmes d’analyse de classification non supervisée. La dimension infinie des trajectoires, pas nécessairement stationnaires, doit être prise en compte par l’algorithme. Nous proposons deux stratégies pour ce faire, toutes les deux basées sur les transformées en ondelettes. La première se base dans l’extraction d’attributs associés à la transformée en ondelettes discrète. L’extraction est suivie par une sélection des caractéristiques le plus significatives pour l’algorithme de classification. La seconde stratégie classifie directement les trajectoires à l’aide d’une mesure de dissimilarité sur les spectres en ondelettes.

Présentation du 4 novembre 2011 Ranking binaire et agrégation pour le cas multi-classes

Lieu : ENGREF
Salle amphi 7 RdC
12h30-13h30
Vendredi 4 novembre 2011

Sylvain Robbiano
Télécom Paristech


"Ranking binaire et agrégation pour le cas multi-classes"

"Dans de nombreuses applications, il ne s’agit pas seulement de classer les observations (‘ pertinent’ vs. ‘ non
pertinent’), mais de les ranger/ordonner de façon adéquate (par degré de pertinence). Des travaux relatifs à la formulation et à la résolution du problème de scoring/ranking ont été réalisés sur le modèle des méthodes utilisées en Machine Learning pour résoudre les problèmes de classification (Arbres de décision, Support Vector Machines, Boosting).
Dans cet exposé, on se focalisera sur l'algorithme TreeRank, qui consiste à approcher la courbe ROC optimale via un algorithme récurcif, puis on mettra en oeuvre une méthode d'agrégation d'ordres, basée sur la distance du tau de Kendall, pour résoudre le problème du ranking multi-classes."



Article de Sylvain Robbiano

dimanche 15 mai 2011

Présentation du 10/06/2011 reinforcement learning et problème des bandits bornés

Date : vendredi 10/06/2011
Lieu :
ENGREF
19 avenue du Maine
75732 PARIS
Métro : Montparnasse, Falguière
Amphi 7



L'algorithme KL-UCB pour les bandits bornés, et au delà

par Aurélien Garivier (CNRS, Enst)

Résumé :
L'apprentissage par renforcement se distingue des autres théories
d'apprentissage statistique en qu'il place en son coeur la dimension
temporelle, mais aussi interactive, du phénomène d'apprentissage. Les
modèles les plus simples qui s'y rattachent sont communément appelés
"problèmes de bandits" : un agent, faisant face à une collection de
machines à sous plus ou moins avantageuses, doit à chaque instant
choisir l'une d'elle et reçoit une récompense en conséquence - avec pour
objectif de maximiser la somme des récompenses reçues. Derrière cette
mise en situation un peu baroque, on devine sans peine une grande
variété de motivations pratiques, des essais cliniques au routage de
paquets sur internet.
Parmi les stratégies proposées en apprentissage par renforcement, on
distingue les algorithmes optimistes : ils agissent à chaque instant
comme s'ils se trouvaient dans l'environnement le plus favorable pour
eux parmi tous ceux qui rendent les observations passées suffisamment
vraisemblables. Nous verrons comme le paradigme optimiste peut être mis
en oeuvre efficacement et simplement ici, et comment l'algorithme
KL-UCB, en introduisant une notion de divergence sur l'espace des
récompenses adaptée au problème, conduit à des résultats
significativement meilleurs que ses concurrents.

Basé sur l'article :
The KL-UCB Algorithm for Bounded Stochastic Bandits and Beyond
par Aurélien Garivier and Olivier Cappé
http://arxiv.org/abs/1102.2490


lundi 11 avril 2011

Présentations Jeudi 12 mai 2011 : Random Forests et conjoncture économique

Deux présentations pour le jeudi 12 mai :


Date : jeudi 12/05/2011
Lieu :
ENGREF
19 avenue du Maine
75732 PARIS
Métro : Montparnasse, Falguière
Salle 208

########################################
"Random forests / Forêts aléatoires"
Gérard Biau (Université Pierre et Marie Curie)


et


"Euro area GDP forecasting using large survey datasets: a Random Forest approach"
Olivier Biau (Commission Européenne)

#####Lieu


#####Résumés
Titre : Random forests / Forêts aléatoires

Résumé : Random forests are a scheme proposed by Leo Breiman in the 00's for building a predictor ensemble with a set of decision trees that grow in randomly selected subspaces of data. Despite growing interest and practical use, there has been little exploration of the statistical properties of random forests, and little is known about the mathematical forces driving the algorithm. In this talk, we will discuss an in-depth analysis of a random forests model suggested by Breiman in 2004, which is very close to the original algorithm. We show in particular that the procedure is consistent and adapts to sparsity, in the sense that its rate of convergence depends only on the number of strong features and not on how many noise variables are present.


"Euro area GDP forecasting using large survey datasets: a Random Forest approach"

Résumé: This paper investigates the potential of applying the Random Forests technique to modelling and forecasting macro-economic aggregates using large datasets of survey variables, in the same vein as Biau, Biau and Rouvière (2007). A specific application for short-term GDP forecasting in the euroarea is shown using the harmonised European Union Business and Consumer Survey dataset. The Random Forests technique is explored with two aims in mind: the first is to obtain (through a Monte Carlo exercise) a preliminary non-parametric forecast of GDP growth, and the second is to analyse a number of candidate explanatory variables to distinguish between those which significantly contribute to explaining and predicting the analysed phenomenon and those which mostly add random noise. The forecast performance of this survey-based model is assessed with an out-of-sample exercise (using vintage data): the results are compared both with the outputs from an auto-regressive model (taken as benchmark) and with the quarterly projections of the euro zone economic outlook (jointly released by three major European economic institutes: the German IFO, the French INSEE and the Italian ISAE), which are deemed to be among the most reliable forecasts. Evidence is found that a well-performing and parsimonious survey-based model can be specified to forecast GDP quarter-on-quarter growth in the euro area, and that Random Forests is therefore an effective tool for selecting the most relevant predictive variables.



lundi 7 mars 2011

Présentation du vendredi 08/04/2011, prédiction conforme parcimonieuse

Date : vendredi 08/04/2011
Lieu :
ENGREF
19 avenue du Maine
75732 PARIS
Métro : Montparnasse, Falguière
Salle 7


Prédiction conforme parcimonieuse

par Mohamed Hebiri (Université Marne la Vallée)



Résumé :
La prédiction conforme a été introduite par Vovk et al. (Vovk V.,
Gammerman A., et Shafer G. "Algorithmic learning in a random world".
Springer, New York, 2005.) dans le but de construire des intervalles de
confiance en utilisant la notion de conformité entre la nouvelle
observation et celles déjà observées.
Nous étendons ici cette méthode au modèle linéaire multivarié parcimonieux
(seul un petit nombre des variables a une réelle influence sur la variable
de sortie). Notre approche combine la méthodologie de la prédiction
conforme aux méthodes de régularisation parcimonieuse et plus
particulièrement à l'estimateur des moindres carrés pénalisé par la norme
$\ell_1$ des coefficients de régression (LASSO).

lundi 7 février 2011

Présentation du 04/03/2011 : prédiction avec experts, application à la qualité de l'air

Lieu :
ENGREF
19 avenue du Maine
75732 PARIS
Métro : Montparnasse, Falguière
Salle 7

Prédiction avec experts, statistiques déterministes appliquées à la prédiction de la qualité de l'air

par Gilles Stoltz (HEC, CNRS)


mardi 25 janvier 2011

Présentation du 04/02/2011 : prévision traffic passagers (ADP)



Daniel Sallier, Aéroports de Paris

A/ La méthode non économétrique Kenza d'estimation et de prévision à long terme de la demande finale des consommateurs (ici son papier sur le sujet).

Il s'agit de la méthode primaire de prévision du trafic annuel utilisée à ADP.

B/ la prévision probabilisée. Il s'agit de techniques dont partie des travaux de R&D ont été financés par la Commission Européenne qui permettent de déterminer les loi empirique de probabilité année après année des prévisions de trafic. Cette approche est en œuvre également à Aéroports de Paris depuis 2003.

Lieu :
ENGREF
19 avenue du Maine
75732 PARIS
Métro : Montparnasse, Falguière
Salle 7
Horaires : 12h30-14h00








jeudi 16 décembre 2010

Présentation du 21/01/2011 : Méthodes de validation et d'évaluation de prévision en loi

Lieu :
ENGREF
19 avenue du Maine
75732 PARIS
Métro : Montparnasse, Falguière
Salle 7

Méthodes de validation et d'évaluation de prévision en loi

par Jérome Collet (EDF R&D)

Abstract :

De plus en plus souvent, les prévisions sont fournies avec une indication de précision. Il existe même des méthodes permettant une prévision en loi, c'est à dire une estimation de la loi de la variable d'intérêt, conditionnellement au passé. On peut citer sur ce point la régression quantile (Koenker, 1978), les modèles ARCH (Engle, 1985), et plus récemment l'état de l'art de Tay et Wallis en 2000.


La validation et l'évaluation de ce type de prévision pose un certain nombre de problèmes de natures assez variées. En particulier, il ne semble pas y avoir actuellement de consensus sur les qualités que l'on attend d'une prévision en loi. Par ailleurs, certaines questions techniques semblent difficiles.

Télécharger la présentation

vendredi 19 novembre 2010

Présentation du 10/12/2010 Théorie de l'apprentissage "à la Vapnik" pour des séries temporelles.

Lieu :
ENGREF
19 avenue du Maine
75732 PARIS
Métro : Montparnasse, Falguière

Salle : amphi 208


Théorie de l'apprentissage "à la Vapnik" pour des séries temporelles.

Présentation par Pierre Alquier (Université Paris 7)

Abstract
L'idée de la théorie de l'apprentissage statistique est d'éviter de formuler un modèle, paramétrique ou non, sur les données. On se donne plutôt une famille de prédicteurs, et on essaie de répondre aux deux questions suivantes: existe-t'il dans cette famille un prédicteur capable d'effectuer de bonnes prévisions? comment "apprendre" (ou estimer) ce prédicteur à partir de données, si possible avec des garanties théoriques et sans faire tendre le nombre d'observations vers l'infini (cadre non-asymptotique).

Cette approche a connu un franc succès dans le traitement de données iid. Tenter de l'étendre au cas des séries temporelles semble donc naturel, il y a plusieurs approches possibles. Dans cet exposé je vais tenter de présenter l'approche qui colle au plus près la version "iid" de la théorie. Pour cela, je me baserai sur 3 articles qui, bien que proposant des résultats différents, visent grosso modo ce même objectif:

1) Modha & Masry, Minimum Complexity Regression Estimation with Weakly Dependent Observations,
1996, IEEE Transactions on Information Theory.

2) Meir, Non-Parametric Time Series Prediction Through Adaptive Model Selection, 2000, Machine
Learning.

3) Alquier & Wintenberger, Model Selection for Weakly Dependent Time Series Forecasting, 2009,
soumis et disponible sur arXiv.

Contrairement au cas iid, des hypothèses techniques sur les données sont nécessaires. On discutera les hypothèses dans ces 3 articles. J'essaierai également de discuter les liens et les différences avec d'autres approches pour la prédiction qui seront présentées plus tard dans ce séminaire (comme l'approche "prédiction de suites individuelles").

jeudi 4 novembre 2010

Présentation du 19/11/10 prévision consommation électrique

Date : 19/11/10 de 12h30 à 14h00

Lieu :
ENGREF
19 avenue du Maine
75732 PARIS
Métro : Montparnasse, Falguière

Salle : amphi 208
Présentation par Yannig Goude (EDF R&D)

Titre : Short-term electricity load forecasting with Adaptive Generalized Additive Model

Abstract
Modeling and forecasting the electricity load at short-term and middle-term horizons is a key activity for electrical companies. The need to maintain the equilibrium between the electricity supply and demand at any time is essential to avoid power systems injuries and blackouts that generate financial penalties or more important drawbacks. The French electrical load company Electricity De France (EDF) has always attached the utmost importance to that issue which stands for a central point in power system scheduling.
The advent of the wholesale electricity market in Europe and in France has brought renewed focus on load forecasting methods as the EDF demand which has been equal to the France is now submitted to customers departures or arrivals. In addition, the emergence of new consumption habits mainly due to new technologies (computers, heat pumps, flat panel displays…) entails slow modifications of the load curves.
Historical EDF models are based on parametric non-linear regression and classical time series modeling (ARIMA models) that needs a large amount of a-priori information from experts. We present a new model based on GAM methods, implemented in R thanks to the mgcv package developed by Simon Wood. This nonparametric model allows us to take into account exogenous predictors like temperature and cloud cover, as well as calendar effects (thanks to cyclic spline projection) or the lag effects of the load itself. We apply it on a part of the EDF portfolio (big customers) and show that this model can face with various situations, needs fewer a-priori information than a parametric model. To deal with the problem of non-stationnarity we propose an online update of this model, based on online recalculation of the coefficients of the projection on the spline basis. We obtain significant improvement of the forecasts, especially when parametric modeling fails.

Télécharger la présentation

Présentation du 8/10/10 conjoncture économique

Présentation par Matthieu Cornec (INSEE, CREST) :
- Résumé l'univers de la conjoncture, en soulignant les contraintes de calendrier et les critères de validation.
- Présentation d'un travail récent "Constructing a conditional GDP fan chart with an application to French business survey data".

Prévision : 0.4% au T3 2004 pour le premier résultat de la croissance trimestriel du PIB français
intervalle de confiance à 90% (0.0%,0.9%)
Parution le 12 novembre du premier résultat

Publication du premier résultat de la croissance au T3 : 0.4% (12/11/2010)

###########################################################################################
Titre : Constructing a conditional GDP fan chart with an application to French business survey data

Matthieu Cornec

Abstract

Among economic forecasters, it has become a more common practice to provide point projection with a density forecast. This realistic view acknowledges that nobody can predict future evolution of the economic outlook with absolute certainty. Interval confidence and density forecasts have thus become useful tools to describe in probability terms the uncertainty inherent to any point forecast (for a review see Tay and Wallis 2000). Since 1996, the Central Bank of England (CBE) has published a density forecast of inflation in its quarterly Inflation Report, so called “fan chart”. More recently, INSEE has also published a fan chart of its Gross Domestic Production (GDP) prediction in the Note de Conjoncture. Both methodologies estimate parameters of exponential families on the sample of past errors. They thus suffer from some drawbacks. First, INSEE fan chart is unconditional which means that whatever the economic outlook is, the magnitude of the displayed uncertainty is the same.

On the contrary, it is common belief among practitioners that the forecasting exercise highly depends on the state of the economy, especially during crisis. A second limitation is that CBE fan chart is not reproducible as it introduces subjectivity. Eventually, another inadequacy is the parametric shape of the ditribution.

In this paper, we tackle those issues to provide a reproducible conditional and non-parametric fan chart. For this, following Taylor 1999, we combine quantile regression approach together with regularization techniques to display a density forecast conditional on the available information. In the same time, we build a Forecasting Risk Index associated to this fan chart to measure the intrinsic difficulty of the forecasting exercise. The proposed methodology is applied to the French economy. Using balances of different business surveys, the GDP fan chart captures efficiently the growth stall during the crisis on an real-time basis. Moreover, our Forecasting Risk Index increased substantially in this period of turbulence, showing signs of growing uncertainty.


Télécharger la présentation