Saturday, February 4, 2017

Logiciel De Moyenne Mobile Autorégressive

Un RIMA signifie Autoregressive Integrated Moving Average modèles. Univariée (vecteur unique) ARIMA est une technique de prévision qui projette les valeurs futures d'une série basée entièrement sur sa propre inertie. Sa principale application est dans le domaine de la prévision à court terme nécessitant au moins 40 points de données historiques. Il fonctionne mieux lorsque vos données présentent un modèle stable ou cohérent avec le temps avec un minimum de valeurs aberrantes. Parfois appelé Box-Jenkins (après les auteurs originaux), ARIMA est généralement supérieur aux techniques de lissage exponentiel quand les données sont raisonnablement longues et la corrélation entre les observations passées est stable. Si les données sont courtes ou très volatiles, une méthode de lissage peut avoir un meilleur rendement. Si vous n'avez pas au moins 38 points de données, vous devriez considérer une autre méthode que ARIMA. La première étape de l'application de la méthodologie ARIMA est de vérifier la stationnarité. La stationnarité implique que la série reste à un niveau relativement constant dans le temps. Si une tendance existe, comme dans la plupart des applications économiques ou commerciales, vos données ne sont PAS stationnaires. Les données devraient également montrer une variance constante de ses fluctuations dans le temps. Cela se voit facilement avec une série qui est fortement saisonnière et croissant à un rythme plus rapide. Dans un tel cas, les hauts et les bas de la saisonnalité deviendront plus dramatiques avec le temps. Sans ces conditions de stationnarité rencontrées, un grand nombre des calculs associés au procédé ne peuvent pas être calculés. Si une représentation graphique des données indique la non-stationnalité, alors vous devez faire une différence entre les séries. La différence est un excellent moyen de transformer une série non stationnaire en stationnaire. Ceci est fait en soustrayant l'observation dans la période courante de la précédente. Si cette transformation n'est effectuée qu'une seule fois dans une série, vous dites que les données ont été différenciées pour la première fois. Ce processus élimine essentiellement la tendance si votre série croît à un taux assez constant. Si elle croît à un rythme croissant, vous pouvez appliquer la même procédure et la différence les données à nouveau. Vos données seraient ensuite secondées. Les autocorrélations sont des valeurs numériques qui indiquent comment une série de données est liée à elle-même au fil du temps. Plus précisément, elle mesure à quel point les valeurs de données à un certain nombre de périodes séparées sont corrélées les unes aux autres dans le temps. Le nombre de périodes d'intervalle est généralement appelé le décalage. Par exemple, une autocorrélation au décalage 1 mesure comment les valeurs 1 période séparées sont corrélées les unes aux autres tout au long de la série. Une autocorrélation au décalage 2 mesure comment les données deux périodes séparées sont corrélées tout au long de la série. Les autocorrélations peuvent varier de 1 à -1. Une valeur proche de 1 indique une corrélation positive élevée alors qu'une valeur proche de -1 implique une corrélation négative élevée. Ces mesures sont le plus souvent évaluées par des parcelles graphiques appelées corrélagrammes. Un corrélogramme trace les valeurs d'autocorrélation pour une série donnée à différents décalages. Ceci est appelé la fonction d'autocorrélation et est très important dans la méthode ARIMA. La méthodologie ARIMA tente de décrire les mouvements d'une série temporelle stationnaire en fonction de ce que l'on appelle les paramètres autorégressifs et de moyenne mobile. Ceux-ci sont appelés paramètres AR (autoregessive) et MA (moyennes mobiles). Un modèle AR avec un seul paramètre peut être écrit comme. X (t) A (1) X (t-1) E (t) où X (t) séries temporelles sous enquête A (1) le paramètre autorégressif d'ordre 1 X (t-1) (T) le terme d'erreur du modèle Cela signifie simplement que toute valeur donnée X (t) peut être expliquée par une fonction de sa valeur précédente, X (t-1), plus une erreur aléatoire inexplicable, E (t). Si la valeur estimée de A (1) était de 0,30, alors la valeur actuelle de la série serait liée à 30 de sa valeur il y a une période. Bien sûr, la série pourrait être liée à plus d'une valeur passée. Par exemple, X (t) A (1) X (t-1) A (2) X (t-2) E (t) Cela indique que la valeur courante de la série est une combinaison des deux valeurs immédiatement précédentes, X (t-1) et X (t-2), plus une erreur aléatoire E (t). Notre modèle est maintenant un modèle autorégressif de l'ordre 2. Modèles de moyenne mobile: Un deuxième type de modèle de Box-Jenkins est appelé un modèle de moyenne mobile. Bien que ces modèles semblent très semblables au modèle AR, le concept derrière eux est tout à fait différent. Les paramètres de la moyenne mobile rapportent ce qui se produit dans la période t seulement aux erreurs aléatoires qui se sont produites dans des périodes passées, c'est-à-dire E (t-1), E (t-2), etc. plutôt que X (t-1) T-2), (Xt-3) comme dans les approches autorégressives. Un modèle de moyenne mobile avec un terme MA peut s'écrire comme suit. X (t) - B (1) E (t-1) E (t) Le terme B (1) est appelé MA d'ordre 1. Le signe négatif devant le paramètre est utilisé uniquement pour la convention et est habituellement imprimé Automatiquement par la plupart des programmes informatiques. Le modèle ci-dessus dit simplement que toute valeur donnée de X (t) est directement liée seulement à l'erreur aléatoire de la période précédente, E (t-1), et au terme d'erreur courant, E (t). Comme dans le cas des modèles autorégressifs, les modèles à moyenne mobile peuvent être étendus à des structures d'ordre supérieur couvrant différentes combinaisons et longueurs moyennes mobiles. La méthodologie ARIMA permet également de construire des modèles intégrant à la fois des paramètres autorégressifs et des paramètres de la moyenne mobile. Ces modèles sont souvent appelés modèles mixtes. Bien que cela constitue un outil de prévision plus compliqué, la structure peut en effet simuler la série mieux et produire une prévision plus précise. Les modèles purs impliquent que la structure ne se compose que de paramètres AR ou MA - pas les deux. Les modèles développés par cette approche sont habituellement appelés modèles ARIMA car ils utilisent une combinaison d'auto-régression (AR), d'intégration (I) - se référant au processus inverse de différenciation pour produire les opérations de prévision et de moyenne mobile (MA). Un modèle ARIMA est habituellement déclaré comme ARIMA (p, d, q). Cela représente l'ordre des composantes autorégressives (p), le nombre d'opérateurs de différenciation (d) et l'ordre le plus élevé du terme moyen mobile. Par exemple, ARIMA (2,1,1) signifie que vous avez un modèle autorégressif de second ordre avec une composante moyenne mobile de premier ordre dont la série a été différenciée une fois pour induire la stationnarité. Picking the Right Specification: Le principal problème dans le classique Box-Jenkins est d'essayer de décider quelle spécification ARIMA à utiliser - i. e. Combien de paramètres AR et / ou MA à inclure. C'est ce que beaucoup de Box-Jenkings 1976 a été consacré au processus d'identification. Elle dépend de l'éva - luation graphique et numérique des fonctions d'autocorrélation et d'autocorrélation partielle. Eh bien, pour vos modèles de base, la tâche n'est pas trop difficile. Chacun a des fonctions d'autocorrélation qui ont une certaine apparence. Cependant, lorsque vous montez en complexité, les motifs ne sont pas facilement détectés. Pour rendre les choses plus difficiles, vos données ne représentent qu'un échantillon du processus sous-jacent. Cela signifie que les erreurs d'échantillonnage (valeurs aberrantes, erreurs de mesure, etc.) peuvent fausser le processus d'identification théorique. C'est pourquoi la modélisation ARIMA traditionnelle est un art plutôt qu'une science. Les processus d'erreur moyenne mobile (ARMA) et les autres modèles impliquant des retards de termes d'erreur peuvent être estimés à l'aide d'instructions FIT et simulés ou prévisibles en utilisant les instructions SOLVE. Les modèles ARMA pour le processus d'erreur sont souvent utilisés pour les modèles avec des résidus autocorrélés. La macro AR peut être utilisée pour spécifier des modèles avec des processus d'erreur autorégressive. La macro MA peut être utilisée pour spécifier des modèles avec des processus d'erreur moyenne mobile. Erreurs autorégressives Un modèle avec des erreurs autorégressives de premier ordre, AR (1), a la forme alors qu'un processus d'erreur AR (2) a la forme et ainsi de suite pour les processus d'ordre supérieur. Notez que les s sont indépendants et identiquement distribués et ont une valeur attendue de 0. Un exemple d'un modèle avec une composante AR (2) est et ainsi de suite pour les processus d'ordre supérieur. Par exemple, vous pouvez écrire un modèle de régression linéaire simple avec MA (2) erreurs de moyenne mobile où MA1 et MA2 sont les paramètres de la moyenne mobile. Notez que RESID. Y est automatiquement défini par PROC MODEL comme La fonction ZLAG doit être utilisée pour les modèles MA pour tronquer la récursivité des décalages. Cela garantit que les erreurs retardées commencent à zéro dans la phase d'amorçage et ne propagent pas les valeurs manquantes lorsque des variables de période d'amorçage sont manquantes et il s'assure que les erreurs futures sont nulles plutôt que manquantes pendant la simulation ou la prévision. Pour plus de détails sur les fonctions de retard, reportez-vous à la section Lag Logic. Ce modèle écrit à l'aide de la macro MA est le suivant: Forme générale pour les modèles ARMA Le processus général ARMA (p, q) a la forme suivante Un modèle ARMA (p, q) peut être spécifié comme suit: où AR i et MA j représentent Les paramètres autorégressifs et de moyenne mobile pour les différents décalages. Vous pouvez utiliser tous les noms que vous souhaitez pour ces variables, et il existe de nombreuses façons équivalentes que la spécification pourrait être écrit. Les processus ARMA vectoriels peuvent également être estimés avec le MODÈLE PROC. Par exemple, un processus AR (1) à deux variables pour les erreurs des deux variables endogènes Y1 et Y2 peut être spécifié comme suit: Problèmes de convergence avec les modèles ARMA Les modèles ARMA peuvent être difficiles à estimer. Si les estimations des paramètres ne se situent pas dans la plage appropriée, les termes résiduels d'un modèle de moyenne mobile augmentent de façon exponentielle. Les résidus calculés pour les observations ultérieures peuvent être très importants ou peuvent déborder. Cela peut se produire soit parce que des valeurs de départ inappropriées ont été utilisées, soit parce que les itérations se sont éloignées de valeurs raisonnables. Il faut prendre soin de choisir les valeurs de départ pour les paramètres ARMA. Les valeurs initiales de 0,001 pour les paramètres ARMA fonctionnent habituellement si le modèle correspond bien aux données et que le problème est bien conditionné. Notez qu'un modèle MA peut souvent être approché par un modèle AR de haut niveau, et vice versa. Cela peut entraîner une collinearité élevée dans les modèles ARMA mixtes, ce qui peut entraîner un mauvais conditionnement dans les calculs et l'instabilité des paramètres estimés. Si vous avez des problèmes de convergence lors de l'estimation d'un modèle avec des processus d'erreur ARMA, essayez d'estimer par étapes. Tout d'abord, utilisez une déclaration FIT pour estimer uniquement les paramètres structurels avec les paramètres ARMA maintenus à zéro (ou à des estimations antérieures raisonnables si disponibles). Ensuite, utilisez une autre instruction FIT pour estimer les paramètres ARMA uniquement, en utilisant les valeurs des paramètres structurels de la première exécution. Puisque les valeurs des paramètres structurels sont vraisemblablement proches de leurs estimations finales, les estimations des paramètres ARMA pourraient alors converger. Enfin, utilisez une autre instruction FIT pour produire des estimations simultanées de tous les paramètres. Comme les valeurs initiales des paramètres sont maintenant susceptibles d'être très proches de leurs estimations conjointes finales, les estimations devraient converger rapidement si le modèle est approprié pour les données. AR Conditions initiales Les retards initiaux des termes d'erreur des modèles AR (p) peuvent être modélisés de différentes façons. Les méthodes de démarrage d'erreurs autorégressives supportées par les procédures SASETS sont les suivantes: Procédures minimales conditionnelles (Procédures ARIMA et MODEL) Procédures minimales inconditionnelles (procédures AUTOREG, ARIMA et MODEL) maximal (procédures AUTOREG, ARIMA et MODEL) Yule-Walker (AUTOREG Procédure AUTOREG, pour une explication et une discussion sur les mérites de différentes méthodes de démarrage AR (p). Les initialisations CLS, ULS, ML et HL peuvent être effectuées par PROC MODEL. Pour les erreurs AR (1), ces initialisations peuvent être produites comme indiqué dans le tableau 18.2. Ces méthodes sont équivalentes dans de grands échantillons. Tableau 18.2 Initialisations effectuées par PROC MODEL: AR (1) ERRORS Les retards initiaux des termes d'erreur des modèles MA (q) peuvent également être modélisés de différentes façons. Les paradigmes de démarrage d'erreur moyenne mobile suivants sont supportés par les procédures ARIMA et MODEL: les moindres carrés conditionnels les moindres carrés inconditionnels La méthode des moindres carrés conditionnels pour estimer les termes d'erreurs moyennes mobiles n'est pas optimale car elle ignore le problème de démarrage. Cela réduit l'efficacité des estimations, bien qu'elles demeurent impartiales. Les résidus retardés initiaux, qui s'étendent avant le début des données, sont supposés être 0, leur valeur inconditionnelle attendue. Ceci introduit une différence entre ces résidus et les résidus des moindres carrés généralisés pour la covariance de la moyenne mobile qui, contrairement au modèle autorégressif, persiste dans l'ensemble de données. Habituellement, cette différence converge rapidement vers 0, mais pour les processus de moyenne mobile non interchangeables la convergence est assez lente. Pour minimiser ce problème, vous devriez avoir beaucoup de données, et les estimations des paramètres de la moyenne mobile devraient être bien dans la gamme inversible. Ce problème peut être corrigé au détriment d'écrire un programme plus complexe. On peut produire des estimations des moindres carrés inconditionnels pour le processus MA (1) en spécifiant le modèle comme suit: Les erreurs moyennes mobiles peuvent être difficiles à estimer. Vous devriez envisager d'utiliser une approximation AR (p) pour le processus de la moyenne mobile. Un processus à moyenne mobile peut généralement être bien approché par un processus autorégressif si les données n'ont pas été lissées ou différenciées. La macro AR La macro SAS AR génère des instructions de programmation pour le modèle PROC pour les modèles autorégressifs. La macro AR fait partie du logiciel SASETS et aucune option spéciale ne doit être définie pour utiliser la macro. Le processus autorégressif peut être appliqué aux erreurs d'équations structurelles ou aux séries endogènes elles-mêmes. La macro AR peut être utilisée pour les types d'autorégression suivants: autorégression vectorielle non restreinte autorégression vectorielle restreinte Autoregression univariée Pour modéliser le terme d'erreur d'une équation comme un processus autorégressif, utilisez l'instruction suivante après l'équation: Par exemple, supposons que Y est un Linéaire de X1, X2 et une erreur AR (2). Vous écririez ce modèle comme suit: Les appels à AR doivent venir après toutes les équations auxquelles s'applique le processus. L'invocation de la macro précédente, AR (y, 2), produit les instructions affichées dans la sortie LIST de la figure 18.58. Figure 18.58 Sortie d'option LIST pour un modèle AR (2) Les variables préfixées PRED sont des variables de programme temporaires utilisées de sorte que les retards des résidus sont les résidus corrects et non ceux qui sont redéfinis par cette équation. Notez que cela équivaut aux instructions explicitement écrites dans la section Formulaire général pour les modèles ARMA. Vous pouvez également restreindre les paramètres autorégressifs à zéro à des décalages sélectionnés. Par exemple, si vous vouliez des paramètres autorégressifs aux lags 1, 12 et 13, vous pouvez utiliser les instructions suivantes: Ces instructions génèrent la sortie de la figure 18.59. Figure 18.59 Sortie de l'option LIST pour un modèle AR avec Lags aux niveaux 1, 12 et 13 La liste des procédures MODEL de l'instruction de code du programme compilé est analysée PRED. yab x1 c x2 RESID. y PRED. y - ACTUAL. y ERROR. y PRED. Y-y OLDPRED. y PRED. y yl1 ZLAG1 (y-perdy) yl12 ZLAG12 (y-perdy) yl13 ZLAG13 (y-perdy) RESID. y PRED. y - ACTUAL. y ERROR. y PRED. y - y Il existe Variations selon la méthode des moindres carrés conditionnels, selon que les observations au début de la série sont utilisées pour réchauffer le processus AR. Par défaut, la méthode des moindres carrés conditionnels AR utilise toutes les observations et suppose des zéros pour les décalages initiaux des termes autorégressifs. En utilisant l'option M, vous pouvez demander à AR que vous utilisiez la méthode des moindres carrés inconditionnels (ULS) ou du maximum de vraisemblance (ML). Par exemple, les discussions sur ces méthodes sont fournies dans la section AR Conditions initiales. En utilisant l'option MCLS n, vous pouvez demander que les n premières observations soient utilisées pour calculer les estimations des retards autorégressifs initiaux. Dans ce cas, l'analyse commence par l'observation n 1. Par exemple: Vous pouvez utiliser la macro AR pour appliquer un modèle autorégressif à la variable endogène, au lieu du terme d'erreur, en utilisant l'option TYPEV. Par exemple, si vous voulez ajouter les cinq décalages passés de Y à l'équation de l'exemple précédent, vous pouvez utiliser AR pour générer les paramètres et les retards en utilisant les instructions suivantes: Les instructions précédentes génèrent la sortie illustrée à la figure 18.60. Figure 18.60 Option LIST Sortie pour un modèle AR de Y Ce modèle prédit Y comme une combinaison linéaire de X1, X2, une interception et les valeurs de Y dans les cinq dernières périodes. Autoregression vecteur non restreint Pour modéliser les termes d'erreur d'un ensemble d'équations comme un processus autorégressif vectoriel, utilisez la forme suivante de la macro AR après les équations: La valeur nomprocessus est tout nom que vous fournissez à AR à utiliser pour créer des noms pour l'autorégressif paramètres. Vous pouvez utiliser la macro AR pour modéliser plusieurs processus AR différents pour différents ensembles d'équations en utilisant différents noms de processus pour chaque ensemble. Le nom du processus garantit que les noms de variable utilisés sont uniques. Utilisez une valeur processname courte pour le processus si des estimations de paramètres doivent être écrites dans un jeu de données de sortie. La macro AR essaie de construire des noms de paramètres inférieurs ou égaux à huit caractères, mais limité par la longueur de nomprocessus. Qui est utilisé comme préfixe pour les noms de paramètres AR. La variable listlist est la liste des variables endogènes des équations. Supposons, par exemple, que les erreurs des équations Y1, Y2 et Y3 soient générées par un processus autorégressif vectoriel de second ordre. Vous pouvez utiliser les instructions suivantes: qui génèrent ce qui suit pour Y1 et un code similaire pour Y2 et Y3: Seule la méthode des moindres carrés conditionnels (MCLS ou MCLS n) peut être utilisée pour les processus vectoriels. Vous pouvez également utiliser le même formulaire avec des restrictions que la matrice de coefficients soit 0 aux décalages sélectionnés. Par exemple, les instructions suivantes appliquent un processus vectoriel de troisième ordre aux erreurs d'équation avec tous les coefficients au retard 2 restreint à 0 et avec les coefficients aux écarts 1 et 3 sans restriction: Vous pouvez modéliser les trois séries Y1Y3 comme un processus vectoriel autorégressif Dans les variables plutôt que dans les erreurs en utilisant l'option TYPEV. Si vous souhaitez modéliser Y1Y3 en fonction de valeurs passées de Y1Y3 et de certaines variables ou constantes exogènes, vous pouvez utiliser AR pour générer les états pour les termes de retard. Écrivez une équation pour chaque variable pour la partie non autorégressive du modèle, puis appelez AR avec l'option TYPEV. Par exemple, la partie non autorégressive du modèle peut être une fonction de variables exogènes, ou elle peut être des paramètres d'interception. S'il n'existe pas de composantes exogènes au modèle d'autorégression vectorielle, y compris les interceptions, affectez zéro à chacune des variables. Il doit y avoir une affectation à chacune des variables avant d'appeler AR. Cet exemple modélise le vecteur Y (Y1 Y2 Y3) comme une fonction linéaire uniquement de sa valeur dans les deux périodes précédentes et un vecteur d'erreur de bruit blanc. Le modèle a 18 (3 3 3 3) paramètres. Syntaxe de la macro AR Il existe deux cas de la syntaxe de la macro AR. Lorsque des restrictions sur un processus AR vectoriel ne sont pas nécessaires, la syntaxe de la macro AR a la forme générale spécifie un préfixe pour AR à utiliser dans la construction des noms de variables nécessaires pour définir le processus AR. Si l'endoliste n'est pas spécifié, la liste endogène prend par défaut le nom. Qui doit être le nom de l'équation à laquelle le processus d'erreur AR doit être appliqué. La valeur du nom ne peut pas dépasser 32 caractères. Est l'ordre du processus AR. Spécifie la liste des équations auxquelles le processus AR doit être appliqué. Si plus d'un nom est donné, un processus vectoriel non restreint est créé avec les résidus structurels de toutes les équations incluses comme régresseurs dans chacune des équations. Si non spécifié, endolist prend par défaut le nom. Spécifie la liste des délais auxquels les termes AR doivent être ajoutés. Les coefficients des termes aux décalages non listés sont mis à 0. Tous les retards indiqués doivent être inférieurs ou égaux à nlag. Et il ne doit pas y avoir de doubles. Si non spécifié, le laglist prend par défaut tous les retards 1 à nlag. Spécifie la méthode d'estimation à mettre en œuvre. Les valeurs valides de M sont CLS (estimations des moindres carrés conditionnels), ULS (estimations des moindres carrés inconditionnels) et ML (estimations du maximum de vraisemblance). MCLS est la valeur par défaut. Seul le MCLS est autorisé lorsque plus d'une équation est spécifiée. Les méthodes ULS et ML ne sont pas prises en charge par AR pour les modèles AR vectoriels. Spécifie que le processus AR doit être appliqué aux variables endogènes elles-mêmes plutôt qu'aux résidus structurels des équations. Auto-régression vectorielle restreinte Vous pouvez contrôler quels paramètres sont inclus dans le processus, en limitant à 0 ces paramètres que vous n'incluez pas. Tout d'abord, utilisez AR avec l'option DEFER pour déclarer la liste des variables et définir la dimension du processus. Ensuite, utilisez des appels AR supplémentaires pour générer des termes pour des équations sélectionnées avec des variables sélectionnées aux décalages sélectionnés. Les équations d'erreur produites sont les suivantes: Ce modèle indique que les erreurs pour Y1 dépendent des erreurs de Y1 et Y2 (mais pas de Y3) aux deux intervalles 1 et 2 et que les erreurs pour Y2 et Y3 dépendent Les erreurs précédentes pour les trois variables, mais seulement au décalage 1. Syntaxe AR Macro pour AR vectoriel restreint Une utilisation alternative d'AR est autorisée à imposer des restrictions sur un processus AR vectoriel en appelant AR plusieurs fois pour spécifier des termes AR différents et des décalages pour différents Équations. Le premier appel a la forme générale spécifie un préfixe pour AR à utiliser dans la construction de noms de variables nécessaires pour définir le processus vectoriel AR. Spécifie l'ordre du processus AR. Spécifie la liste des équations auxquelles le processus AR doit être appliqué. Spécifie que AR ne doit pas générer le processus AR mais doit attendre les informations supplémentaires spécifiées dans les appels AR ultérieurs pour la même valeur de nom. Les appels suivants ont la forme générale est la même que dans le premier appel. Spécifie la liste des équations auxquelles les spécifications de cet appel AR doivent être appliquées. Seuls les noms spécifiés dans la valeur endoliste du premier appel pour la valeur de nom peuvent apparaître dans la liste des équations dans eqlist. Spécifie la liste des équations dont les résidus structurels retardés doivent être inclus comme régresseurs dans les équations de eqlist. Seuls les noms de l'endoliste du premier appel de la valeur de nom peuvent apparaître dans varlist. Si non spécifié, varlist par défaut est endolist. Spécifie la liste des délais auxquels les termes AR doivent être ajoutés. Les coefficients des termes aux décalages non listés sont mis à 0. Tous les retards indiqués doivent être inférieurs ou égaux à la valeur de nlag. Et il ne doit pas y avoir de doubles. Si non spécifié, laglist prend par défaut tous les retards 1 à nlag. La macro MA La macro SAS MA génère des instructions de programmation pour le modèle PROC pour les modèles à moyenne mobile. La macro MA fait partie du logiciel SASETS et aucune option spéciale n'est nécessaire pour utiliser la macro. Le processus d'erreur moyenne mobile peut être appliqué aux erreurs d'équations structurelles. La syntaxe de la macro MA est la même que la macro AR sauf qu'il n'existe aucun argument TYPE. Lorsque vous utilisez les macros MA et AR combinées, la macro MA doit suivre la macro AR. Les instructions SASIML suivantes produisent un processus d'erreur ARMA (1, (1 3)) et l'enregistrent dans l'ensemble de données MADAT2. Les instructions PROC MODEL suivantes sont utilisées pour estimer les paramètres de ce modèle en utilisant la structure d'erreur de maximum de vraisemblance: Les estimations des paramètres produits par cette séquence sont présentées à la figure 18.61. Figure 18.61 Estimations d'un processus ARMA (1, (1 3)) Il existe deux cas de syntaxe pour la macro MA. Lorsque des restrictions sur un processus MA vectoriel ne sont pas nécessaires, la syntaxe de la macro MA a la forme générale spécifie un préfixe pour MA à utiliser dans la construction de noms de variables nécessaires pour définir le processus MA et est l'endoliste par défaut. Est l'ordre du processus MA. Spécifie les équations auxquelles le processus MA doit être appliqué. Si plus d'un nom est donné, l'estimation CLS est utilisée pour le processus vectoriel. Spécifie les délais auxquels les termes MA doivent être ajoutés. Tous les retards indiqués doivent être inférieurs ou égaux à nlag. Et il ne doit pas y avoir de doubles. Si non spécifié, le laglist prend par défaut tous les retards 1 à nlag. Spécifie la méthode d'estimation à mettre en œuvre. Les valeurs valides de M sont CLS (estimations des moindres carrés conditionnels), ULS (estimations des moindres carrés inconditionnels) et ML (estimations du maximum de vraisemblance). MCLS est la valeur par défaut. Seul le MCLS est autorisé lorsque plus d'une équation est spécifiée dans l'endoliste. MA Syntaxe macro pour le déplacement de vecteur restreint Une utilisation alternative de MA est autorisée à imposer des restrictions sur un processus MA vectoriel en appelant MA plusieurs fois pour spécifier différents termes de MA et des décalages pour différentes équations. Le premier appel a la forme générale spécifie un préfixe pour MA à utiliser dans la construction de noms de variables nécessaires pour définir le processus MA vecteur. Spécifie l'ordre du processus MA. Spécifie la liste des équations auxquelles le processus MA doit être appliqué. Spécifie que MA ne doit pas générer le processus MA mais doit attendre des informations supplémentaires spécifiées dans les appels MA ultérieurs pour la même valeur de nom. Les appels suivants ont la forme générale est la même que dans le premier appel. Spécifie la liste des équations auxquelles les spécifications de cet appel MA doivent être appliquées. Spécifie la liste des équations dont les résidus structurels retardés doivent être inclus comme régresseurs dans les équations de eqlist. (P, d, q): Les modèles ARIMA sont, en théorie, la classe la plus générale de modèles pour la prévision d'une série chronologique Qui peut être rendue 8220stationnaire8221 par différenciation (si nécessaire), peut-être en conjonction avec des transformations non linéaires telles que l'abattage ou le dégonflage (si nécessaire). Une variable aléatoire qui est une série temporelle est stationnaire si ses propriétés statistiques sont toutes constantes dans le temps. Une série stationnaire n'a pas de tendance, ses variations autour de sa moyenne ont une amplitude constante, et elle se balance d'une manière cohérente. C'est-à-dire que ses schémas de temps aléatoires à court terme ont toujours la même signification statistique. Cette dernière condition signifie que ses autocorrélations (corrélations avec ses propres écarts précédents par rapport à la moyenne) restent constantes dans le temps, ou de manière équivalente, que son spectre de puissance reste constant dans le temps. Une variable aléatoire de cette forme peut être considérée (comme d'habitude) comme une combinaison de signal et de bruit, et le signal (si l'on est apparent) pourrait être un modèle de réversion moyenne rapide ou lente, ou oscillation sinusoïdale, ou alternance rapide de signe , Et il pourrait également avoir une composante saisonnière. Un modèle ARIMA peut être considéré comme un 8220filter8221 qui essaie de séparer le signal du bruit, et le signal est ensuite extrapolé dans l'avenir pour obtenir des prévisions. L'équation de prévision d'ARIMA pour une série temporelle stationnaire est une équation linéaire (c'est-à-dire de type régression) dans laquelle les prédicteurs sont constitués par des décalages de la variable dépendante et / ou des décalages des erreurs de prévision. Valeur prédite de Y une constante et / ou une somme pondérée d'une ou plusieurs valeurs récentes de Y et / ou d'une somme pondérée d'une ou plusieurs valeurs récentes des erreurs. Si les prédicteurs se composent uniquement de valeurs décalées de Y. il s'agit d'un modèle autoregressif pur (8220 auto-régressé8221), qui est juste un cas particulier d'un modèle de régression et qui pourrait être équipé d'un logiciel de régression standard. Par exemple, un modèle autorégressif de premier ordre (8220AR (1) 8221) pour Y est un modèle de régression simple dans lequel la variable indépendante est juste Y retardée d'une période (LAG (Y, 1) dans Statgraphics ou YLAG1 dans RegressIt). Si certains des prédicteurs sont des retards des erreurs, un modèle ARIMA, il n'est pas un modèle de régression linéaire, car il n'y a aucun moyen de spécifier 8220last période8217s error8221 comme une variable indépendante: les erreurs doivent être calculées sur une période à période de base Lorsque le modèle est adapté aux données. Du point de vue technique, le problème de l'utilisation d'erreurs retardées comme prédicteurs est que les prédictions du modèle 8217 ne sont pas des fonctions linéaires des coefficients. Même s'ils sont des fonctions linéaires des données passées. Ainsi, les coefficients dans les modèles ARIMA qui incluent des erreurs retardées doivent être estimés par des méthodes d'optimisation non linéaires (8220hill-climbing8221) plutôt que par la simple résolution d'un système d'équations. L'acronyme ARIMA signifie Auto-Regressive Integrated Moving Average. Les Lags de la série stationnaire dans l'équation de prévision sont appelés termes contingentoréducteurs, les retards des erreurs de prévision sont appelés quotmoving averagequot terms et une série chronologique qui doit être différenciée pour être stationnaire est dite être une version quotintegratedquot d'une série stationnaire. Les modèles de Random-Walk et de tendance aléatoire, les modèles autorégressifs et les modèles exponentiels de lissage sont tous des cas particuliers de modèles ARIMA. Un modèle ARIMA non saisonnier est classé comme un modèle quotARIMA (p, d, q) quot, où: p est le nombre de termes autorégressifs, d est le nombre de différences non saisonnières nécessaires pour la stationnarité, et q est le nombre d'erreurs de prévision retardées dans L'équation de prédiction. L'équation de prévision est construite comme suit. En premier lieu, y désigne la différence d ème de Y. ce qui signifie: Notez que la deuxième différence de Y (le cas d2) n'est pas la différence de 2 périodes. Au contraire, c'est la première différence de la première différence. Qui est l'analogue discret d'une seconde dérivée, c'est-à-dire l'accélération locale de la série plutôt que sa tendance locale. En termes de y. L'équation de prévision générale est: Ici, les paramètres de la moyenne mobile (9528217s) sont définis de sorte que leurs signes soient négatifs dans l'équation, suivant la convention introduite par Box et Jenkins. Certains auteurs et logiciels (y compris le langage de programmation R) les définissent de sorte qu'ils ont des signes plus à la place. Lorsque les nombres réels sont branchés dans l'équation, il n'y a pas d'ambiguïté, mais il est important de savoir quelle convention votre logiciel utilise lorsque vous lisez la sortie. Souvent, les paramètres y sont indiqués par AR (1), AR (2), 8230 et MA (1), MA (2), 8230, etc. Pour identifier le modèle ARIMA approprié pour Y. vous commencez par déterminer l'ordre de différenciation D) le besoin de stationner la série et de supprimer les caractéristiques brutes de la saisonnalité, peut-être en conjonction avec une transformation de stabilisation de la variance telle que l'abattage ou le dégonflage. Si vous vous arrêtez à ce stade et que vous prédisez que la série différenciée est constante, vous avez simplement adapté une marche aléatoire ou un modèle de tendance aléatoire. Cependant, la série stationnaire peut toujours avoir des erreurs autocorrélées, ce qui suggère qu'un certain nombre de termes AR (p 8805 1) et / ou certains termes MA (q 8805 1) sont également nécessaires dans l'équation de prévision. Le processus de détermination des valeurs de p, d et q qui sont les meilleurs pour une série temporelle donnée sera discuté dans des sections ultérieures des notes (dont les liens sont en haut de cette page), mais un aperçu de certains des types Des modèles non saisonniers ARIMA qui sont couramment rencontrés est donné ci-dessous. ARIMA (1,0,0) modèle autorégressif de premier ordre: si la série est stationnaire et autocorrélée, peut-être peut-elle être prédite comme un multiple de sa propre valeur précédente, plus une constante. L'équation de prévision dans ce cas est 8230 qui est Y régressée sur elle-même décalée d'une période. Il s'agit d'un 8220ARIMA (1,0,0) constant8221 modèle. Si la moyenne de Y est nulle, alors le terme constant ne sera pas inclus. Si le coefficient de pente 981 1 est positif et inférieur à 1 dans l'amplitude (il doit être inférieur à 1 dans l'amplitude si Y est stationnaire), le modèle décrit le comportement de réverbération moyen dans lequel la valeur de la prochaine période doit être prédite 981 fois Loin de la valeur moyenne de cette période. Si 981 1 est négatif, il prédit un comportement de réversion moyenne avec l'alternance des signes, c'est-à-dire qu'il prédit également que Y sera inférieur à la moyenne de la période suivante si elle est supérieure à la moyenne de cette période. Dans un modèle autorégressif du second ordre (ARIMA (2,0,0)), il y aurait un terme Y t-2 sur la droite aussi, et ainsi de suite. Selon les signes et les grandeurs des coefficients, un modèle ARIMA (2,0,0) pourrait décrire un système dont la réversion moyenne se fait d'une manière oscillatoire sinusoïdale, comme le mouvement d'une masse sur un ressort soumis à des chocs aléatoires . Randonnée aléatoire ARIMA (0,1,0): Si la série Y n'est pas stationnaire, le modèle le plus simple possible est un modèle de marche aléatoire, qui peut être considéré comme un cas limite d'un modèle AR (1) dans lequel le modèle autorégressif Coefficient est égal à 1, c'est-à-dire une série à réversion moyenne infiniment lente. L'équation de prédiction pour ce modèle peut s'écrire: où le terme constant est le changement moyen de période à période (c'est-à-dire la dérive à long terme) dans Y. Ce modèle pourrait être adapté comme un modèle de régression sans interception dans lequel La première différence de Y est la variable dépendante. Comme il comprend une différence non saisonnière et un terme constant, il est classé en tant que modèle de type ARIMA (0,1,0) avec constant. quot Le modèle aléatoire-sans-dérive serait un ARIMA (0,1, 0) modèle sans modèle constant autorimétrique ARIMA (1,1,0) différencié: Si les erreurs d'un modèle de marche aléatoire sont autocorrélées, peut-être le problème peut-il être fixé en ajoutant un décalage de la variable dépendante à l'équation de prédiction - - c'est à dire En faisant régresser la première différence de Y sur elle-même décalée d'une période. Cela donnerait l'équation de prédiction suivante: qui peut être réarrangée à. Ceci est un modèle autorégressif de premier ordre avec un ordre de différenciation non saisonnière et un terme constant - c'est-à-dire. Un modèle ARIMA (1,1,0). ARIMA (0,1,1) sans lissage exponentiel simple constant: Une autre stratégie pour corriger les erreurs autocorrélées dans un modèle de marche aléatoire est suggérée par le modèle de lissage exponentiel simple. Rappelons que pour certaines séries temporelles non stationnaires (par exemple celles qui présentent des fluctuations bruyantes autour d'une moyenne variable lentement), le modèle de marche aléatoire n'obtient pas une moyenne mobile des valeurs passées. En d'autres termes, plutôt que de prendre l'observation la plus récente comme la prévision de la prochaine observation, il est préférable d'utiliser une moyenne des dernières observations afin de filtrer le bruit et de mieux estimer la moyenne locale. Le modèle de lissage exponentiel simple utilise une moyenne mobile exponentiellement pondérée des valeurs passées pour obtenir cet effet. L'équation de prédiction pour le modèle de lissage exponentiel simple peut être écrite en un certain nombre de formes mathématiquement équivalentes. Dont l'une est la forme dite de correction d'erreur 8221, dans laquelle la prévision précédente est ajustée dans la direction de l'erreur qu'elle a faite: Comme e t-1 Y t-1 - 374 t-1 par définition, ceci peut être réécrit comme : Qui est une équation de prévision ARIMA (0,1,1) sans constante avec 952 1 1 - 945. Cela signifie que vous pouvez ajuster un lissage exponentiel simple en le spécifiant comme un modèle ARIMA (0,1,1) sans Constante, et le coefficient MA (1) estimé correspond à 1-moins-alpha dans la formule SES. Rappelons que dans le modèle SES, l'âge moyen des données dans les prévisions de 1 période à venir est de 1 945. ce qui signifie qu'elles auront tendance à être en retard par rapport aux tendances ou aux points de retournement d'environ 1 945 périodes. Il s'ensuit que l'âge moyen des données dans les prévisions à 1 période d'un modèle ARIMA (0,1,1) sans modèle constant est de 1 (1 - 952 1). Ainsi, par exemple, si 952 1 0.8, l'âge moyen est 5. Alors que 952 1 approche de 1, le modèle ARIMA (0,1,1) sans constante devient une moyenne mobile à très long terme et 952 1 Approche 0, il devient un modèle aléatoire-marche-sans-dérive. Dans les deux modèles précédents décrits ci-dessus, le problème des erreurs autocorrélées dans un modèle de marche aléatoire a été fixé de deux manières différentes: en ajoutant une valeur décalée de la série différenciée À l'équation ou en ajoutant une valeur décalée de l'erreur de prévision. Quelle approche est la meilleure Une règle de base pour cette situation, qui sera discutée plus en détail plus tard, est que l'autocorrélation positive est le mieux traitée en ajoutant un terme AR au modèle et l'autocorrélation négative est généralement mieux traitée en ajoutant un Terme MA. Dans les séries économiques et économiques, l'autocorrélation négative apparaît souvent comme un artefact de différenciation. (En général, la différenciation réduit l'autocorrélation positive et peut même provoquer un basculement de l'autocorrélation positive à négative.) Ainsi, le modèle ARIMA (0,1,1), dans lequel la différenciation est accompagnée d'un terme MA, est plus souvent utilisé qu'un Modèle ARIMA (1,1,0). ARIMA (0,1,1) avec lissage exponentiel simple et constant avec croissance: En implémentant le modèle SES en tant que modèle ARIMA, vous gagnez en fait une certaine souplesse. Tout d'abord, le coefficient de MA (1) estimé peut être négatif. Cela correspond à un facteur de lissage supérieur à 1 dans un modèle SES, ce qui n'est généralement pas autorisé par la procédure de montage du modèle SES. Deuxièmement, vous avez la possibilité d'inclure un terme constant dans le modèle ARIMA si vous le souhaitez, afin d'estimer une tendance moyenne non nulle. Le modèle ARIMA (0,1,1) avec constante a l'équation de prédiction: Les prévisions à une période de ce modèle sont qualitativement similaires à celles du modèle SES, sauf que la trajectoire des prévisions à long terme est typiquement un (Dont la pente est égale à mu) plutôt qu'une ligne horizontale. ARIMA (0,2,1) ou (0,2,2) sans lissage exponentiel linéaire constant: Les modèles de lissage exponentiel linéaire sont des modèles ARIMA qui utilisent deux différences non saisonnières en conjonction avec des termes MA. La seconde différence d'une série Y n'est pas simplement la différence entre Y et elle-même retardée par deux périodes, mais plutôt c'est la première différence de la première différence - i. e. Le changement de la variation de Y à la période t. Ainsi, la deuxième différence de Y à la période t est égale à (Y t - Y t-1) - (Y t-1 - Y t-2) Y t - 2Y t-1 Y t-2. Une seconde différence d'une fonction discrète est analogue à une dérivée seconde d'une fonction continue: elle mesure la quotation ou la quotcurvature dans la fonction à un moment donné. Le modèle ARIMA (0,2,2) sans constante prédit que la seconde différence de la série est égale à une fonction linéaire des deux dernières erreurs de prévision: qui peuvent être réarrangées comme: où 952 1 et 952 2 sont les MA (1) et MA (2) coefficients. Il s'agit d'un modèle de lissage exponentiel linéaire général. Essentiellement le même que le modèle Holt8217s, et le modèle Brown8217s est un cas spécial. Il utilise des moyennes mobiles exponentiellement pondérées pour estimer à la fois un niveau local et une tendance locale dans la série. Les prévisions à long terme de ce modèle convergent vers une droite dont la pente dépend de la tendance moyenne observée vers la fin de la série. ARIMA (1,1,2) sans lissage exponentiel linéaire à tendance amortie constante. Ce modèle est illustré dans les diapositives accompagnant les modèles ARIMA. Il extrapole la tendance locale à la fin de la série, mais l'aplatit à des horizons de prévision plus longs pour introduire une note de conservatisme, une pratique qui a un soutien empirique. Voir l'article sur Quest pourquoi la Tendance amortie travaille par Gardner et McKenzie et l'article de Golden Rulequot par Armstrong et al. Pour plus de détails. Il est généralement conseillé de s'en tenir à des modèles dans lesquels au moins l'un de p et q n'est pas supérieur à 1, c'est-à-dire ne pas essayer d'adapter un modèle tel que ARIMA (2,1,2), car cela entraînera vraisemblablement un overfitting Et quotcommon-factorquot qui sont discutés plus en détail dans les notes sur la structure mathématique des modèles ARIMA. Implémentation de la feuille de calcul: Les modèles ARIMA tels que ceux décrits ci-dessus sont faciles à mettre en œuvre sur une feuille de calcul. L'équation de prédiction est simplement une équation linéaire qui fait référence aux valeurs passées des séries temporelles originales et des valeurs passées des erreurs. Ainsi, vous pouvez configurer une table de prévision ARIMA en stockant les données dans la colonne A, la formule de prévision dans la colonne B et les erreurs (données moins les prévisions) dans la colonne C. La formule de prévision dans une cellule typique de la colonne B serait tout simplement Une expression linéaire faisant référence à des valeurs dans les lignes précédentes des colonnes A et C multipliées par les coefficients AR ou MA appropriés stockés dans des cellules ailleurs sur la feuille de calcul.


No comments:

Post a Comment