Haupt andere

Statistikwissenschaft

Inhaltsverzeichnis:

Statistikwissenschaft
Statistikwissenschaft

Video: Inferenzstatistik vs deskriptive Statistik - FernUni Hagen - Wiwi 2024, Kann

Video: Inferenzstatistik vs deskriptive Statistik - FernUni Hagen - Wiwi 2024, Kann
Anonim

Restanalyse

Die Analyse von Residuen spielt eine wichtige Rolle bei der Validierung des Regressionsmodells. Wenn der Fehlerterm im Regressionsmodell die vier zuvor genannten Annahmen erfüllt, wird das Modell als gültig angesehen. Da die statistischen Signifikanztests ebenfalls auf diesen Annahmen beruhen, werden die aus diesen Signifikanztests resultierenden Schlussfolgerungen in Frage gestellt, wenn die Annahmen bezüglich ε nicht erfüllt sind.

Das i-te Residuum ist die Differenz zwischen dem beobachteten Wert der abhängigen Variablen y i und dem Wert, der durch die geschätzte Regressionsgleichung ŷ i vorhergesagt wird. Diese aus den verfügbaren Daten berechneten Residuen werden als Schätzungen des Modellfehlers ε behandelt. Als solche werden sie von Statistikern verwendet, um die Annahmen bezüglich ε zu validieren. Gutes Urteilsvermögen und Erfahrung spielen eine Schlüsselrolle bei der Restanalyse.

Grafische Darstellungen und statistische Tests bezüglich der Residuen werden von Statistikern sorgfältig geprüft, und auf der Grundlage dieser Untersuchungen werden Beurteilungen vorgenommen. Das häufigste Residuendiagramm zeigt ŷ auf der horizontalen Achse und die Residuen auf der vertikalen Achse. Wenn die Annahmen bezüglich des Fehlerterms & egr; erfüllt sind, besteht das Restdiagramm aus einem horizontalen Punktband. Wenn die Restanalyse nicht anzeigt, dass die Modellannahmen erfüllt sind, werden häufig Möglichkeiten vorgeschlagen, wie das Modell geändert werden kann, um bessere Ergebnisse zu erzielen.

Modellbau

In der Regressionsanalyse ist Modellbildung der Prozess der Entwicklung eines Wahrscheinlichkeitsmodells, das die Beziehung zwischen abhängigen und unabhängigen Variablen am besten beschreibt. Die Hauptprobleme bestehen darin, die richtige Form (linear oder krummlinig) der Beziehung zu finden und auszuwählen, welche unabhängigen Variablen einbezogen werden sollen. In Gebäudemodellen ist es oft wünschenswert, sowohl qualitative als auch quantitative Variablen zu verwenden.

Wie oben erwähnt, messen quantitative Variablen, wie viel oder wie viele; qualitative Variablen repräsentieren Typen oder Kategorien. Angenommen, es ist von Interesse, den Verkauf eines Eistees vorherzusagen, der entweder in Flaschen oder in Dosen erhältlich ist. Die unabhängige Variable "Containertyp" könnte eindeutig die abhängige Variable "Umsatz" beeinflussen. Der Containertyp ist jedoch eine qualitative Variable und muss numerische Werte erhalten, wenn er in einer Regressionsstudie verwendet werden soll. Sogenannte Dummy-Variablen werden verwendet, um qualitative Variablen in der Regressionsanalyse darzustellen. Zum Beispiel könnte die Dummy-Variable x verwendet werden, um den Behältertyp darzustellen, indem x = 0 gesetzt wird, wenn der Eistee in einer Flasche verpackt ist, und x = 1, wenn sich der Eistee in einer Dose befindet. Wenn das Getränk in Glasflaschen, Plastikflaschen oder Dosen abgefüllt werden könnte, wären zwei Dummy-Variablen erforderlich, um den Behältertyp der qualitativen Variablen richtig darzustellen. Im Allgemeinen werden k - 1 Dummy-Variablen benötigt, um den Effekt einer qualitativen Variablen zu modellieren, die k Werte annehmen kann.

Das allgemeine lineare Modell y = β 0 + β 1 x 1 + β 2 x 2 +… + β p x p + ε kann verwendet werden, um eine Vielzahl von krummlinigen Beziehungen zwischen abhängigen und unabhängigen Variablen zu modellieren. Beispielsweise könnte jede der unabhängigen Variablen eine nichtlineare Funktion anderer Variablen sein. Außerdem halten es Statistiker manchmal für notwendig, die abhängige Variable zu transformieren, um ein zufriedenstellendes Modell zu erstellen. Eine logarithmische Transformation ist einer der häufigsten Typen.

Korrelation

Korrelations- und Regressionsanalyse hängen in dem Sinne zusammen, dass beide Beziehungen zwischen Variablen behandeln. Der Korrelationskoeffizient ist ein Maß für die lineare Assoziation zwischen zwei Variablen. Die Werte des Korrelationskoeffizienten liegen immer zwischen -1 und +1. Ein Korrelationskoeffizient von +1 zeigt an, dass zwei Variablen in einem positiven linearen Sinne perfekt miteinander verbunden sind, ein Korrelationskoeffizient von -1 zeigt an, dass zwei Variablen in einem negativen linearen Sinne perfekt miteinander verbunden sind, und ein Korrelationskoeffizient von 0 zeigt an, dass es keinen linearen gibt Beziehung zwischen den beiden Variablen. Für eine einfache lineare Regression ist der Probenkorrelationskoeffizient die Quadratwurzel des Bestimmungskoeffizienten, wobei das Vorzeichen des Korrelationskoeffizienten das gleiche wie das Vorzeichen von b 1 ist, der Koeffizient von x 1 in der geschätzten Regressionsgleichung.

Weder Regressions- noch Korrelationsanalysen können so interpretiert werden, dass Ursache-Wirkungs-Beziehungen hergestellt werden. Sie können nur angeben, wie oder in welchem ​​Umfang Variablen miteinander verknüpft sind. Der Korrelationskoeffizient misst nur den Grad der linearen Assoziation zwischen zwei Variablen. Alle Schlussfolgerungen zu einer Ursache-Wirkungs-Beziehung müssen auf dem Urteil des Analytikers beruhen.

Zeitreihen und Prognosen

Eine Zeitreihe ist ein Datensatz, der zu aufeinanderfolgenden Zeitpunkten oder über aufeinanderfolgende Zeiträume hinweg gesammelt wird. Eine Folge von monatlichen Daten zu Neubauten und eine Folge von wöchentlichen Daten zu Produktverkäufen sind Beispiele für Zeitreihen. Normalerweise werden die Daten in einer Zeitreihe in gleichmäßigen Zeiträumen wie Stunde, Tag, Woche, Monat oder Jahr erfasst.

Ein Hauptanliegen der Zeitreihenanalyse ist die Entwicklung von Prognosen für zukünftige Werte der Reihe. Zum Beispiel entwickelt die Bundesregierung Prognosen für viele wirtschaftliche Zeitreihen wie das Bruttoinlandsprodukt, Exporte und so weiter. Die meisten Unternehmen entwickeln Prognosen zum Produktverkauf.

Während in der Praxis sowohl qualitative als auch quantitative Prognosemethoden verwendet werden, verwenden statistische Prognoseansätze quantitative Methoden. Die beiden am häufigsten verwendeten Prognosemethoden sind die autoregressiven integrierten gleitenden Durchschnittswerte (ARIMA) und ökonometrischen Modelle von Box-Jenkins.

ARIMA-Methoden basieren auf der Annahme, dass ein Wahrscheinlichkeitsmodell die Zeitreihendaten generiert. Zukünftige Werte der Zeitreihen werden als sowohl mit vergangenen Werten als auch mit vergangenen Fehlern verbunden angesehen. Eine Zeitreihe muss stationär sein, dh eine, die einen konstanten Mittelwert, eine konstante Varianz und eine konstante Autokorrelationsfunktion aufweist, damit ein ARIMA-Modell anwendbar ist. Bei nichtstationären Reihen können manchmal Unterschiede zwischen aufeinanderfolgenden Werten genommen und als stationäre Reihe verwendet werden, auf die das ARIMA-Modell angewendet werden kann.

Ökonometrische Modelle entwickeln Prognosen einer Zeitreihe unter Verwendung einer oder mehrerer verwandter Zeitreihen und möglicherweise vergangener Werte der Zeitreihen. Dieser Ansatz beinhaltet die Entwicklung eines Regressionsmodells, in dem die Zeitreihe als abhängige Variable prognostiziert wird. Die zugehörigen Zeitreihen sowie die vergangenen Werte der Zeitreihen sind die unabhängigen Variablen oder Prädiktorvariablen.

Nichtparametrische Methoden

Die oben diskutierten statistischen Methoden konzentrieren sich im Allgemeinen auf die Parameter von Populationen oder Wahrscheinlichkeitsverteilungen und werden als parametrische Methoden bezeichnet. Nichtparametrische Methoden sind statistische Methoden, die weniger Annahmen über eine Population oder Wahrscheinlichkeitsverteilung erfordern und in einem breiteren Spektrum von Situationen anwendbar sind. Damit eine statistische Methode als nichtparametrische Methode eingestuft werden kann, muss sie eine der folgenden Bedingungen erfüllen: (1) Die Methode wird mit qualitativen Daten verwendet, oder (2) Die Methode wird mit quantitativen Daten verwendet, wenn keine Annahme getroffen werden kann die Bevölkerungswahrscheinlichkeitsverteilung. In Fällen, in denen sowohl parametrische als auch nichtparametrische Methoden anwendbar sind, empfehlen Statistiker normalerweise die Verwendung parametrischer Methoden, da sie tendenziell eine bessere Genauigkeit bieten. Nichtparametrische Methoden sind jedoch in Situationen nützlich, in denen die für parametrische Methoden erforderlichen Annahmen fragwürdig erscheinen. Einige der am häufigsten verwendeten nichtparametrischen Methoden werden nachstehend beschrieben.

Angenommen, Personen in einer Stichprobe werden gebeten, eine Präferenz für eines von zwei ähnlichen und konkurrierenden Produkten anzugeben. Ein Pluszeichen (+) kann aufgezeichnet werden, wenn eine Person ein Produkt bevorzugt, und ein Minuszeichen (-), wenn die Person das andere Produkt bevorzugt. Mit qualitativen Daten in dieser Form kann der nichtparametrische Vorzeichentest verwendet werden, um statistisch zu bestimmen, ob für die Bevölkerung ein Unterschied in der Präferenz für die beiden Produkte besteht. Der Vorzeichentest kann auch verwendet werden, um Hypothesen über den Wert eines Populationsmedians zu testen.

Der Wilcoxon-Signed-Rank-Test kann verwendet werden, um Hypothesen über zwei Populationen zu testen. Bei der Erfassung von Daten für diesen Test muss jedes Element oder jede experimentelle Einheit in der Stichprobe zwei gepaarte oder übereinstimmende Datenwerte generieren, einen aus Population 1 und einen aus Population 2. Unterschiede zwischen den gepaarten oder übereinstimmenden Datenwerten werden verwendet, um einen Unterschied zwischen zu testen die zwei Populationen. Der Wilcoxon-Signed-Rank-Test ist anwendbar, wenn keine Annahme über die Form der Wahrscheinlichkeitsverteilungen für die Populationen getroffen werden kann. Ein weiterer nichtparametrischer Test zum Nachweis von Unterschieden zwischen zwei Populationen ist der Mann-Whitney-Wilcoxon-Test. Diese Methode basiert auf Daten aus zwei unabhängigen Zufallsstichproben, eine aus Population 1 und eine aus Population 2. Für den Wilcoxon-Signed-Rank-Test ist keine Übereinstimmung oder Paarung erforderlich.

Nichtparametrische Methoden zur Korrelationsanalyse sind ebenfalls verfügbar. Der Spearman-Rangkorrelationskoeffizient ist ein Maß für die Beziehung zwischen zwei Variablen, wenn Daten in Form von Rangfolgen verfügbar sind. Zum Beispiel könnte der Spearman-Rangkorrelationskoeffizient verwendet werden, um den Grad der Übereinstimmung zwischen Männern und Frauen hinsichtlich ihres Präferenzrankings von 10 verschiedenen Fernsehsendungen zu bestimmen. Ein Spearman-Rangkorrelationskoeffizient von 1 würde eine vollständige Übereinstimmung anzeigen, ein Koeffizient von -1 würde eine vollständige Nichtübereinstimmung anzeigen und ein Koeffizient von 0 würde anzeigen, dass die Rangfolgen nicht miteinander zusammenhängen.

Statistische Qualitätskontrolle

Die statistische Qualitätskontrolle bezieht sich auf die Verwendung statistischer Methoden zur Überwachung und Aufrechterhaltung der Qualität von Produkten und Dienstleistungen. Eine Methode, die als Akzeptanzstichprobe bezeichnet wird, kann verwendet werden, wenn eine Entscheidung getroffen werden muss, eine Gruppe von Teilen oder Gegenständen basierend auf der in einer Probe gefundenen Qualität anzunehmen oder abzulehnen. Eine zweite Methode, die als statistische Prozesssteuerung bezeichnet wird, verwendet grafische Anzeigen, die als Kontrolldiagramme bezeichnet werden, um zu bestimmen, ob ein Prozess fortgesetzt oder angepasst werden sollte, um die gewünschte Qualität zu erreichen.

Stichproben

Angenommen, ein Verbraucher erhält eine Lieferung von Teilen, die viel von einem Hersteller genannt werden. Es wird eine Teileprobe entnommen und die Anzahl der defekten Artikel gezählt. Wenn die Anzahl der fehlerhaften Artikel gering ist, wird das gesamte Los angenommen. Wenn die Anzahl der fehlerhaften Artikel hoch ist, wird das gesamte Los abgelehnt. Richtige Entscheidungen entsprechen der Annahme eines Loses von guter Qualität und der Ablehnung eines Loses von schlechter Qualität. Da Stichproben verwendet werden, müssen die Wahrscheinlichkeiten fehlerhafter Entscheidungen berücksichtigt werden. Der Fehler, ein Los von guter Qualität abzulehnen, schafft ein Problem für den Hersteller. Die Wahrscheinlichkeit dieses Fehlers wird als Herstellerrisiko bezeichnet. Andererseits schafft der Fehler, ein Los von schlechter Qualität anzunehmen, ein Problem für den Käufer oder Verbraucher; Die Wahrscheinlichkeit dieses Fehlers wird als Risiko des Verbrauchers bezeichnet.

Der Entwurf eines Akzeptanzstichprobenplans besteht aus der Bestimmung einer Stichprobengröße n und eines Akzeptanzkriteriums c, wobei c die maximale Anzahl fehlerhafter Artikel ist, die in der Stichprobe gefunden werden können und die Partie noch akzeptiert wird. Der Schlüssel zum Verständnis des Risikos des Herstellers und des Verbrauchers besteht darin, anzunehmen, dass ein Los einen bekannten Prozentsatz fehlerhafter Artikel aufweist, und die Wahrscheinlichkeit zu berechnen, dass das Los für einen bestimmten Stichprobenplan angenommen wird. Durch Variation des angenommenen Prozentsatzes fehlerhafter Artikel in einer Partie können mehrere verschiedene Probenahmepläne bewertet und ein Probenahmeplan so ausgewählt werden, dass sowohl das Risiko des Herstellers als auch des Verbrauchers relativ gering ist.