Friday 24 February 2017

Ausschließlich Missing Values In Stata Forex

Willkommen beim Institut für Digitale Forschung und Bildung Stata Lernmodul Verwendung von IF mit Stata-Befehlen Dieses Modul zeigt die Verwendung von if mit gängigen Stata-Befehlen. Verwenden Sie die automatische Datendatei. Für dieses Modul konzentrieren wir uns auf die Variablen make, rep78, foreign, mpg und price. Wir können den Befehl keep verwenden, um nur diese fünf Variablen zu behalten. Lets machen eine Tabelle von rep78 von ausländischen, um die Reparatur Geschichte der ausländischen und inländischen Autos zu betrachten. Angenommen, wir wollten uns nur auf die Autos mit Reparaturgeschichten von vier oder besser konzentrieren. Wir können verwenden, wenn Suffix, dies zu tun. Lets make die oben genannten Tabelle mit der Spalte und nofreq Optionen. Die Befehlsspalte fordert Spaltenprozentwerte an, während der Befehl nofreq Zellenfrequenzen unterdrückt. Beachten Sie, dass colum n und nofreq nach dem Komma kommen. Dies sind Optionen auf dem Tabulatorkommando und Optionen müssen nach einem Komma platziert werden. Die Verwendung von if ist nicht auf den Befehl tabulate beschränkt. Hier verwenden wir ihn mit dem Befehl list. Haben Sie gesehen, dass einige der Beobachtungen einen Wert von 39 hatten. 39 für rep78. Diese sind fehlende Werte. Beispielsweise fehlt der Wert von rep78 für den AMC Spirit. Stata behandelt einen fehlenden Wert als positive Unendlichkeit, die höchste Zahl möglich. Also, wenn wir sagten Liste, wenn rep78 gt 4, Stata enthalten die Beobachtungen, wo rep78 war. 39 auch. Wenn wir nur die gültigen (nicht fehlenden) Beobachtungen einschließen möchten, die größer oder gleich 4 sind, können wir folgendes tun, um Stata zu sagen, dass wir nur Beobachtungen wünschen, in denen rep78 gt 4 und rep78 nicht fehlen. Dieser Code liefert auch die gleiche Ausgabe wie oben. Wir können mit den meisten Stata-Befehlen verwenden. Hier erhalten wir zusammenfassend Statistiken für den Preis für Autos mit Reparaturgeschichten von 1 oder 2. Beachten Sie die doppelte Gleichheit () steht für IS EQUAL TO und die Pipe () steht für OR. Ein einfacher Weg, dies zu sagen wäre. Ebenso können wir dies für Autos mit Reparatur Geschichte von 3, 4 oder 5. Darüber hinaus können wir diesen Code verwenden, um eine Reihe von Werten zu bezeichnen. Hier ist eine Zusammenfassung des Preises für die Werte 3 bis 5 in rep78. Lassen Sie uns dies zu vereinfachen, indem Sie rep78 gt 3. Haben Sie den Fehler, den wir gemacht haben wir versehentlich enthalten die fehlenden Werte, weil wir vergessen, sie auszuschließen. Wir mussten es wirklich sagen. Eine Stichprobe nehmen Es ist auch möglich, eine einfache Stichprobe Ihrer Daten mit dem Beispielbefehl zu nehmen. Diese Informationen finden Sie auf unserer STATA FAQ-Seite: Wie kann ich eine zufällige Stichprobe meiner Daten zeichnen Die meisten Stata-Befehle können gefolgt werden, wenn. ZB Zusammenfassen, wenn rep78 gleich 2 Summarize if rep78 größer oder gleich 2 Summarize if rep78 größer als 2 Summarize if rep78 kleiner oder gleich 2 Summarize if rep78 kleiner als 2 Summarize if rep78 nicht gleich 2 Wenn Ausdrücke verbunden werden können Mit für OR amp für AND Fehlende Werte werden als 39 dargestellt. 39 und sind der höchste Wert möglich. Deshalb, wenn Werte fehlen, seien Sie vorsichtig mit Befehlen wie fehlende Werte weglassen, verwenden Der Inhalt dieser Website sollte nicht als eine Anerkennung für eine bestimmte Website, Buch oder Softwareprodukt von der Universität von Kalifornien ausgelegt werden Das Institut für digitale Forschung und Bildung STATA Lernmodul Fehlende Daten 1. Einleitung Dieses Modul untersucht fehlende Daten in STATA und fokussiert auf numerische fehlende Daten. Es wird beschrieben, wie fehlende Daten in Ihren Rohdaten-Dateien angezeigt werden, sowie wie fehlende Daten in STATA logischen Befehlen und Zuweisungsanweisungen behandelt werden. Wir veranschaulichen einige der fehlenden Dateneigenschaften in STATA anhand von Daten aus einer Reaktionszeitstudie mit acht Probanden, die durch die Variable id angegeben sind. Und die Reaktionszeit der Versuchspersonen zu drei Zeitpunkten gemessen (Versuch1 Versuch2 Versuch3). Die Eingabedatei wird unten angezeigt. Sie können feststellen, dass einige der Reaktionszeiten mit einem einzigen codiert werden. Wie dies bei dem Thema 2 der Fall ist. Die Person, die die Zeit für diesen Versuch mißt, mißt die Antwortzeit nicht richtig, daher fehlen die Daten für den zweiten Versuch. 2. Wie STATA fehlende Daten in STATA-Prozeduren verarbeitet STATA-Befehle, die Berechnungen jeglicher Art durchführen, fehlen fehlende Daten, indem sie die fehlenden Werte auslassen. Allerdings ist die Art und Weise, dass fehlende Werte ausgelassen werden, nicht immer konsistent über Befehle, so let39s einen Blick auf einige Beispiele. Erste, let39s fassen unsere Reaktionszeitvariablen zusammen und sehen, wie STATA die fehlenden Werte behandelt. Wie Sie in der folgenden Ausgabe sehen, fassen Sie die Berechnungsmethode mit 4 Beobachtungen für Trial1 und Trial2 und 6 Beobachtungen für Trial3 zusammen. Kurz gesagt, führte der Befehl summarise die Berechnungen auf allen verfügbaren Daten durch. Ein zweites Beispiel zeigt, wie der Befehl tabulation oder tab1 fehlende Daten verarbeitet. Wie zusammengefasst, verwendet tab1 nur verfügbare Daten. Beachten Sie, dass die Prozentangaben auf der Grundlage der Gesamtzahl der nicht fehlenden Fälle berechnet werden. Es ist möglich, dass die Prozentwerte aus der Gesamtzahl der Beobachtungen berechnet werden sollen und der Prozentsatz für jede in der Tabelle angezeigte Variable fehlt. Dies kann durch die fehlende Option nach der Tabellierung erreicht werden. Befehlen Let39s, wie der korrelierte Befehl fehlende Daten verarbeitet. Wir würden erwarten, dass es die Berechnungen auf der Grundlage der verfügbaren Daten durchführen würde, und lassen Sie die fehlenden Werte. Hier ist ein Beispiel-Befehl. Die Ausgabe ist unten. Beachten Sie, wie die fehlenden Werte ausgeschlossen wurden. Stata führt Listenlöschung und nur Anzeige Korrelation für Beobachtungen, die nicht fehlende Werte auf alle Variablen aufgeführt. Stata ermöglicht auch paarweises Löschen. Korrelationen werden für die Beobachtungen mit nicht fehlenden Werten für jedes Paar von Variablen angezeigt. Dies kann mit dem Befehl pwcorr geschehen. Wir verwenden die obs-Option, um die Anzahl der Beobachtungen, die für jedes Paar verwendet werden, anzuzeigen, wie Sie sehen können, unterscheiden sie sich je nach Menge an fehlenden. 3. Zusammenfassung der fehlenden Werte in STATA-Prozeduren zusammengefasst Für jede Variable wird die Anzahl der nicht fehlenden Werte verwendet. Tabelle Standardmäßig werden fehlende Werte ausgeschlossen und Prozentsätze auf der Anzahl der nicht fehlenden Werte basieren. Wenn Sie die fehlende Option auf dem Tab-Befehl verwenden, basieren die Prozentsätze auf der Gesamtzahl der Beobachtungen (nicht fehlende und fehlende) und der Prozentwert fehlender Werte in der Tabelle. Corr Standardmäßig werden Korrelationen basierend auf der Anzahl der Paare mit nicht fehlenden Daten (paarweises Löschen von fehlenden Daten) berechnet. Mit dem Befehl pwcorr kann angefordert werden, dass Korrelationen nur für Beobachtungen berechnet werden, für die nach dem Befehl pwcorr nicht alle fehlenden Daten vorhanden sind (löschbare Löschung fehlender Daten). Reg Wenn irgendeine der nach dem Befehl reg aufgeführten Variablen fehlt, werden die Beobachtungen, die diesen Wert (e) fehlen, von der Analyse ausgeschlossen (d. h. listwise Löschen von fehlenden Daten). Weitere Informationen finden Sie im STATA-Handbuch, um zu erfahren, wie fehlende Daten behandelt werden. 4. Fehlende Werte in Zuweisungsanweisungen Es ist wichtig zu verstehen, wie fehlende Werte in Zuweisungsanweisungen behandelt werden. Betrachten Sie das unten gezeigte Beispiel. Der folgende Befehl zeigt, wie fehlende Werte in Zuweisungsanweisungen behandelt werden. Die Variable sum1 basiert auf den Variablen trial1 trial2 und trial3. Wenn eine dieser Variablen fehlte, wurde der Wert für sum1 auf fehl gesetzt. Daher fehlt sum1 für die Beobachtungen 2, 3 und 4, wie dies bei Beobachtung 7 der Fall ist. In der Regel ergeben Berechnungen mit fehlenden Werten fehlende Werte. Beispielsweise ergibt 2 2 4 2. Ausbeuten. 2 2 ergibt 1. 2 ergibt. 2 3 ergibt 6 2. Ausbeuten. Wenn Sie addieren, subtrahieren, multiplizieren, dividieren usw. Werte, die fehlende Daten beinhalten, fehlt das Ergebnis. In unserem Reaktionszeitversuch fehlt die Gesamtreaktionszeit sum1 für vier von sieben Fällen. Wir könnten versuchen, die Daten für die nicht fehlenden Versuche zu summieren, indem wir die rowtotal-Funktion verwenden, wie im folgenden Beispiel gezeigt. Die Ergebnisse zeigen, dass sum2 nun die Summe der nicht fehlenden Studien enthält. Beachten Sie, dass die rowtotal-Funktion fehlt als Nullwert behandelt. Beim Summieren mehrerer Variablen ist es möglicherweise nicht sinnvoll, fehlende Werte als Null zu behandeln, wenn keine Beobachtungen für alle zu summierenden Variablen vorliegen. Die rowtotal-Funktion mit der fehlenden Option gibt einen fehlenden Wert zurück, wenn eine Beobachtung für alle Variablen fehlt. Andere Anweisungen funktionieren ähnlich. Zum Beispiel beobachtet, was passiert, wenn wir versuchen, eine durchschnittliche Variable ohne Verwendung einer Funktion zu erstellen (wie im Beispiel unten). Wenn keine der Variablen trial1, trial2 oder trial3 fehlen, wird der Wert für avg1 auf fehlen gesetzt. Alternativ berechnet die rowmean-Funktion die Daten für die nicht fehlenden Tests auf dieselbe Weise wie die rowtotale Funktion. Hinweis: Gab es eine große Anzahl von Versuchen, sagen 50 Studien, dann wäre es lästig zu haben, um avgrowmean (trial1 trial2 trial3 trial4.). Hier ist eine Verknüpfung, die Sie in dieser Situation verwenden können: Schließlich können Sie die Funktionen rowmiss und rownomiss verwenden, um die Anzahl der fehlenden und die Anzahl der nicht fehlenden Werte in einer Liste von Variablen zu bestimmen. Dies ist unten dargestellt. Für variable nomiss. Die Beobachtungen 1, 5 und 6 hatten drei gültige Werte, die Beobachtungen 2 und 3 hatten zwei gültige Werte, die Beobachtung 4 hatte nur einen gültigen Wert und die Beobachtung 7 keine gültigen Werte. Die Variable Miss zeigt das Gegenteil, es bietet eine Zählung der Anzahl der fehlenden Werte. 5. Fehlende Werte in logischen Anweisungen Es ist wichtig zu verstehen, wie fehlende Werte in logischen Anweisungen behandelt werden. Sagen Sie beispielsweise, dass Sie eine 01-Variable für trial1 erstellen möchten, die 1 ist, wenn sie 1,5 oder weniger ist, und 0, wenn sie über 1,5 liegt. Wir zeigen dies unten (falsch, wie Sie sehen werden). Es scheint, dass etwas schief ging mit unserer neu erstellten Variablen newvar1. Den Beobachtungen mit fehlenden Werten für trial2 wurde für newvar1 eine Nullstelle zugewiesen. Let39s erforschen, warum dieses geschah, indem man die Frequenztabelle von Versuch2 betrachtete. Wie Sie in der Ausgabe sehen können, werden fehlende Werte nach dem höchsten Wert 2.1 aufgelistet. Dies liegt daran, dass STATA einen fehlenden Wert als größtmöglichen Wert (zB positive Unendlichkeit) behandelt und dieser Wert größer als 2.1 ist, also die Werte für Newvar1 zu 0. Nachdem wir verstehen, wie STATA fehlende Werte behandelt, werden fehlende Werte explizit ausgeschlossen, um sicherzustellen, dass sie korrekt behandelt werden, wie unten gezeigt. Wie Sie im nachfolgenden STATA-Ausgang sehen können, hat die neue Variable newvar2 fehlende Werte für Beobachtungen, die auch für trial2 fehlen. 6. Fehlende Werte in logischen Anweisungen Beim Erstellen oder Umkodieren von Variablen, die fehlende Werte beinhalten, achten Sie stets darauf, ob die Variable fehlende Werte enthält. 7. Für weitere Informationen Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, Buch oder Software-Produkt von der Universität von Kalifornien ausgelegt werden.


No comments:

Post a Comment