Vorlesung: Datenverarbeitung - Sommersemester 2021 Thema: 3. Statistiks mit MS Excel - HTW Dresden

Die Seite wird erstellt Alena Berndt
 
WEITER LESEN
Vorlesung: Datenverarbeitung - Sommersemester 2021 Thema: 3. Statistiks mit MS Excel - HTW Dresden
Vorlesung: Datenverarbeitung
Sommersemester 2021

  Thema: 3. Statistiks mit MS Excel

  Prof. Dr. S. Kühn
  Fachbereich Informatik/Mathematik
  Raum: S 315a

  Email: skuehn@informatik.htw-dresden.de
Vorlesung: Datenverarbeitung - Sommersemester 2021 Thema: 3. Statistiks mit MS Excel - HTW Dresden
3.1. Einführung
Statistik ist die Zusammenfassung bestimmter Methoden, um empirische Daten
           zu analysieren.
• Ausgehend von den Rohdaten versucht die Statistik, Informationen über das
  betrachtete System zu gewinnen.
• Das Reduzieren des Informationsgehaltes der Rohdaten, kann das Bild auf das
   “Wesentliche" freigeben.

Eine der grundlegendsten Aufgaben der Statistik:
  • Angabe eines Messergebnisses, das aus mehreren Messungen besteht
  • mit Vertrauensbereich (wie genau ist das Messergebnis).

 Fehlerarten von analytischen Messungen:
  • Fehler der 1. Art: Zufallsfehler – unterschiedliche Quellen
     (Ablesefehler, elektronisches Rauschen, zufällige Druckschwankungen, …)
  • Fehler der 2. Art: Systematische Fehler – Beeinflussung aller Einzelmessungen
    (defektes Messgerät, falsche Versuchsbedingungen, usw.)
   LV Datenverarbeitung          3. Statistik mit Excel                        2
Vorlesung: Datenverarbeitung - Sommersemester 2021 Thema: 3. Statistiks mit MS Excel - HTW Dresden
Grundgesamtheit und Stichprobe
Grundgesamtheit ist die Menge aller Elemente des untersuchten Systems,
die Stichprobe dagegen nur eine Auswahl aus dieser Grundgesamtheit.

Bsp.: Messungen in der Chemie
      • Grundgesamtheit: Menge aller möglichen Nitrat-Messungen
                         der Brunnen einer Region (unendlich viele)
      • Stichprobe:      200 Messungen

Konsequenzen:
• Statistische Kenngrößen (z.B. Mittelwert) unterscheiden sich, je nachdem ob
  Werte aus der Grundgesamtheit oder aus Stichprobe ermittelt werden.
• Unterschiedliche Stichproben aus einer Grundgesamtheit, ergeben unter-
  schiedliche Werte bei den gleichen statistischen Kenngrößen.
• Übereinstimmung zwischen statistischen Parameter der Stichprobe
  und Parametern der Grundgesamtheit ist um so genauer, um so größer
  die Stichprobe ist.
• Die Wahl der Stichprobe beeinflusst die Werte der statistischen Kenngrößen.
  Bsp.: Wahlverhalten zur Bundestagswahl – ländliche/städtische Bevölkerung
 LV Datenverarbeitung            3.1. Einführung                          3
Vorlesung: Datenverarbeitung - Sommersemester 2021 Thema: 3. Statistiks mit MS Excel - HTW Dresden
3.2. Statistische Kenngrößen
Mittelwert (zentrale Tendenz)
    Excel-Funktionen:
•     MITTELWERT
•     MITTELWERTA ist ähnlich zu Funktion MITTELWERT, in die Berechnung gehen aber
      Zellen mit Buchstaben oder logischen Ausdrücken mit ein.
      Zellen mit Text bzw. mit log. Falsch erhalten den Wert 0, mit log. Wahr den Wert 1.
•     GESTUTZMITTEL (Mittelwert ohne Ausreißer): Über einen Prozentsatz ist
      anzugeben, wie viel Extremwerte vom Mittelwert auszuschließen sind.

      Bsp.: 22, 20, 38, 100, 30, 25; PS: 40%
              Gestutztmittel: 28,75

•    MEDIAN (mittlerer Wert aus einer Gruppe von Zahlen)
     Der Median ist der mittlere Wert der sortierten Zahlen.

      Bsp.: 22, 20, 38, 100, 30, 25
            Median: 27,5

      LV Datenverarbeitung              3. Statistik mit Excel                              4
Modalwert
Liefert den häufigsten Wert,
der in der Zahlengruppe vorkommt.

Streuung (Abweichung vom Mittelwert)
Excel-Funktionen
• Varianz einer Stichprobe: VAR.S()            • Varianzen der Grundgesamtheit: VAR.P()
                  n                                                  n
 s = n1−1 ∑ ( xi − xm)
   2                         2
                                                      σ = 1n ∑ ( xi − xm) 2
                                                           2

              i =1                                                  i =1

Standardabweichung
Excel-Funktionen
• STABW.S() einer Stichprobe                  • STABW.N() der Grundgesamtheit
                      n                                                    n
 s=         1
           n −1   ∑ ( xi − xm)
                  i =1
                                 2
                                                        σ=          1
                                                                    n    ∑ i
                                                                          ( x − xm ) 2

                                                                         i =1
 Vorteil gegenüber Varianz: Gleiche Maßeinheit wie die Messwerte !

   LV Datenverarbeitung              3.2. Statistische Kenngrößen                        5
STANDARDISIERUNG (Berechnung der z-Werte)
Um Werte unterschiedlicher Systeme miteinander vergleichen zu, bedarf es einer
Standardisierung der Werte mittels Mittelwert xm und Standardabweichung s:

                                                                        xi − xm
                                                                     z=
                                                                            s
                                                                   Beide Prüfungen mit 67%
                                                                   bestanden, haben
                                                                   unterschiedliche Werte !
   Z-Werte sind ein Maß
   (Vielfaches) für die
   Standardabweichung vom
   Mittelwert einer Datenreihe.

   Kann man aufgrund der
   empirischen Verteilung von
   einem normalverteilten
   Merkmal ausgehen, so erhält
   man als z-score Verteilung die
   Standardnormalverteilung!
    LV Datenverarbeitung            3.2. Statistische Kenngrößen                          6
RANG
Bestimmung der Ränge aller Werte innerhalb einer Zahlengruppe

                                                             Reihenfolge:
                                                             • 0 oder leer:
                                                               Sortierung in absteigender
                                                               Reihenfolge
                                                             • sonst: aufsteigende
                                                               Reihenfolge

   LV Datenverarbeitung       3.2. Statistische Kenngrößen                          7
QUANTIL: Excel-Funktion QUANTIL.INKL()
80. Quantil: Gibt den Wert an, der größer ist als 80% der Werte

QUANTILSRANG:
Gibt an, wieviel Prozent der Werte unter einem bestimmten Wert liegen.

   LV Datenverarbeitung         3.2. Statistische Kenngrößen             8
Datenanalysetool: Rang und Quantil
Über Entwicklertools/Add-Ins sind die Datenanalysetools in Excel zu laden.
                                      Daten/Datenanalyse

                                                                Ergebnis: geordnet
                                                                ungeordnet vorher

         Quantilsrang: Werte in % der
         empirischen Verteilungsfunktion F(x)
   LV Datenverarbeitung          3.2. Statistische Kenngrößen                        9
QUARTILE
Berechnet 4 Quantile (QUARTILE): QUARTILE.INKL()
25.Quantil (Zahl 1), 50.Quantil (Zahl 2), 75.Quantil (Zahl 3), 100.Quantil (Zahl 4)

  Hinweise:
  1. Das 50. Quantil ist gleichzeitig der Median. (auch 2.Quartil)
  2. Der Median ist wesentlich weniger anfällig bei Ausreißern in den Messdaten.
       Bsp.: Durchschnittseinkommen der Bevölkerung ist schief verteilt!
  3. Verwendet man den Median, dann benutzt man den interquartilen Abstand
     als Parameter für die Streuung der Messwerte.

  Interquartiler Abstand: Wert zwischen 3. und 1. Quartil.
    LV Datenverarbeitung          3.2. Statistische Kenngrößen                   10
3.3. Histogramme
Ein Histogramm ist eine statistische Grafik (Balkendiagramm) zur Anzeige der
Häufigkeitsverteilung der Daten.
Merkmale: • Einteilung der Daten in Klassen entsprechend der Datenwerte.
           • Die Klassen haben eine (hier alle die gleiche) Breite.
           • Zwischen den Klassen dürfen keine Lücken existieren.

Bsp.: Punkteverteilung der Prüfungsergebnisse
      Klasseneinteilung: 100-86, 85-71, 70-56, 55-41, 40-0

Daten/Datenanalyse/Histogramm

    LV Datenverarbeitung           3. Statistik mit Excel                      11
Die relative Häufigkeit erhält man, wenn die absolute Häufigkeit durch den
Stichprobenumfang n geteilt (Normalisierung) wird.

Das Gesetz der großen Zahlen besagt,
dass sich die relative Häufigkeit eines Zufallsergebnisses der Wahrscheinlichkeit
dieses Zufallsergebnisses annähert, wenn das Zufallsexperiment unter den
gleichen Voraussetzungen wiederholt ausgeführt wird (in großer Anzahl).

Bsp.: Münzwurf

Folglich gilt:
• Eine Wahrscheinlichkeit ist also eine relative Häufigkeit für einen großen
  Stichprobenumfang.
• Das normalisierte Histogramm für eine große Stichprobe ist die
  Dichtefunktion der Wahrscheinlichkeitsverteilung.

LV Datenverarbeitung             3.3. Histogramme                          12
Schiefe und Kurtosis

• SCHIEFE: gibt an, wie symmetrisch die Werte verteilt sind

   symmetrisches           rechtsschiefen oder         linksschiefen oder
   Histogramm              linkssteilen Verteilung     rechtssteilen Verteilung

   Schiefe = 0                Schiefe > 0                 Schiefe < 0

 • KURT: Wölbung

                           schmalgipflig, Kurt > 0       breitgipflig, Kurt < 0
    LV Datenverarbeitung            3.3. Histogramme                          13
Statistische Kenngrößen über Datenanalysetool / Populationskenngrößen

   LV Datenverarbeitung         3.3. Histogramme                        14
3.4. Die Normalverteilung
NORMVERT liefert Wahrscheinlichkeiten einer normalverteilten Zufallsvariablen
für den angegebenen Mittelwert und die angegebene Standardabweichung.

• Verteilungsfunktion: NORMVERT(x, Mittelwert, Standardabweichung, Wahr)
• Dichtefunktion:        NORMVERT(x, Mittelwert, Standardabweichung, Falsch)

                                                               Dichtefunktion:
                                                                                         − ( x − µ )2

                                                               f ( x) = σ     1
                                                                               2π
                                                                                     e      2σ 2

                                                           (σ ... Standardabweichung , µ Mittelwert )
                                                              (Glockenkurve)

                                                               Verteilungsfunktion:
                                                                                 x
                                                               F ( X < x) = ∫ f ( x) dx
                                                                                −∞

  LV Datenverarbeitung            3. Statistik mit Excel                                        15
Standardnormalverteilung
mit Mittelwert: 0, Standardabweichung: 1

                                                                   F(1) = 0,8413
                                                                   F(-1) = 0,1587
                                                                   F(0) = 0,5
                                                  Der Wert der Verteilungsfunktion ist
                                                  die Fläche unter der Dichtefunktion
                                                  begrenzt von der X-Achse und der
                                                  gestrichelten Hilfslinie des x-Wertes.

NORMINV(Wahrsch;Mittelwert; Standabwn)
Ist die Umkehrfunktion von NORMVERT()
zur Bestimmung der Quantile.
    LV Datenverarbeitung       3.4. Die Normalverteilung                            16
Bei jeder Normalverteilung finden wir innerhalb von
+ 1 Standardabweichung ca. 68% aller
  Prozessergebnisse
+ 2 Standardabweichungen ca. 95% aller
  Prozessergebnisse
+ 3 Standardabweichungen 99,73% aller
  Prozessergebnisse

  LV Datenverarbeitung         3.4. Die Normalverteilung   17
Aufgabe:
Es liegen Messwerte vom Nitratgehalt im Trinkwasser von 33 Brunnen einer
Gemeinde vor:
7,02; 7,48; 7,64; 7,9; 8,03; 8,17; 8,27; 8,5; 8,66; 8,67; 8,8; 8,82; 7,8; 8,1; 8,89; 8,9; 8,9;
8,92; 8,94; 8,94; 8,96; 8,99; 9,13; 9,2; 9,2; 10; 9,39; 8; 9,5; 7,61; 7,23; 7,04; 10

Die Daten sind statistisch auszuwerten :
1. Sind die Messwerte normalverteilt ?
2. Gesucht ist der mittlere Wert des Nitratgehalts der Gemeinde !

Lösung zu 1.:

Optische Überprüfung:
       - Histogramm
       - Form der empirischen Verteilungsfunktion (sigmoid?)
       - Normalverteilungsplot (z.B. Q-Q-Test)

   LV Datenverarbeitung                3.4. Die Normalverteilung                             18
Histogramm
Wahl der Anzahl der Klassen k bzw. Klassenbreite d, bei n Messwerten:
- k sollte > 5 sein und nicht zu groß: Näherungsfaustregeln:
  k = wurzel (n) = 5,56 oder k=5*lg n = 7,46
 Hier bietet sich k=6 an: damit ergibt d = (Max(Xi)-Min(Xi))/k hier d=(10-7)/6 d=0,5

     1.               2.        3.               4.                 5.      6.

  7,0 - 7,5      7,5 – 8,0   8,0 -8,5         8,5 – 9           9 – 9,5   9,5-10

    LV Datenverarbeitung                3.4. Die Normalverteilung                  19
Auswertung Histogramm: linksschiefe Verteilung mit der höchsten ”Dichte“
bei 8–9.

Berechnung der Populationsgrößen und deren Auswertung:

                                      Median ist wesentlich weniger anfällig auf
                                      schiefe Verteilungen oder Ausreißer in den
                                      Meßdaten als Mittelwert. In unserem Bsp.
                                      liegt Median näher am vermuteten
                                      Mittelwert als das arithm. Mittel!

                                      Um die Streuung der Meßwerte um den
                                      Median zu beschreiben, gibt man die
                                      Quartile oder den interquartilen Abstand an
                                      und nicht die Standardabweichung (ist
                                      immer mit Mittelwert verbunden)

LV Datenverarbeitung        3.4. Die Normalverteilung                      20
Form der empirischen Verteilungsfunktion

    Mittelwert der NV
    gleich Median –
    bei empirischer                                                           =QUANTILSRANG.INKL
    VF liegen nur ca.
    42% aller Werte
    unterhalb des
    arith. Mittels

                                               Median

                                                                                     Transformiert z-Werte
          7,02      7,48      8,01      8,5     9,0         9,5      10,0            Messwerte
                       1. Quartile.ink: 8,0     3. Quartile.ink: 8,96

                                                      Interquartiler Abstand: 0,96

     Auf Basis der z-transformierten Werte kann man die Werte der
     Verteilungsfunktion der Standardnormalfunktion berechnen und mit der
     empirischen Verteilungsfunktion bzw. mit den Quantilsrängen vergleichen.
    LV Datenverarbeitung                      3.4. Die Normalverteilung                                      21
Quantil-Quantil-Diagramm
                                              Aufteilung des Intervalls [0,1] in gleich große
                                              Bereiche für Normalverteilung: (j-0,5)/n

                               Q-Q-Plot
  10,50

  10,00

   9,50

   9,00                                                               Empirische Quantil-Werte und
   8,50
                                                                      Quantil-Werte der Normal-
   8,00
                                                                      verteilung liegen nicht wirklich
   7,50

   7,00
                                                                      auf einer Linie, aber
   6,50                                                               annähernd…
          6,5   7    7,5   8       8,5    9     9,5     10     10,5

    LV Datenverarbeitung                      3.4. Die Normalverteilung                             22
Zusammenfassung Ergebnisse des Brunnenbeispiels:

1. Es liegen genug Werte vor, um ein Histogramm zu erstellen.
2. Beim Betrachten des Histogrammes wurde deutlich, dass Daten doch
   deutlich von der Normalverteilung abweichen. Eine Angabe des Mittelwertes
   ist also wahrscheinlich nicht aussagekräftig.
3. Es wurden Mittelwert (8,53) und Median (8,8) errechnet und festgestellt,
   dass der Median deutlich näher am Dichtemaximum liegt, wo man ihn auch
   erwartet hätte.
4. Auch die Form der empirischen Verteilungsfunktion ist nicht wirklich
   sigmoid.
5. Ebenso zeigt der Normalverteilungsplot (z.B. Q-Q-Test), dass
   Normalverteilung und Werteverteilung nicht auf einer Linie liegen (was zu
   erwarten war).

Ergebnis könnte also lauten: Der durchschnittliche Nitratgehalt der Brunnen
der Gemeinde beträgt 8,8 mg/L.
 (Berechnet wurde der Median, da die Daten von der Normalverteilung
abweichen. Der arithmetische Mittelwert beträgt 8,53 mg/L, der interquartile
Abstand 0,96 mg/L )

 03.06.2021                        Einführung                             23
Warum haben wir den Datenbestand auf Normalverteilung getestet –
was bringt das?
• Voraussetzung für viele parametrische Tests (z.B. t-Test) und lineare
  Regression
• Um ein Konfidenzinterval zu berechnen, muss man die Verteilung der
  Grundgesamtmenge kennen.
• Dies ist im Fall einer endlichen Stichprobe nur möglich, falls die
  Verteilungsklasse des zugrunde liegenden Merkmals bekannt ist.
• Für ein stetiges Merkmal bedeutet dies, dass eine geeignete Verteilungsklasse
  ausgewählt werden muss, die geeignet ist, die wahre (unbekannte)
  Verteilungsstruktur des Merkmals wieder zu geben.
Weitere Möglichkeiten für Test auf Normalverteilung:
- Analytisch - Prüfverfahren mit Hilfe statistischer Hypothesen (später)
  (z.B. χ2 – Test, Kolmogorov-Smirnow-Test, Shapiro-Wilk-Test)
- Schätzmethoden (Punktschätzungen)

                                                                           24
3.5. Parameterschätzung und Vertrauensintervalle
• Aus einer Grundgesamtheit wird eine Stichprobe gezogen (z.B. n Messungen) und
  es wird der Mittelwert der Stichprobe ermittelt.
• Dieser Vorgang wird unendlich oft wiederholt (bei gleichen Stichprobenumfang) und
  man erhält auf diese Weise eine Menge von Stichprobenmittelwerte.
• Diese Mittelwerte bilden eine eigene Verteilung:
                     Stichprobenkennwerteverteilung der Mittelwerte.
 Der Mittelwert der Stichprobenverteilung ist         µX        und       σX     ist die
 Standardabweichung der Verteilung (auch Standardfehler des Mittelwerts genannt).
Nach dem zentralen Grenzwertsatz gilt:
1. Wenn der Stichprobenumfang groß genug ist (n>30), dann ist die Stichproben-
   verteilung des Mittelwerts in etwa normalverteilt.
2. Der Mittelwert der Stichprobenkennwerteverteilung des Mittelwerts entspricht
   dem Mittelwert der Grundgesamtheit:        µ =µ        X

3. Die Standardabweichung der Stichprobenkennwerteverteilung des Mittelwerts
   entspricht der Standardabweichung der Grundgesamtheit geteilt durch die
   Quadratwurzel des Stichprobenumfangs:
                                            σX =σ / n
    LV Datenverarbeitung      3.5. Parameterschätzung und Vertrauensintervalle             25
Standardfehler
 Was können wir damit über den Mittelwert der Population der Nitrat-
 Werte der Gemeinde sagen?
  Hätten wir zig Stichproben, könnten wir mit dem Wissen, dass die
    „Verteilung der der Mittelwerte“ selbst wieder normalverteilt ist, den
    Mittelwert der Population bestimmen.
  Leider habe wir nur eine Stichprobe 
  Aber: wir können die Streuung der Stichprobenkennwerteverteilung,
    auch als Standardfehler (des Mittelwerts) bezeichnet, berechnen:
             Der Standardfehler gibt an, wie nah ein empirischer
              Stichprobenmittelwert am wahren Populationsmittelwert liegt.

             Dieser Standardfehler des Mittelwertes kann auch aus einer
              einzigen Stichprobe geschätzt werden:

                        σˆ x 2       σˆ x
       σˆ x =                    =                  = 0,78095161/ √(33) = 0,135946
                         N             N
 LV Datenverarbeitung                   3.5. Parameterschätzung und Vertrauensintervalle
Standardfehler

  Der Standardfehler ist die Standardabweichung der
  Stichprobenkennwerteverteilung.
 Da die Stichprobenkennwerteverteilung normalverteilt ist,
  kann die Wahrscheinlichkeit dafür berechnet werden, dass
  der Mittelwert in einem bestimmten Intervall liegt.
 Mit der Wahrscheinlichkeit von p=0.68 liegt der Mittelwert
  der Gemeinde höchstens einen Standardfehler vom
  Stichprobenmittelwert entfernt

                   8,397 < μ < 8,669
Konfidenzintervalle
     Sicheres Wissen über die Grundgesamtheit kann man anhand von
     Stichproben nicht gewinnen.
• Aber mit Hilfe der Statistik können Intervalle, sogenannte Konfidenzintervalle,
  angegeben werden, innerhalb derer die Parameter der Grundgesamtheit
  wahrscheinlich liegen.
• Dazu benötigt man eine Irrtumswahrscheinlichkeit α .
  Eine Irrtumswahrscheinlichkeit von 5% bedeutet, dass dieses Intervall den
  gesuchten Wert der Grundgesamtheit mit einer Wahrscheinlichkeit von 95%
  enthält.
• Die linke untere Grenze des Konfidenzintervalls liegt bei:

 X − Standardfehler * (1 − α / 2) − Quantilwert
                                                               (Nur für große
• Die rechte obere Grenze des Konfidenzintervalls liegt bei:
                                                               Stichprobe n>30!)
 X + Standardfehler * (1 − α / 2) − Quantilwert
• Bestimmung der Konfidenzgrenzen über die Excel-Funktion KONFIDENZ:
 Standardfehler * (1 − α / 2) − Quantilwert
Mit einer Irrtumswahrscheinlichkeit von 5% liegt der gesuchte Mittelwert der
Gemeinde im Intervall: 8,267 < μ < 8,8                                         28
1. Fall: Stichprobe > 30

Bestimmung der Konfidenzgrenzen über die Excel-Funktion KONFIDENZ:

                                                        NORM.INV(0,975;1,0)

  KONFIDENZ(   α , s, n ) =   Standardfehler * (1 − α / 2) − Quantilwert

                                                                           29
2. Fall: Kleine Stichprobe
Bei kleinen Stichproben ist die Stichprobenkennwerteverteilung des Mittelwerts eine
Student-t-Verteilung.
Die t-Verteilung ist abhängig von dem Freiheitsgrad df = n-1 (n Größe Stichprobe).
Um so größer df ist, um so mehr nähert sich die t-Verteilung der Normalverteilung an.

Bestimmung des Konfidenzintervalls über die Excel-Funktion TINV:
Die Excel-Funktion TINV gibt Quantile der t-Verteilung an.
Zweiseitiges Konfidenzintervall:
  • TINV(0,05;10) = 2,28139
      dabei gilt: Irrtumswahrscheinlichkeit = 0,05, df = 10
  • linke untere Grenze Konfidenzintervall:

           X − Standardfehler * 2,28139
   • rechte obere Grenze Konfidenzintervall:

           X + Standardfehler * 2,28139

Für unser Brunnenbsp: TINV(0,05;32)=2,0369
Mit einer Irrtumswahrscheinlichkeit von 5% liegt der gesuchte Mittelwert der
Gemeinde im Intervall: 8,253< μ < 8,803
    LV Datenverarbeitung       3.5. Parameterschätzung und Vertrauensintervalle   30
Bsp.1: Wie lange hält im Durchschnitt eine neu entwickelte Batterie mit einer
         Sicherheit von 95% ?
         Getestet wurden 100 Batterien mit einer durchschnittlichen Haltbarkeit von 60 h
         bei einer Standardabweichung von 20 h.

  1. Fall: Stichprobe > 30

  Schätzung des Standardfehlers:     sX = s / n               =2
  Vertrauensintervall (Konfidenzintervall):
    • Excel-Funktion KONFIDENZ:

      • Konfidenzintervall: [ X − 3,92 , X + 3,92]

                            [ 56,08 ; 63,92 ]

   LV Datenverarbeitung         3.5. Parameterschätzung und Vertrauensintervalle   31
Bsp.2: Wie Bsp.1, aber n=25, also:
        Wie lange hält im Durchschnitt eine neu entwickelte Batterie
        mit einer Sicherheit von 95% ?
        Getestet wurden 25 Batterien mit einer durchschnittlichen Haltbarkeit von 60 h
        bei einer Standardabweichung von 20 h.

2. Fall: Kleine Stichprobe
Schätzung des Standardfehlers:             sX = s / n                =4
Vertrauensintervall (Konfidenzintervall):
   • TINV(0,05;24) = 2,0639
        dabei gilt: Irrtumswahrscheinlichkeit = 0,05, df = 24

   Konfidenzintervall
   • linke untere Grenze: X − Standardfehler * 2,0639
   • rechte obere Grenze X + Standardfehler * 2,0639

                          [ 52 , 68 ]

   LV Datenverarbeitung                 3.5. Parameterschätzung und Vertrauensintervalle   32
3.6. Stichproben-Hypothesentest
Beim Vergleich von Messergebnissen von verschiedenen Untersuchungen können
folgende Fragestellungen auftreten:

1. Sind die Ergebnisse zweier verschiedener Messserien gleich oder
   unterscheiden sie sich signifikant voneinander ?

   Z.B. unterscheiden sich die Untersuchungsergebnisse von zwei verschiedenen
        Laboren signifikant oder nicht ?

2. Weicht das Ergebnis einer Messserie von einem erwarteten Wert ab ?
   Z.B. ist der Gehalt einer Substanz in einer Probe gleich dem gewünschten
   Wert, oder ist die Abweichung signifikant ?

Klar ist, dass die Ergebnisse von verschiedenen Labors bzw. von
unterschiedlichen Laboranten sich aufgrund der zufälligen Streuung der
Messwerte fast immer um einen gewissen Betrag unterscheiden. Die Frage ist:

 Um wie viel dürfen sich die Werte unterscheiden, dass die Abweichungen noch
 im Bereich der zulässigen Streuung liegen?

  LV Datenverarbeitung           3.6. Stichproben-Hypothesentest          33
- Nullhypothese H0 besagt: Die Daten unterscheiden sich nicht signifikant.

- Alternativhypothese H1 besagt: Die Daten unterscheiden sich signifikant.

 Bei dem Test wird entschieden,
                         ob die Nullhypothese zu verwerfen ist oder nicht.

  - Es ist nicht möglich die Nullhypothese anzunehmen.
  - Es wird keine Entscheidung bez. H1 getroffen.

  Vergleich von zwei Mittelwerten     x1   und    x2    aus zwei Stichproben mit
  n1 und n2 Messwerten
  H0: Mittelwerte unterscheiden sich nicht signifikant,
  H1: Mittelwerte unterscheiden sich signifikant.
                                                                                 x1 − x2
  Es wird auf die t-Verteilung geprüft mit                 t=
                                                                   n1 + n2  (n1 − 1)s12 + (n2 − 1)s2 2 
  Irrtumswahrscheinlichkeit alpha und                                                               
                                                                                      n1 + n2 − 2         
  Freiheitsgrad FG = n1 + n2 -2.                                    n1n2                               

  Die H0-Hypothese muss abgelehnt werden,
  falls       t > TINV(FG;alpha).

     LV Datenverarbeitung               3.6. Stichproben-Hypothesentest                            34
3.7. Trendanalysen                                         (ohne den math. Hintergrund zu behandeln)

Trendlinien ..... prognostizieren zukünftige Werte auf Grund bekannter Daten
                   bekannt:   Daten der Vergangenheit
                   unbekannt: Daten der Zukunft

Unterscheidung der Trendlinie nach der grafischen Form
 • linear:        y=m*x+b
 • logarithmisch: y = c * ln x + b
 • Polynom:       y = b + c1 * x + c2 * x2 + . . . + c6 * x6
 • potentiell:    y = c * xb
 • exponentiell: y = c * eb*x
linearer Trend
( wird schwerpunktmäßig behandelt in LV )

                                                                          Y : sind so zu bestimmen, dass der Abstand
                                                                              durch die Punktwolke minimal ist !
                                                                          X : Punktwolke (als Einzelpunkte
                                                                               im Diagramm darstellen)

                                                                                                        35
      X               Y
Möglichkeiten der Bestimmung der Trendlinie:

(1) Funktion: TREND
              für: berechnet linearen Trend für eine Datenreihe

                    TREND( Y_Werte; X_Werte; neue_X_Werte; Konstante )

      Y-Werte:      bekannte Werte
      X_Werte:      bekannte Werte
      neue_X_Werte: sind die neuen x-Werte, für die die Funktion TREND
                    die zugehörigen y-Werte liefern soll
Vorgehensweise: (Bsp.)
    1. Zell-Bereich markieren: D4 : D8 (Zielbereich)
    2. Funktionsassistent aufrufen: TREND-Funktion auswählen
       Y-Werte: B4 : B8
       abschließen mit: Strg- + Shift- + Enter-Taste
                           { = TREND( B4 : B8 ) }
     ------------------------------------------------------------------------------
     3. Zell-Bereich markieren: D9 : D13
     4. Funktionsassistent aufrufen; TREND-Funktion auswählen
         Y-Werte:             D4 : D8
         X-Werte:             A4 : A8
         neue_X-Werte: A9 : A13
         abschließen mit: Strg-Taste + Shift-Taste + Enter-Taste

                          { = TREND( D4 : D8; A4 : A8; A9 : A13) }
     LV Datenverarbeitung                                        3.7. Trendanalysen   36
(2) Funktion: SCHÄTZER
                 für: berechnet linearen Trend für einen Wert

                     SCHÄTZER( x; Y_Werte; X_Werte )

      x:       Datenpunkt, dessen Wert bestimmt werden soll
      Y_Werte: bekannter Datenbereich
      X_Werte: bekannter Datenbereich

  Vorgehensweise: (Bsp.)
    1. Funktionsassistent; Funktion SCHÄTZER
    2. x:        A14
    3. Y_Werte: B4:B8
    4. X_Werte: A4 : A8

                                  SCHÄTZER( A27; D22 : D26; A22 : A26 )

      Hinweis: Funktion VARIATION() berechnet Trend bei nichtlinearen Daten

    LV Datenverarbeitung                      3.7. Trendanalysen              37
(3) Trendlinie im Diagramm hinzufügen
 1. Punktwolke im Diagramm darstellen (Jahr- u. Besucher-Daten)
 2. • Datenreihe markieren            (mit linker Maustaste einen Einzelpunkt anklicken)
    • rechte Maustaste                 (auf markierten Einzelpunkt)

  Trendlinie hinzufügen
  3. Auswahl:
      • Trendtyp
            Bsp.: linear
      • Optionen

 LV Datenverarbeitung                  3.7. Trendanalysen                         38
3.8. Korrelations- und Regressionsanalyse
Korrelation:
Welche Abhängigkeit besteht zwischen unterschiedlichen Daten ?
Bsp.: • Temperatur und Längsausdehnung eines Werkstoffes
      • Ausfallrate, Laufleistung, Betriebsalter
 Ein Maß für die Abhängigkeit von zwei unterschiedlichen Datenreihen
 ist der Korrelationskoeffizient:

               Wertebereich:            0 >= korrel
Regression:
Welche funktionale Abhängigkeit besteht zwischen den Daten ?
Wie lauten die Parameter der Funktion ?
Voraussetzung: Es besteht eine Abhängigkeit;
               feststellbar über Korrelationsanalyse

Arten der Regression:
• lineare Regression           y=m*x+b

 gesucht werden die Funktionsparameter: m (Anstieg),
                                             b (Schnittpunkt mit y-Achse)
 Funktion RGP() zur Bestimmung von m und b

• nichtlineare Regression       y = b * mx

 Funktion RKP() zur Bestimmung der Funktionsparameter m und b

  LV Datenverarbeitung            3.8. Korrelations- und Regressionsanalyse   40
lineare Regression

Vorgehensweise:
  1. Markierung von 2 Zellen nebeneinander für Ausgabe m und b
  2. Funktionsassistent aufrufen; Funktion RGP()
  3. Y-Zellbereich angeben; X-Zellbereich angeben
  4. Abschluss: Strg-Taste + Shift-Taste + Enter-Taste

 LV Datenverarbeitung           3.8. Korrelations- und Regressionsanalyse   41
3.9. Zielwertsuche
 Wie muss sich bei der Formel y = f(x) die abhängige Größe x ändern,
                                       wenn der Ziel-Wert y vorgegeben wird ?
 Bsp.: Der Drahtdurchmesser d einer zyl. Schraubenfeder wird vorgegeben, wie
 ändert sich dann der Außendurchmesser De der Feder ?
                                                              Menü: Extras →Zielwertsuche

                                                               In der Zielzelle muss eine Formel
                                                               stehen, die einen Zellbezug auf die
                                                               veränderbare Zelle hat !

                                                               Hinweis: Besteht beim Zielwert
                                                               eine funktionelle Abhängigkeit von
                                                               mehreren Größen,
                                                               dann erfolgt die Zielwertsuche
                                                               über den Solver: Extras → Solver

 LV Datenverarbeitung                     3.9. Zielwertsuche                                  42
Sie können auch lesen