Daten, die auf der Erde liegen - auf Spurensuche im Supermarkt

Die Seite wird erstellt Saskia Hentschel
 
WEITER LESEN
Daten, die auf der Erde liegen - auf Spurensuche im Supermarkt
Daten, die auf der Erde liegen - auf Spurensuche im Supermarkt
A NDREAS E ICHLER , M ÜNSTER UND W OLFGANG R IEMER , K ÖLN

Zusammenfassung: Die Analyse von Kassenbons,             als Pool von Anregungen zu verstehen. Die Beispie-
die in Supermärkten achtlos weggeworfen werden,         le werden exemplarisch ausgeführt, ohne dass diese
ermöglicht eine detektivische Datenanalyse, die mit     allerdings als fertigen Unterrichtsvorschlag für spe-
unterschiedlichen Schwerpunkten in allen Schulstu-       zielle Klassenstufen auszubauen.
fen möglich ist. In diesem Artikel wird Schritt für
Schritt die Rekonstruktion des Mikrokosmos’ eines
Supermarkts aus zunächst leblosen Zahlenkolonnen        2 Datensammlung und erste Einsichten
nachgezeichnet – vom Konsumentenverhalten bis hin        2.1 Der Supermarkt
zum Umsatz des Supermarkts. Ein ’historisches’
                                                         Der Supermarkt, um den es hier geht, liegt in Braun-
Nachwort zur Verwendung von Kasenzetteln im Sto-
                                                         schweig und dort in einer gutbürgerlichen Gegend.
chastikunterricht zur Zeit der Euro-Umstellung be-
                                                         Es ist ein Markt, der Kunden aus der umliegenden
schließt den Artikel.
                                                         Gegend bedient und von Montag bis Samstag in der
                                                         Zeit von 8 bis 20 Uhr geöffnet ist. Viele Kunden
1 Einführung                                            kommen zu Fuß und mit dem Rad, der Parkplatz
                                                         ist relativ klein. Der Supermarkt unterscheidet sich
Sie liegen buchstäblich auf der Erde herum, zusam-
                                                         damit deutlich von den großen Märkten in der Peri-
mengeknüllt, weggeworfen oder im Einkaufswagen
                                                         pherie der Stadt mit großen Parkplätzen, geschaffen
zurückgelassen: nach einem prüfenden Blick haben
                                                         für einen großen Wocheneinkauf und Angeboten, die
die Bons, die man an der Kasse eines Supermarkts
                                                         weit über Nahrungsmittel hinausreichen.
erhalten hat, offenbar keinerlei Wert mehr für deren
kurzfristige Besitzer. Doch für angehende Statisti-     So ist das Angebot des Supermarkts zwar eher auf
ker aller Schulstufen können sie spannende Einblicke    gehobene Bedürfnisse ausgelegt, bedient aber neben
in die Welt eines Supermarkts und Ansätze für die      den üblichen Haushaltswaren wie Reinigungsmittel
Analyse realer Daten geben, denen in ihrer Vielfalt      oder Pflegebedarf in erster Linie Nahrungsmittel und
quasi nur durch die Kreativität von Datendetektiven     Getränke. Neben Angestellten, die ausschließlich für
Grenzen gesetzt sind. Durch unterschiedliche Unter-      die Bestückung der Obst- und Gemüseabteilung oder
suchungsperspektiven und flexible Verwendung sta-        für die Fleisch- und Käsetheke zuständig sind, bedie-
tistischer Methoden entsteht so Stück für Stück aus   nen 14 Verkäuferinnen bzw. Verkäufer die vier Kas-
zunächst leblosen Zahlenkolonnen der Mikrokosmos        sen des Supermarkts.
eines Supermarkts.

Die Idee, Kassenbons auszuwerten, stammt vom             2.2 Die Datensammlung
zweiten Autor (2003, 2006) und wurde dort als Pro-       Als Blatt voller Daten kommt ein Kassenbon daher
jekt vorgeschlagen. Einige der vielen Möglichkei-       (siehe Abb. 1).1 Einige der darauf enthaltenen Da-
ten, diese von der Erde gesammelten Daten auszu-         ten sind unmittelbar einsichtig, das sind die (meis-
werten, sollen in dieser Arbeit behandelt werden.        ten) Artikel-Bezeichnungen und zugehörigen Prei-
Dabei geht zunächst der Blick in die unteren Klas-      se. Die Angaben zur Preis-Summe aller Waren, zum
sen (auch in die Primarstufe), in der Fragen nach        Hin- und Rückgeld sowie zur Mehrwertsteueraus-
dem Konsumentenverhalten anhand eindimensiona-           zeichnung sind ebenso einsichtig. Dann folgen aller-
ler Datensätze thematisiert werden können. Der Bo-     dings im unteren Bereich (siehe Pfeil) des Bons An-
gen reicht dann bis zum Untersuchen von Zusam-           gaben, die erst nach dem Betrachten mehrerer Kas-
menhängen durch die Auswertung zweidimensiona-          senbons de-codiert werden können. So bezeichnet
ler Datensätze, mit denen die Finanzlage eines Su-
permarktes aufgedeckt und fachlich die Datenanaly-          • die erste vierstellige Nummer (Zahl) die Num-
se mit der Wahrscheinlichkeitsrechnung verbunden              mer des Kunden an einer bestimmten Kasse,
wird. Einige weitere Betrachtungen, wie etwa die            • die zweite vierstellige Nummer den speziellen
Auswirkung der Mehrwertsteuererhöhung oder die               Supermarkt,
Frage nach der ’Verkäuferin des Monats’ sind in die
Datenanalyse eingeflochten. Die Arbeit ist insgesamt        • die erste dreistellige Nummer die Kasse und

Stochastik in der Schule XX (XXXX) X S. 1–??                                                                   1
• die zweite dreistellige Nummer die Verkäufe-
      rin bzw. den Verkäufer.

                                                          Abb. 2: Verteilung der Kassenbons über die Wochen-
                                                                  tage
                                                          Auch die Verteilung der Kassenbons über die Öff-
                                                          nungszeiten des Marktes ist nicht repräsentativ. Ins-
                                                          besondere die Randzeiten sind deutlich unterre-
                                                          präsentiert (siehe Abb. 3)

                                                          Abb. 3: Verteilung der Kassenbons über die Stunden
      Abb. 1: Ein Kassenbon des Supermarkts
                                                          Ein anderes Manko der Datengüte ist die Frage, wer
Das Datum und die Uhrzeit des Einkaufs sind               überhaupt seinen Kassenbon annimmt (wird er gleich
schließlich ebenfalls noch auf dem Kassenbon ent-         an der Kasse gelassen, landet er nämlich in einem un-
halten. Was hier profan erzählt wird, ist schon Teil     erreichbaren Korb), wer ihn annimmt und kurze Zeit
des Detektivspiels ’dem Supermarkt auf der Spur’.         später achtlos zurücklässt und wer diesen mitnimmt.
Die Zahlen bzw. Ziffern, die hier mit dem im Mathe-       Rein qualitativ, aus den dreimonatigen Beobachtun-
matikunterricht der Sekundarstufen eher vereinzelt        gen herrührend, ist kein Muster erkennbar gewesen,
behandelten Kodieraspekt daherkommen (vgl. z.B.           ob zum Beispiel erst bei besonders großen Einkäufen
Herget 1994), enthalten eine zunächst unbekannte         der Bon zur Kontrolle mitgenommen wird. Eine
Botschaft, die entschlüsselt werden muss. Dieses für    ebenso qualitative Einschränkung gibt es dabei: so
jeden Supermarkt unterschiedliche Rätsel zu lösen ist   scheinen Kartenzahler den Bon zusammen mit dem
überhaupt der Ansporn gewesen, mehr als einen Bon        Einzugsbeleg für die Karte eher mitzunehmen als fal-
zu betrachten und hat schließlich die leidenschaftli-     lenzulassen. Ein Indiz dafür könnte das geringe Auf-
che Jagd auf das Wegwefprodukt Kassenzettel aus-          kommen an solchen Bons zu sein, auf denen die Kar-
gelöst.                                                  tenzahlung erkennbar dokumentiert ist. Andererseits
Seit dem 6. November 2006 sind insgesamt bisher           gibt es keinen harten Beleg dafür, wie viele Kun-
372 Bons unterschiedlicher Tage und unterschiedli-        den mit Karte bezahlen, sondern eher einen, der in
cher Tageszeiten zusammengekommen.                        der Literatur unter dem Stichwort ’Verfügbarkeits-
                                                          heuristik’ (Tversky und Kahnemann 1973) bekannt
2.3 Die Güte der Daten                                   geworden ist. Diese ’Verfügbarkeitsheuristik’ bedeu-
Da die Kassenzettel von einer Einzelperson bei di-        tet in diesem Zusammenhang die subjektiv empfun-
versen eigenen Einkäufen in dem Supermarkt ge-           dene Häufigkeit (bzw. Wahrscheinlichkeit) von Kun-
sammelt wurden, kann natürlich nur bedingt von ei-       den, die mit Karte bezahlen, denn schließlich ist
ner Zufallsauswahl oder repräsentativen Auswahl ge-      man überzeugt davon, dass zumindest in der eige-
sprochen werden. Das liegt zum einen an der Zeit der      nen Schlange vor der Kasse prinzipiell alle mit ei-
eigenen Einkäufe und der zu diesen Zeiten verfügba-     ner (langsamen) Karte bezahlen, deren halb defekter
ren Bons. Abbildung 2 zeigt die Verteilung der ge-        Magnetstreifen mehrere Anläufe verursacht.
sammelten Bons über die Wochentage.

2
3 Wer kauft was - eine einfache                          andere, auch erheblich einfachere Klasseneinteilun-
  Datenanalyse                                           gen vornehmen, wie etwa Getränke, Nahrungsmittel,
                                                         Anderes oder Frischprodukte, konservierte Produkte
Eine einfache, mit kleinen Datensätzen bereits in der   etc.
Primarstufe anwendbare Analyse, betrifft das Konsu-
mentenverhalten. Was wird eigentlich vorwiegend in       Eine Deutung oder Interpretation der Daten, ein
solch einem Supermarkt gekauft? Ein Teildatensatz        grundsätzlicher Schritt des statistischen Denkens
von 64 Kassenbons ergibt dabei folgendes Bild (sie-      (Pfannkuch und Wild 1999), ist bei diesem Datensatz
he Tabelle 1):                                           schwierig. Aus der Auswahl der Kassenbons ergibt
                                                         sich etwa ein vermutlich zu hoher Anteil an Back-
Warenart              Umsatz      Anteil am Gesamt-
                      (in Euro)   umsatz (in %)          zutaten und Süßigkeiten, da einige Kassenbons aus
Fleisch               126,48      13,9
                                                         der Vorweihnachtszeit stammen und einen erhebli-
Obst & Gemüse        123,21      13,5                   chen Anteil an den jeweiligen Gesamtsummen ha-
Sonstiges             122,91      13,5                   ben. Ebenso wird man an den Tagen vor dem Wo-
Süßigkeiten          77,77       8,5                    chenende einen erhöhten Umsatz an Alkoholika ent-
Käse                 68,0        7,5                    decken.
Alkohol               63,23       7
Backwaren             37,85       4,1                    Sicher sind weitere Interpretationen anhand der Da-
Milch                 35,4        3,9                    tentabelle möglich. Interessant und propädeutisch für
Fertiggerichte        31,55       3,5                    die Statistik wichtig wird es aber dann, wenn man
Getränke             30,34       3,3                    vor der Datenaufbereitung (aber nach einer Klas-
Zigaretten            28          3,1                    seneinteilung) eine wiederum fundamentale statisti-
Backzutaten           25,73       2,8
                                                         sche Methode angewendet hat: nämlich die Hypothe-
Eier                  25,68       2,8
                                                         senbildung bezüglich der Verteilung der Waren in-
Joghurt               24,71       2,7
Konserven (Gemüse)   14,59       1,6                    nerhalb des Gesamtbudgets. Dann hat man mögli-
Gewürze              14,31       1,6                    cherweise Argumentationsbedarf: Stimmen die Da-
Sanitärbedarf        13,29       1,5                    ten mit den Hypothesen überein? Ab welcher Abwei-
Zeitschriften         12,6        1,4                    chung geht man davon aus, dass die Hypothese falsch
Nudeln & Reis         9,83        1,1                    war? Gut wäre es dabei, einen weiteren Datensatz
Kaffee & Tee          9,68        1,1                    zur Verfügung zu haben, der ein erstes Erkennen der
Knabberwaren          8,38        1,0                    Variabilität statistischer Daten (Pfannkuch und Wild
Körperpflege         5,58        0,6                    1999) ermöglicht. An solch einem Beispiel lässt sich
Konserven (Obst)      3,37        0,4                    die Hypothesenbildung sowie die Beibehaltung bzw.
 Tabelle 1: Verteilung der Umsätze auf einzelne         Ablehnung von Hypothesen vorbereiten.
 Produktklassen

Eine Datenaufbereitung in diesem Sinne berührt das
elementare Umgehen im Größenbereich Geld. Aus           4 Dem Einzel-Umsatz auf der Spur
der Sicht der Datenanalyse ist hier der Aspekt der       Spannend wird es, wenn man die Daten im Sin-
Klassierung interessant, der eine fundamentale Auf-      ne des Umsatzes des Supermarkts hin- und herwen-
gabe jeglicher (Ein)Ordnung von Daten ist. So hat        det. Auch das geht bezogen auf untere Klassenstufen
ein Supermarkt unüberschaubar viele Waren im An-        (quasi) eindimensional.
gebot. Unter welchen Kategorien oder eben Klassen
soll man diese erfassen? Hier müssen Datendetekti-      Alle folgenden Bearbeitungen sind sinnvoll nur mit
ve vorher überlegen und kommen möglicherweise zu       dem Rechner zu bearbeiten. Eine sehr geeignete
der Einsicht, die die Statistik insgesamt durchzieht:    Software, die unmittelbar das mehrfach bemühte
es gibt eigentlich keine ’richtigen’ oder ’falschen’     Bild des Datendetektivs unterstützt, ist fathom, das
Klasseneinteilungen, sondern nur sinnvolle und we-       seit vergangenem Jahr in deutscher Sprache auf dem
niger sinnvolle. Sinnvoll bedeutet hier allein, dass     Markt ist. Der ungeheure Vorteil ist die unmittelba-
man die Fragen, die man an die Daten stellt, durch ei-   re, sehr einfach handhabbare Verfügbarkeit von gra-
ne mehr oder minder willkürliche Klasseneinteilung      fischen Datenaufbereitungen in allen schulrelevanten
beachtet. Auch die oben gegebene Klasseneinteilung       Repräsentationen. Der Nachteil ist, etwa gegenüber
ist willkürlich, eine Vielzahl anderer Einteilungen     Excel, die (noch) geringe Verbreitung. Alle Grafiken
sind möglich. Je nach Fragestellungen könnte man       in dieser Arbeit sind mit fathom erstellt.

                                                                                                               3
4.1 Der Umsatz                                             4.1.2 Der Umsatz zu verschiedenen Zeitpunkten
4.1.1 Der Umsatz pro Kunde                                 Ein weiterer Aspekt bei der Untersuchung der Kas-
                                                           senbons könnte von der Frage ausgehen, ob sich
Nimmt man alle Kassenbons (n = 372), dann er-
                                                           beispielsweise an verschiedenen Wochentagen oder
gibt sich eine leicht linkssteile Verteilung der Ein-
                                                           auch zu verschiedenen Tageszeiten Unterschiede in
zelumsätze (vgl. Abb. 21). Der Begriff ’Summe’ in
                                                           den Umsätzen ergeben. Diese Aspekte werden im
der Grafik und ebenso im Folgenden bezeichnet stets
                                                           Folgenden zunächst qualitativ, über den grafikgesteu-
den Einzelumsatz pro Kunden.
                                                           erten Vergleich der Verteilung sowie den numerisch
                                                           gesteuerten Vergleich von Kennzahlen der Vertei-
                                                           lung, betrachtet. Anschließend folgt mit der Beurtei-
                                                           lung mit Hilfe des Anpassungstest ein ’hartes’ statis-
                                                           tisches Verfahren.

                                                             Abb. 5: Umsätze pro Kunden nach Tageszeiten
                                                           Bezüglich der Tageszeiten (vgl. Abb. 6) ergibt sich
                                                           ein ähnliches Bild der Umsatzverteilung pro Kunden,
                                                           wie es sich bereits in der Verteilung bezüglich aller
        Abb. 4: Verteilung der Einzelumsätze              Kassenbons gezeigt hat. Die Aufteilung in Tageszei-
                                                           ten bedeutet hier eine Drittelung der Öffnungszeiten
Man erkennt die oben bereits gegebene Charakteri-          (Morgen: 8-12 Uhr, Mittag: 12-16 Uhr, Abend: 16-20
sierung des Supermarkts: ’Großeinkäufe’ mit einem         Uhr). Methodisch betreibt man hier eine Clusterung
Umsatz über 50 Euro sind selten (zumindest in der         der Daten und damit einen ersten, qualitativen Schritt
Stichprobe), das Maximum liegt bei rund 72 Euro.           in Richtung der Beurteilung von Abhängigkeiten
Der Modalwert liegt bei der gewählten Klassenein-         zwischen zwei Merkmalen. Die Verfahren bleiben al-
teilung bei 10 Euro, die Hälfte der Kunden tätigt        lerdings weiterhin die gleichen, die bei der Analyse
Einkäufe zwischen etwa 10 und 20 Euro.                    eindimensionaler Daten verwendet werden.

Unter der Annahme, dass es sich bei der Stichprobe
um eine zumindest annähernd repräsentative Stich-
probe handelt (siehe oben), erhält man über das arith-
metische Mittel (x ≈ 15, 3) eine Schätzung hinsicht-
lich des Umsatzes pro Kunden bei einer Standardab-
weichung von etwa 11 (Euro). Diese Schätzung wird
im weiteren Verlauf der Analyse wichtig.

Mit Hilfe der (sinnvollen) Annahme, dass die Mit-
telwerte der Verteilung des Umsatzes pro Kunden               Abb. 6: Umsätze pro Kunden nach Tageszeiten
in Stichproben von je 372 Kassenbons annähernd            Ebenso ergibt sich das gleiche Bild, wenn man als
normalverteilt sind, ergibt sich nach dem Standard-        Clusterung der Gesamtdaten die Wochentage nimmt
verfahren zur Berechnung von Konfidenzintervallen          (vgl. Abb. 7). Im Histogramm sind hier die Tage
(x± √sn , mit x ≈ 15 und s ≈ 11 aus der Stichprobe mit     Mittwoch und Donnerstag auf Grund ihres geringen
n = 372 Kassenbons) das Intervall Iµ = [14, 2; 16, 4]      Vorkommens im Datensatz ausgenommen worden.
(Euro) für den tatsächlichen Umsatz (µ) pro Kunden
(Konfidenzniveau: α = 0, 95).

4
dem gleichen Umfang, der für verschiedene Mess-
                                                          zeitpunkte vorhanden ist). Diese simulierten Stich-
                                                          proben sollten dann wiederum eine der realen Stich-
                                                          probe ’ähnliche’ Verteilung aufweisen. Durch die Si-
                                                          mulation wird nun gerade die Erkenntnis der Varia-
                                                          bilität gefördert. Jede Simulation ergibt eine neue,
                                                          den anderen zwar ähnliche, im Detail dennoch un-
                                                          terschiedliche Verteilung (vgl. Abb. 8). Man kann
                                                          aber trotz der Variabilität der Einzelverteilungen das
                                                          Muster, die immer ähnliche Form der Verteilungen
                                                          erkennen.

  Abb. 7: Umsätze pro Kunden nach Tageszeiten

Im Sinne des Aufbaus des statistischen Denkens sind
in diesem Schritt der Datenanalyse mehrere Aspekte
wichtig.
Zunächst ist in nahezu allen realen Datensätzen die
Frage nach Abhängigkeiten von Interesse und hier
speziell die Frage, ob die Umsätze pro Kunden von
der Tageszeit oder dem Tag selber abhängig sind.
Diese Frage wird hier mit einem zunächst qualita-
tiven Verfahren, der Clusterung der Daten und deren
Visualisierung, aufgenommen.
Als zweiter wichtiger Aspekt ergibt sich der Ver-
gleich von Verteilungen, der als fundamentaler            Abb. 8: Simulation von vier Freitagen (bzw. 57
Schritt im Aufbau statistischen Wissens eingeschätzt             Umsätzen)
wird (Makar und Confrey 2004). Der Vergleich kann
hier zunächst über die Betrachtung der Form der Ver-    Mit der statistischen Methode des Anpassungstests,
teilung, dann aber über die Betrachtung der charak-      der – wenn überhaupt – ein Thema am Ende der
teristischen Kennzahlen, d.h. der verfügbaren Lage-      Schulstochastik ist, kann man die qualitative Unter-
und Streuparameter erfolgen (vgl. Tabelle 2).             suchung schließlich statistisch absichern. Dazu kann
                                                          man beispielsweise die Cluster verschiedener Wo-
 Zeitpunkt   x0,5     x    SW     Q0,5       σ
                                                          chentage heranziehen und untersuchen, ob Unter-
 Morgen      13,0   15,7   59,6   13,7     11,2
                                                          schiede in den Verteilung hinsichtlich der verschie-
 Mittag      12,4   14,5   76,9   11,9     10,1
 Abend       10,5   16,0   55,1   17,2     17,2           denen Mess-Zeitpunkte innerhalb des Zufälligen lie-
 Montag      13,1    9,9   42,7   14,1      9,6
                                                          gen, d.h. mit dem χ2 -Anpassungstest sich jeweils
 Dienstag    13,2   11,6   59,6   10,1      9,8           die Hypothese der identischen Verteilung beibehal-
 Freitag     16,5   14,5   72,0   12,3     12,4           ten lässt (die folgenden Schritte sind nur in Kürze
 Samstag     17,4   15,0   55,1   13,7     12,0           beschrieben. Sie dienen nicht dazu, das Vorgehen
 Tabelle 2: Kennzahlen zur Umsatzverteilung:              des Anpassungstests zu erlernen, sondern allein das
 Median, arithmetisches Mittel, Spannweite, Quar-         Nachvollziehen in Kenntnis dieses Tests).
 tilsabstand und Standardabweichung
                                                          Die Frage, die bei dem χ2 -Anpassungstest (hier in
Eine wichtige Erweiterung zum Vergleich der Vertei-       der Ausführungsvariante von Fisz 1973) beurteilt
lungen ist die Simulation. Dabei wird nebenbei ein        werden soll, ist die folgende: Passt die empirisch
wichtiger Aspekt des statistischen Denkens berührt,      ermittelte Verteilung der Umsätze eines bestimm-
nämlich die Erkenntnis der Variabilität statistischer   ten Wochentags mit der ebenfalls empirisch ermit-
Daten (Pfannkuch und Wild 1999). Nimmt man an,            telten Gesamtverteilung der Umsätze überein, oder
dass die Umsätze pro Person unabhängig von den          sind die Abweichungen der beiden Verteilungen von-
Zeitpunkten der Messung sind, so kann man zufälli-       einander überzufällig? Dazu werden beispielsweise
ge Stichproben aus dem Gesamtdatensatz ziehen (mit        hinsichtlich des Freitags die vorhandenen 57 Daten

                                                                                                               5
in 5 Klassen mit 10 Daten und ein Randklasse mit                     tisch nachgewiesen werden. Das ist ein erstaunliches
7 Daten aufgeteilt. Die Häufigkeit dieser Klassen ist               Resultat, das möglicherweise wiederum auf die Cha-
H f r (ki ) = 10 für i = 1, ..., 5 und H f r(ki ) = 6 für i = 6;   rakteristik des Supermarkts, kein Ziel größerer Wo-
vgl. Tabelle 2). Als Vergleichsmaßstab gilt die Ver-                 chenendeinkäufe zu sein, zurückzuführen ist.
teilung aller Umsätze. Mit der gleichen Klassierung
ergeben sich die absoluten Häufigkeiten Hges (ki ).                 4.1.3 Kassen und ihre Umsätze pro Kunde
Daraus ergibt sich – ebenfalls mit der gleichen Klas-                Die vier Kassen sind wie oben erwähnt nur selten al-
sierung – die theoretische Häufigkeit Htheo (ki ) der               le geöffnet. Nahezu durchgehend ist die Kasse 1 in
Umsätze (wenn man die relative Häufigkeit hinsicht-                Betrieb, die anderen werden je nach Bedarf dazuge-
lich der Gesamtstichprobe als Wahrscheinlichkeit für                schaltet. Auch für die Kassen soll abschließend ein-
die Klasse setzt) der 6 Klassen durch:                               zeln der Umsatz pro Kunde betrachtet werden (vgl.
                          Hges (ki )         Hges (ki )              Abb. 9).
       Htheo (ki ) =                 · nfr =            · 57
                           nges               372
Mit diesen Vorgaben lassen sich die einzelnen Sum-
manden der χ2 -Testverteilung mit

              (Htheo (ki ) − H f r (ki ))2
       ti =
                     Htheo (ki )
bestimmen, die Summe berechnen und mit Hilfe der
χ2 -Verteilung die Anpassungshypothese beurteilen.
In diesem Fall ergibt sich als Testgröße
               6
       t = ∑ ≈ 5, 37
              i=1

Der Vergleich mit der χ2 -Verteilung (mit 5 Freiheits-
graden) ergibt hinsichtlich des Wertes ihrer Vertei-
                                                                       Abb. 9: Unterschiede zwischen den Kassen 1-4
lungsfunktion: Fχ2 (5, 37) ≈ 0, 627, d.h. die Hypo-
                   r=5
these der identischen Verteilung kann nicht abgelehnt
                                                                     Hinsichtlich der Kassen 1 bis 3 gibt es weder qua-
werden.
                                                                     litativ noch quantitativ einen Zweifel, dass die Ver-
 Klasse (i)        H f r(ki )   Hges (ki )   Htheo (ki )    ti       teilung der Umsätze pro Kunden an den einzel-
     1                10          83           12,7        0,58      nen Kassen identisch ist zur Gesamtverteilung die-
     2                10          68           10,4        0,02      ser Umsätze. Hinsichtlich der Kasse 4 könnte man
     3                10          70           10,7        0,05
                                                                     dagegen einen Zweifel hegen, denn hier deutet die
     4                10          37           5,67        3,31
                                                                     visuelle Darstellung im Histogramm auf eine Ver-
     5                10          82           12,6        0,52
     6                 7          32            4,9        0,90      schiebung des Zentrums in Richtung der niedrigen
                                                                     Umsätze hin. Diese Verschiebung des Zentrums bei
  Summe               57         372            57         5,37
                                                                     den leicht linkssteilen Verteilungen bezieht sich auf
 Tabelle 3: Intervalle zum Anpassungstest
                                                                     den Median, da das arithmetische Mittel hier durch
Man erkennt an der Tabelle, dass eine große Ab-                      die wenigen hohen Umsätze stark beeinflusst ist (vgl.
weichung der theoretischen Häufigkeit von der in                    Eichler 2007):
der Stichprobe vorhandenen (z.B. in der Klasse 4)                     Kasse         x0,5         x        xMod
einen großen Summanden hinsichtlich der Testgröße
                                                                      1             13,23        15,53    10
t ergibt. Insgesamt erkennt man ebenso, dass die                      2             11,88        14,19    10
für die reale Verteilung am Freitag durch die Wahl                   3             13,62        16,29    10
der Klassengrenzen künstlich erzeugten annähernden                  4             11,36        14,55    5
Gleichverteilung ebenso annähernd in der theoreti-                   Tabelle 4: Lageparameter zur nach Kassen ge-
schen Verteilung auftritt.                                            clusterten Verteilung der Umsätze
Ebenso wie bei der Verteilung für den Freitag kann                  Allerdings kann man der Tabelle (4.1.3) entnehmen,
auch für die übrigen Wochentage keine Abweichung                   dass diese Verschiebung hinsichtlich der dargestell-
von der Verteilung aller Umsätze pro Kunden statis-                 ten Kennzahlen auch für die Kasse 2 vorliegt. Auch

6
mit der Hinzunahme von Streuparametern lässt sich        Verkäuferinnen beschränkt, von denen mehr als 40
der visuell entstandene Zweifel nicht belegen. Einzig     Kassenbons vorhanden sind).
der Modalwert, der aber abhängig ist von der gewähl-
ten Klassierung, stützt den Verdacht.
Ein vertiefte (und quantitative) Untersuchung kann
sich wiederum durch einen χ2 -Anpassungstest erge-
ben. Legt man wiederum die Gesamt-Verteilung der
Umsätze pro Kunden zu Grunde, so gibt es hinsicht-
lich der Teil-Verteilung zu den Kassen 1-3 keinerlei
Zweifel, dass diese den gleichen Mechanismen wie
die Gesamtverteilung unterliegen. Auch für die Kas-
se 4 ergibt sich statistisch kein Zweifel (α ≈ 0, 314).
Die in der Datenanalyse stets notwendige Verbin-
dung der statistischen Untersuchungen mit dem
Sachkontext (vgl. Pfannkuch und Wild 1999) kann
dennoch eine Erklärung geben, warum möglicher-
                                                          Abb. 11: Unterschiede zwischen vier Verkäuferinnen
weise die niedrigen Umsätze pro Kunde an der Kas-
se 4 leicht überrepräsentiert sind. Die Kasse 4 ist     Wieder könnte eine qualitative und statistische
diejenige Kasse, die kaum über einen längeren Zeit-     Beurteilung der Verteilungsunterschiede erfolgen.
raum geöffnet ist (vgl. dazu auch Abb. 10). Sie wird     Tatsächlich ergibt sich für die Verkäuferin mit der
meist im Bedarfsfall kurzfristig zugeschaltet. Wird       Codenummer 16 ein signifikant oder überzufälliger
eine neue Kasse in dem Supermarkt geöffnet, so zeigt     Unterschied zur Gesamtverteilung der Umsätze pro
sich (nach Erfahrung), dass insbesondere diejenigen       Kunden. Mit einer Notation analog zur Betrachtung
mit wenig Waren in der Hand eher den schnellen            der Umsätze am Freitag verwendet wurden, ergibt
Kassenwechsel vollziehen, als diejenigen mit einem        sich:
gefüllten Einkaufswagen. Ist die Kasse länger geöff-   Klasse (i)   HVerk.nr.16 (ki )   Hges (ki )   Htheo (ki )   ti
net, so wirkt sich das Verhalten der wenigen ersten       1            10                  18           2,9           17,35
’Kassenwechsler’ nicht aus. Wird dagegen die Kasse        2            10                  49           7,9           0,56
sehr schnell wieder geschlossen, so kann dies durch-      3            10                  36           5,8           3,03
aus eine Auswirkung auf die Verteilung der Umsätze       4            10                  104          16,77         2,74
pro Kunden haben, wie man sie – ohne statistische         5            10                  65           10,48         0,022
Untermauerung – hinsichtlich der Kasse 4 vermuten         Summe        50                  372          50            26,02
kann.                                                      Tabelle 5: Vergleich der Umsatzverteilung der
                                                           Verkäuferin Nr. 16 und aller Umsätze
                                                          Man erkennt zunächst ohne Betrachtung der Test-
                                                          größe, dass die künstlich herbeigeführte Gleich-
                                                          verteilung hinsichtlich der realen Daten zu dieser
                                                          Verkäuferin in den theoretisch ermittelten Häufigkei-
                                                          ten kaum zu erkennen ist. Es scheinen in der realen
                                                          Stichprobe die geringen Umsätze pro Kunde überre-
  Abb. 10: Unterschiede zwischen den Kassen 1-4           präsentiert, die hohen Umsätze unterrepräsentiert zu
                                                          sein. Es ergibt sich folglich ein Wert für die Test-
4.1.4 Verkäuferin des Monats?                            größe t = 26, 02, so dass die Hypothese der identi-
                                                          schen Verteilung (fast sicher: α < 0, 0001) abgelehnt
Für die Filialleitung eines Supermarkts, die nicht
                                                          werden kann.
über eine Stichprobe, sondern über die Gesamtheit
der Kassenbons verfügen, wäre es sicherlich von In-     Was bedeutet das für diese Verkäuferin? Plakativ
teresse, wenn man Unterschiede im Umsatz pro Kun-         könnte man feststellen, dass diese Verkäuferin mit
de zwischen den VerkäuferInnen feststellen könnte.      Sicherheit nicht als ’Verkäuferin des Monats’ hin-
Die 14 VerkäuferInnen in dem untersuchten Markt          sichtlich des Umsatzes pro Kunden gekürt werden
weisen die in Abb. 11 dargestellten Umsätze pro          sollte. Bösartig könnte man gar eine Unterschlagung
Kunden auf (hier ist die Darstellung auf diejenigen       von Umsätzen vermuten (die aber praktisch schwer

                                                                                                                          7
zu realisieren wäre). Eine (von vielleicht mehreren)     hat die Untersuchung des Gesamtumsatzes ausge-
Hypothesen für die Ehrenrettung dieser Verkäufe-        macht, der sich aus den Umsätzen der vier Kassen
rin ergibt sich durch Zusatzinformationen zusam-          ergibt. Eine weitere Klasse statistischer Methoden
men mit der in Abb. 12 dargestellten Verteilung der       kommt bei dieser Analyse der Daten ins Spiel, be-
Verkäuferinnen auf die vier Kassen.                      stehend aus den Verfahren der Regression und Kor-
                                                          relation. Um einen zumindest kleinen Eindruck der
                                                          genannten Spannung zu vermitteln, werden im ers-
                                                          ten Abschnitt die ersten Erkenntnisse in chronologi-
                                                          scher Reihenfolge dargestellt und erst anschließend
                                                          eine umfassendere Analyse vorgenommen.
                                                          5.1 Die ersten Schritte
                                                          Nach der Analyse der ersten Kassenbon-Daten (vgl.
                                                          Abb. 1) war nicht eindeutig geklärt, was die Kodie-
                                                          rungen im unteren Teil des Bons tatsächlich bedeu-
                                                          ten. Insbesondere war zunächst die Zuordnung der
Abb. 12: Unterschiede zwischen vier Verkäuferinnen       ersten vier-ziffrigen Codes zur Nummer des Kun-
                                                          den (periodisch von 0 bis 9999) sowie die Zuord-
Die Verkäuferin mit der Codenummer 16 ist rela-          nung der ersten drei-ziffrigen Codes zur Kasse un-
tiv neu in dem Supermarkt. Offenbar wird sie nicht,       klar. Die sich allmählich herausschälende Hypothese
wie ihre erfahrenen Kolleginnen, deutlich überwie-       in diesem Sinne führte beschreibend zur Darstellung
gend an der Kasse 1 eingesetzt, an der der Großteil       der Kundennummern an einer Kasse in Form einer
der Kunden bedient wird. Eine mögliche Hypothe-          Punktwolke bzw. einer Zeitreihe (vgl. Abb. 13). Die
se zur Ehrenrettung ist dann folgende: Die noch jun-      Skalierung der Zeitachse beschreibt die Öffnungszeit
ge Verkäuferin wird häufig in Überlastsituationen an   in Stunden seit dem 6. November 2006 (täglich 12
den Kassen 2-4 eingesetzt (insbesondere an der Kas-       Stunden ohne Sonn- und Feiertage).
se 4, an der die anderen Verläuferinnen gar nicht ein-
gesetzt werden), nach Abarbeiten der Überlast wie-
derum anderswo im Supermarkt beschäftigt. Mögli-
cherweise wirkt sich diese Einsatz-Strategie auch auf
die Umsätze pro Kunde dieser Verkäuferin aus (vgl.
auch den vorangegangenen Abschnitt).
Evidenz durch die Daten, also eine statistische Unter-
mauerung dieser Hypothese, gibt es allerdings durch
die bisherigen Analysen nicht. Auch der Vergleich
der Umsätze pro Kunde der Verkäuferin mit den Ver-
teilungen der einzelnen Kassen ergibt jeweils die Ab-     Abb. 13: Zeitreihe der Kundennummern an Kasse 1
lehnung der Hypothese, dass beide jeweils betrach-
teten Verteilungen auf identischen Zufallsmechanis-       Aus einer solchen Darstellung wurden folgende Hy-
men beruhen (vgl. Tab. 6).                                pothesen gewonnen:
 Kasse      t                    α                           1. Der erste vier-ziffrige Code beschreibt die
   1       24                 0,0002                            Kundennummer, fortlaufend und sich peri-
   2      49,6                   0                              odisch wiederholend von 1 bis 9999 (ohne die-
   3      24,3                0,0002                            se Hypothese wäre der linke Punkt in der Wol-
   4      14,6                0,0123
                                                                ke kaum zu erklären gewesen)
 Tabelle 6: Werte der Testgröße t beim Vergleich
 Verkäuferin Nr. 16 und der Umsätze der vier Kas-          2. Die Kundennummer kann gut durch eine li-
 sen                                                            neare Funktion (in Abhängigkeit von der Öff-
                                                                nungszeit) beschrieben werden.
5 Dem Gesamt-Umsatz auf der Spur                          Mit der zweiten Hypothese geht die Möglichkeit
Einen wesentlichen Anteil daran, die Spannung bei         einer Prognose einher, zu welchem Zeitpunkt der
der Sammlung der Kassenbons aufrecht zu erhalten,         10000. Kunde durch die Kasse 1 geht, wann also der

8
Umsprung von 9999 auf 1 erfolgt. Diese Prognose         die Periodizität der Regression. Die eingepasste Ge-
ist einerseits ebenfalls eine Hypothese, andererseits   rade hat die Gleichung (mit gerundeten Achsenab-
aber auch ein Kriterium für die bisher aufgestell-     schnitten)
ten Hypothesen gewesen. Die Schätzung des ’Um-                     
                                                                     54 · Stunden + 7400    für   x < 48, 15
sprungs’ sowie die Einpassung der Regressionsgera-      g(Skala) :=   54 · Stunden − 2600    für   x < 233, 34
den (hier noch schlicht nach Augenmaß) sowie die                    
                                                                      54 · Stunden − 12600          sonst
Begrenzung der Kundennummer (Nummer < 10000,
                                                        Die weiteren Schritte der Datenanalyse nach diesem
Nummer ∈ N) sind in der folgenden Abbildung (Abb.
                                                        Heureka-Effekt sind im Folgenden dargestellt.
14) aufgenommen.
                                                        5.2 Der Umsatz der einzelnen Kassen
                                                        Für die mathematisch gesteuerte Regression so-
                                                        wie die Beurteilung der linearen Abhängigkeit der
                                                        Kunden-Nummern von der Öffnungszeit kann man
                                                        zunächst die ’Umsprünge’ vermeiden und die Num-
                                                        mern so transformieren, dass sie monoton wachsen
                                                        (vgl. Abb. 16).

Abb. 14: Zeitreihe der Kundennummern an Kasse 1

Ergebnis dieser ersten Prognose: nach (ungefähr)
234 Stunden (nach dem 6.11.2006, 8 Uhr), d.h. (un-
gefähr) nach 19 Tagen und 6 Stunden Öffnungs-
zeit, erfolgt der ’Umsprung’. Bezogen auf den Start-
punkt bezieht sich die Prognose des ’Umsprungs’ auf
Dienstag, den 28. November 2006, gegen 14 Uhr. Ab       Abb. 16: Zeitreihe der Kundennummern an Kasse 1
diesem Zeitpunkt sollten dann, so die erweiterte Hy-
pothese, die Punkte der Zeitreihe durch eine Gerade     Nach der Methode der kleinsten Quadrate für die Re-
mit identischer Steigung gegenüber der vorangegan-     gression ist die Gerade mit der Gleichung
genen Periode beschreibbar sein.
                                                              g(x) = 53, 97 + 7370
Abbildung 15 zeigt Entwicklung der Zeitreihe nach
                                                        optimal. Der Korrelationskoeffizient für diese Ge-
der Sammlung der nächsten Kassenbons bis kurze
                                                        rade ist 1, d.h. die Güte der linearen Abhängigkeit
Zeit nach dem erwarteten ’Umsprung’.
                                                        ist optimal. An den Datenpunkten selbst kann man
                                                        in diesem Fall erkennen, dass der Wert des Korre-
                                                        lationskoeffizienten von 1 nicht bedeutet, dass alle
                                                        Punkte auf einer Geraden liegen, die Abweichungen
                                                        sind allerdings gering (vgl. Abb 17).

Abb. 15: Zeitreihe der Kundennummern an Kasse 1

Tatsächlich hat – von links kommend – der zu-          Abb. 17: Ausschnitt aus der Zeitreihe der Kunden-
letzt gesammelte Kassenbon der sehr nahe an dem                  nummern an Kasse 1
prognostizierten Termin liegt (Dienstag, 28.11.2006,
13.45 Uhr), die Nummer 9946. Ebenso erkennt man         In diesem Fall ist die Residuenbestimmung in Rich-
zumindest den prognostizierten ’Umsprung’ sowie         tung der Zeitachse aussagekräftiger als die übliche

                                                                                                              9
Bestimmung in vertikaler Richtung, also in Richtung       radenanpassungen bzw. Durchlaufkoeffizienten (vgl.
der Achse der transformierten Kunden-Nummern. So          auch Abb. 19):
gibt die Bestimmung der horizontalen Abweichun-
gen an, wie weit zeitlich die Abweichungen der rea-
len von den idealen Kundennummern sind. Für das
markierte Datum (vgl. Abb 17) gilt etwa, dass diese
Kundennummer gegenüber der idealen Kundennum-
mer (eingepasste Gerade) um rund dreieinhalb Stun-
den zu spät durch die Kasse gegangen ist. Betrach-
tet man alle Daten in dieser Weise, so ergibt sich im
Mittel eine zeitliche Abweichung von rund 4 Stunden
und 40 Minuten (vgl. auch Abb. 18 zu allen Residuen
in diesem Sinne).

Abb. 18: Zeitliche Abweichungen der Kundennum-
         mern an Kasse 1 von der eingepassten Re-         Abb. 19: Zeitreihe der Kundennummern an den Kas-
         gressionsgeraden                                          sen 2, 3 und 4

Wie ist nun die Gerade zu interpretieren? Aus der         Man erkennt an den Werten in der Tabelle ?? deutlich
Geradengleichung gewinnt man die Aussage, dass            die übergreifende Strategie, die Kassen in der Rei-
pro Stunde rund 54 Kunden bedient werden. Auch an         henfolge ihrer Nummerierung zur Hauptkasse, der
dieser Stelle wäre es sinnvoll, solch einen Durchlauf-   Kasse 1, hinzuzuschalten.
Koeffizienten vorab schätzen zu lassen. So ist der
                                                          5.3 Der Umsatz des Supermarkts
mittlere Durchlauf – trotz Kartenzahler, voller Ein-
kaufswagen, mühsam die Cent suchende Kunden,             Sind sowohl der Umsatz pro Kunde als auch der
fehlender Auswägungen von Frischgemüse und den,         Kundendurchsatz ekannt, so kann man natürlich un-
an Kasse 1 allerdings seltenen, Leerlaufzeiten – recht    mittelbar die Höhe der Kasseneinnahmen des Su-
hoch. Es ist möglicherweise ein Durchlauf, in dem        permarkts in bestimmten Zeitabschnitten berechnen.
sich wiederum die Struktur des Supermarkts zeigt, in      Während hier der Kundendurchsatz sehr genau be-
der die großen Wocheneinkäufe eher selten sind (sie-     stimmt werden kann, ist für den Umsatz pro Kunde
he oben). Aus dem Durchlauf pro Stunden ergibt sich       ein Intervall gegeben, das bei angemessener Güte der
weiterhin, dass im Mittel etwa alle 185 Stunden bzw.      Daten mit hoher Wahrscheinlichkeit den realen mitt-
alle 15 Tage und 4 Stunden 10 000 Kunden die Kasse        leren Umsatz pro Kunde enthält.
1 des Supermarkts passieren.                              Es ergibt sich z.B. pro Tag im Mittel der Durchsatz
Kasse Gerade (h für ’Stun-         Durchlauf pro h,      von 12 · (53, 97 + 46 + 25, 9 + 14, 4) ≈ 1683 Kunden.
      den’)                         entspricht            Legt man weiterhin das mit dem Standardverfahren
                                    10000 Kunden in       bestimmte Konfidenzintervall zum mittleren Umsatz
2         g1 (x) = 46 · h − 3100    46,0                  pro Kunde, so erhält man Umsatz pro Tag in Euro das
          r=1                       18 d 1 h              Intervall [23900; 27600] (gerundet). Insgesamt ergibt
3         g1 (x) = 25, 9·h+4100     25,9                  sich
          r=1                       32 d 2 h
4         g1 (x) = 14, 4·h+4200     14,4                                            Einnahmen in Euro
          r=1                       57 d 10 h              Zeitspanne        untere Grenze   obere Grenze
    Tabelle 7: Kunden-Durchläufe                          Tag               23900           27600
                                                           Woche             167300          193200
Für die anderen Kassen, die bei Bedarf der Kasse          Monat (26 Tage)   621500          717700
1 zugeschaltet werden, ergeben sich nach dem glei-         Jahr (2007)       7242300         8364400
chen Analysemuster die in Tabelle 7 angeführten Ge-       Tabelle 8: Einnahmen des Supermarkts

10
5.4 Kalkulation eines Supermarktes                       der Erhöhung der Mehrwertsteuer. Das Produkt kos-
Aus dem Kassenumsatz die Kalkulation des Super-          tet damit nach der Erhöhung 119
                                                                                        116 ≈ 1, 0259 mal so
markts zu rekonstruieren, ist ein komplexes Problem      viel wie vorher oder: Die Erhöhung der Mehrwert-
und würde den Artikel sprengen. Es sollen nur kur-      steuer hat das Produkt um rund 2,6 Prozent verteuert.
ze Hinweise gegeben werden, die projektartig weiter      Die Rechnung gilt aber natürlich nur für Produkte,
verfolgt werden könnten, aber weit über die hier er-   die der Mehrwertssteuer von ehemals 16 und nun
folgte Datenanalyse hinausgehen.                         19 Prozent unterliegen. Ein Blick auf den Kassenbon
Ein Supermarkt hat das verständliche Ziel, Gewinn       (vgl. Abb. 1 zeigt, dass das nicht für alle im Super-
zu machen. Von den Einnahmen an der Kasse abzu-          markt verkauften Waren gilt, sondern dass viele der
rechnende Kosten entstehen durch                         Waren nur mit 7 Prozent (dem ermäßigten Mehrwert-
                                                         steuersatz). Das Bundesfinanzministerium sagt dazu:
   • die monatliche Miete; solche Informationen           Der ermäßigte Steuersatz wird insbesondere auf die
                                                         ”
     kann man aus dem Netz beziehen.                     Lieferung, die Einfuhr und den innergemeinschaftli-
                                                         chen Erwerb von fast allen Lebensmitteln – ausge-
   • Nebenkosten, die schwer abzuschätzen sind
                                                         nommen Getränke ... – angewandt.“ 2 Das bedeutet
     (extensives Heizen im Winter, Kühlung von
                                                         also, dass die Lebensmittel (fast) alle nur mit 7 Pro-
     Waren etc.).
                                                         zent besteuert werden. Dieser Steuersatz ist entgegen
   • Kosten entstehen für das Personal. Das mo-         dem ’normalen’ Mehrwertsteuersatz, der im Super-
     natliche Gehalt einer Verkäuferin bzw. ei-         markt für Getränke (nicht Milchprodukte) gilt, zum
     nes Verkäufers ist (im Mittel) auch im Netz        Jahreswechsel nicht gestiegen. Zeitschriften unter-
     verfügbar3 . Zuzurechnen wären die vom Ar-        liegen dem ermäßigten Steuersatz, Waren von Ziga-
     beitgeber zur Hälfte zu bezahlenden Sozial-        retten, Pflegemitteln, Reinigungsmitteln bis hin zum
     abgaben. Zudem müsste man eine Schätzung          Klopapier dagegen dem ’normalen’.
     machen, wie viele Angestellte ein Supermarkt
                                                         Die Erhöhung fast aller Waren, die nicht zu den Nah-
     abgesehen von denjenigen an den Kassen
                                                         rungsmitteln gehören, hat sich folgendermaßen aus-
     beschäftigt.
                                                         gewirkt:
   • die an den Staat gehende Mehrwertsteuer (vgl.        Arithmetisches Mittel (Umsatzes pro Person)
     auch den folgenden Abschnitt).                       vor und                 nach der Erhöhung
                                                          15,18e                  15,42e
   • natürlich durch den Einkauf der Waren. Kann
     man nach Abzug der an den Staat gehenden            Damit haben sich die Waren (bezogen auf die Stich-
     Mehrwertsteuer die Miet-, Neben- und Perso-                                                         15,42
                                                         probe) in dem Supermarkt um den Faktor 15,18          ≈
     nalkosten bestimmen, so hat man die Möglich-       1, 016 oder um 1,6 Prozent erhöht. Für eine nähere
     keit, den Aufschlag des Supermarkts zu be-          Analyse kann man noch die Betrachtungen aus Ka-
     stimmen, ab dem ein Gewinn (ohne Beachtung          pitel 2 nutzen. Legt man die dort vorhandene Ver-
     der Steuer) entsteht.                               teilung der Warengruppen zugrunde, so unterliegen
                                                         etwa 15,3 Prozent der erhöhten Mehrwertsteuer und
6 Ein letzter Aspekt - die                               die verbliebenen rund 85 Prozent nicht. Legt man
                                                         diese Verteilung des sicherlich nicht allzu großen Da-
  Mehrwertsteuer                                         tensatzes zugrunde, dann sollten sich 15,3 Prozent
Als letzter Aspekt der Datenanalyse soll noch ein        des mittleren Umsatzes um rund 2,6 Prozent erhöht
Blick auf die Erhöhung der Mehrwertsteuer gewor-        haben. Es wäre also demnach im Jahr 2007 ein fol-
fen werden, die zum Jahresbeginn von 16 auf 19           gender mittlerer Umsatz zu erwarten gewesen:
Prozent angehoben wurde. Was bedeutet das eigent-
                                                          Arithmetisches Mittel (Umsatzes pro Person)
lich für die Preise, falls die Erhöhung unmittelbar
                                                          vor und      nach der Erhöhung
an die Kunden weitergegeben wird? Ein einfaches
                                                          15,18e       15, 18 · (1 + 0, 153 · 0, 026) ≈ 15, 24e
Modell könnte so aussehen: Vor der Erhöhung kos-
tet ein Produkt netto, d.h. ohne Aufschlag der Mehr-     Zu erwarten wäre also durch die erhöhte Mehr-
wertsteuer, 100 Geldeinheiten (als Normierung ir-        wertsteuer nur eine Erhöhung von rund 0,4 Prozent
gendeines konkreten Euro-Betrags). Damit kostete         (0, 153 · 0, 026 ≈ 0, 004) gewesen, statt der offenba-
das Produkt 100 + 0, 16 · 100 = 116 Geldeinheiten        ren Verteuerung der Waren im Jahr 2007 von rund
vor und 100 + 0, 19 · 100 = 119 Geldeinheiten nach       1,6 Prozent. Mit anderen Worten: Der Supermarkt ist

                                                                                                                  11
teurer geworden, als es die Erhöhung der Mehrwert-          • Erkennen der Notwendigkeit von Daten
steuer hergibt.
                                                             • Flexible Aufbereitung von Daten
Wie ist das zu erklären? Es gibt zwei Hypothesen,
                                                             • Erkennen der Variabilität von Daten
die zwar nicht belegbar, aber dennoch plausibel sind.
Die erste ist simpel: Es hat zum Jahreswechsel eine          • Erkennen und Beschreiben von Mustern in den
allgemeine Preiserhöhung der Waren gegeben. Auch              Daten
die zweite Hypothese ist möglich: Die Preise im Su-
permarkt enden zumeist auf 9 Cent, es hat also et-           • Verbindung mit dem Sachkontext.
wa ein Getränk vor der Erhöhung 1,19 Euro gekos-        Im Sinne dieser Teilaspekte des statistischen Den-
tet. Würde die Mehrwertsteuer unmittelbar und in der     kens soll die Datenanalyse zu den Kassenbons noch
richtigen Höhe an die Kunden weitergegeben wer-          einmal rückblickend in Kürze betrachtet werden.
den, so müsste das Getränk 1, 19 · 1, 026 ≈ 1, 22 Eu-
ro kosten. Das gibt es aber im Supermarkt nicht. So       Erkennen der Notwendigkeit von Daten: Für
wird man eventuell in einigen Fällen bei 1,19 Eu-        einen Statistiker ist die Formulierung dieser Stu-
ro geblieben sein, im der größeren Zahl der (Wa-         fe wahrscheinlich banal, für Schüler zunächst ein-
ren)Fälle den Preis auf 1,29 Euro erhöht haben. Auch    mal nicht. Hier ist die Erfahrung aufzubauen, dass
dadurch kann sich die zu große Erhöhung des mittle-      über das Vergößern von Datensätzen Beurteilungen
ren Umsatzes erklären.                                   von Situationen erst einmal über ’Stammtischmei-
                                                          nungen’ bzw. naive Schätzungen hinauskommen.
7 Didaktische Anmerkungen                                 In dem vorgestellten Projekt wird die Notwendigkeit
In der Analyse von Daten, die auf dem Boden liegen,       einer vergößerten Datenbasis in mehreren Phasen
steckt einiges didaktisches Potenzial. Zunächst ist      deutlich. Zunächst braucht man mehr Daten (Kas-
die Analyse der Daten in unterschiedlichen Anforde-       senbons), um die Kodierungen des Kassenzettels zu
rungsstufen in verschiedenen Klassenstufen möglich,      verstehen. Glaubt man zu verstehen (hypothetisch),
prinzipiell vom Ende der Primarstufe bis in die           so braucht man mehr Daten, um seine Hypothesen
Sekundarstufe II. Die Spannweite liegt inhaltlich         zu bestätigen (etwas die Kodierung der Kundennum-
von einfachen Häufigkeitsbestimmmungen bis hin           mer). Will man weitere Untersuchungen machen (et-
zu Verfahren der beurteilenden Statistik wie Anpas-       wa zum Umsatz pro Kunde aufgeteilt nach Verkäufe-
sungstest. Innerhalb einzelner Untersuchungsschrit-       rInnen), so braucht man unter Umständen noch mehr
te kann die Schwierigkeit variiert werden. So sind        Daten und kann dabei die Grenzen der Ausagefähig-
an manchen Stellen wie etwa dem Vergleich von             keit eines begrenzten Datensatzes erkennen.
Umsätzen pro Kunde an bestimmten Tagen mit dem
allgemeinen Umsatz pro Kunde verschiedene Metho-          Flexible Aufbereitung: Die flexible Datenaufbe-
den einsetzbar, für die Sekundarstufe I eine qualita-    reitung durchzieht die explorative Datenanalyse der
tive Untersuchung von Verteilungen durch Betrach-         Kassenzettel. So werden die Daten nach unterschied-
tung von Mittelwerten und Streuung, für die Sekun-       lichen Gesichtspunkten grafisch dargestellt und ana-
darstufe evtl. mit dem Einsatz von inferenzstatisti-      lysiert, etwa als Gesamtdatensatz oder geclustert
schen Verfahren.                                          nach Aspekten wie Einzelkassen, Einzeltagen oder
                                                          Einzelverkäuferinnen.
Ein Unterrichtsprojekt zu Kassenbons enthält weiter-
hin alle Stufen, die eine komplette statistische Un-      Die eingesetzten Methoden können breit gestreut
                         ”                                werden. So kann die Analyse eher qualitative Unter-
tersuchung“ (Biehler, Hartung 2006, 53) aufweist:
  Problemstellung – Planung der Erhebung – Daten-         suchungen verschiedener Diagramme (Boxplots oder
”                                                         Säulendiagramme), oder eher quantitativ-statistische
erhebung – Auswertung – Interpretation – Schluss-
folgerung und Ergebnisbericht“ (ebd.). Es ist zudem       Verfahren wie etwa den Anpassungstest umfassen.
über die Betrachtung der Kalkulation eines Super-        Die flexible Datenaufbereitung hat dabei zum Ziel, in
markts noch erheblich erweiterbar.                        möglichst vielfältiger Weise Muster in den Daten zu
                                                          erkennen und beispielgebunden Möglichkeiten und
Versteht man die Datenanalyse als Kompetenz, die          Grenzen einzelner statistischer Methoden zu erfah-
Schüler in ihrer Schulzeit erwerben sollen, so kann      ren.
man die Aufteilung des statistischen Denkens, die
Wild und Pfannkuch (1999) formuliert haben, als           Erkennen der Variabilität von Daten: Dieser
Auflistung von Teilkompetenzen verstehen:                 Aspekt wird in der Analyse der Kassenbons eher un-

12
terschwellig behandelt. Dennoch ergibt sich etwa bei     Frühjahr ein bisschen billiger werden zu können.
der Analyse der nach Wochentagen oder Verkäufe-         Und satte Preiserhöhungen unter dem Strich....
rinnen geclusterten Umsätze pro Person stets die Fra-
                                                         Die Stochastik-Kurse am Heinrich-Mann-Gymnasi-
ge, ob die Unterschiede in den Verteilungen auf eben
                                                         um in Köln gingen erneut auf Zetteljagd. . . und das
der Variabilität der Daten beruhen oder ob systema-
                                                         Stöbern in dem alten Zettelhaufen begann von vor-
tische Unterschiede bestehen. Einen etwas explizite-
                                                         ne. Man musste auf den alten (zum Glück noch nicht
ren Zugang zum Erkennen der Variabilität kann da-
                                                         entsorgten) und den neuen Kassenzetteln gleiche Wa-
gegen die in Kapitel 4.1.2 (vgl. S.5) simulierte Ver-
                                                         ren finden. Die ersten Ergebnisse zeigen: Brechboh-
teilung von Umsätzen pro Person an vier virtuellen
                                                         nen wurden teurer (+), Toilettenpapier billiger (-).
Freitagen leisten.
                                                         Was sich hinter ’Wacholderbauch’ (-) verbirgt, blieb
                                                         zunächst ungeklärt.
Erkennen und Beschreiben von Mustern in den
Daten: Die Suche nach Mustern in den Daten ist             Ware           März 2001 –        Diff.     Vorz.
ein Kernstück der Datenanalyse. Hier geht es ei-                         März 2002
nerseits um die qualitative Beschreibung von Mus-                         1e= 1,95583DM
tern, etwa der Verteilung von Umsätzen pro Kun-           Backofen       1,32DM (0,67e)      0,19e     +
                                                           Pommes         – 0,86e
de. Die statistische Analyse mit Hilfe des Anpas-
                                                           Bandnudeln     1,29DM (0,66e)      -0,01e    -
sungstest hilft bei der Beurteilung, ob ein Muster (in                    – 0,65e
den Umsätzen pro Kunde) mit den in den Daten ste-         Coca Cola 2l 2,79DM (1,43 e)       -0,16e    -
ckenden empirischen Phänomenen wie etwa der Um-                          – 1,27e
satzverteilung pro Kunde an bestimmten Tagen über-        Fischstäbchen 2,49DM (1,27 e)     0,12e     +
einstimmt. Schließlich lässt sich der Durchlauf von                      – 1,39e
Kunden an den Kassen in fast idealer Form mit Hilfe        Brechbohnen 1,39DM (0,71e)         0,08e     +
eines Musters, einer Regressionsgeraden, beschrei-                        – 0,79e
ben und die Güte des Musters mit Hilfe des Korre-         Gouda          4,17DM (2,13e)      0,14e     +
                                                                          – 2,27e
lationskoeffizienten beurteilen.
                                                           Klarspüler    1,99DM (1,02e)      0,15e     +
                                                                          – 1,17e
Verbindung mit dem Sachkontext: Die Verbin-                Toiletten-     4,98DM              -0,06e    -
dung der Datenanalyse mit dem Sachkontext ist bei          papier         (2,55e)– 2,49e
realen Daten fast von selbst gegeben. An verschie-         Wachholder- 1,99DM (1,02e)         -0,03e    -
denen Stellen wird aber gerade bei der Analyse             bauch          – 0,99e
der Kassenbons der Sachkontext Ausgangspunkt von           Waffeleier     1,29DM (0,66e)      0,03e     +
Erklärungsversuchen, wenn die statistische Analyse                       – 0,69e
keine Erklärungsansätze mehr bieten kann. Eines von      Tabelle 9: kleine Stichprobe vom Umfang 10
mehreren Beispielen sind die Hypothesen zur statis-      Und mit dieser Stichprobe war man beim einfachs-
tischen Auffälligkeit des Umsatzes pro Kunden einer     ten Verfahren der beurteilenden Statistik, beim Vor-
bestimmten Verkäuferin.                                 zeichentest, ’gelandet’. Und zu unserer Verblüffung
                                                         - und allen Unkenrufen zum Trotz mussten wir fest-
8 Euro-Debatte und die Exponential-                      stellen, dass tatsächlich von den 360 verglichenen
                                                         Preisen, 213 (das sind 59 Prozent) gesenkt worden
  verteilung, ein ’historischer’ Nachtrag.               waren.
Als der zweitgenannte Autor im April 2001 mit sei-
nen Schülern erstmals auf Kassenzettel-Jagd ging,       Genauere Untersuchungen zerrten dann den tiefe-
dachte noch niemand an den Euro.                         ren Grund für diese vielen Preissenkungen ans Ta-
                                                         geslicht: Nicht eine barmherzige Kundenfreundlich-
Im April 2002 war er schon 4 Monate als der              keit, sondern die sublime Psychologie der ’Schwel-
berüchtigte ’Teuro’ unter uns. Und zu allem Ärger      lenpreise’: Wenn früher ein Produkt 1,99DM ge-
hingen da seit Wochen diese Plakate ’im ALDI’,           kostet hätte, müsste es nun wegen des Umrech-
die weismachen wollen, dass bei den Lebensmit-           nungskurses 1,01e kosten. Wenn man daraus 0,99e
teldiscountern alles billiger geworden ist, erinnern     macht, hat ALDI 2 Cent ’verschenkt’, kann aber wie-
Sie sich? Wieder so eine geschickte Werbemasche?         der einen psychologisch günstigen Schwellenpreis
Hat man doch oft gehört. Und überall gelesen. Kurz     anbieten. Diese Vielzahl minimaler Preissenkun-
vor der Euroumstellung Preise ´rauf, um dann im          gen wurden durch massivere Preiserhöhungen bei

                                                                                                            13
einzelnen Produkten ausgeglichen. Unsere ’ALDI-
Kassenzettelforschung’ ergab insgesamt eine (recht
moderate) Preiserhöhung von ca 2 Prozent während          Anmerkungen
eines Jahres. Wer mochte, konnte darauf guten Ge-           1   Die Supermärkte haben verschiedene Vorgehensweisen bei
wissens reimen: ’Willst du keinen Teuro haben,                  den Angaben auf ihren Kassenbons. Welche Kodierungen von
                                                                einzelnen Märkten aufgeführt werden, kann daher nicht allge-
musst du dich bei ALDI laben’.
                                                                mein angegeben werden. Die De-Codierung ist damit immer
                                                                wieder eine neue Aufgabe.
                                                            2   Vgl. http://www.bundesfinanzministerium.de/cln 04/nn 3506/
                                                                DE/Service/Lexikon A Z/U/001.html
                                                            3   Vgl http://www.boeckler.de/cps/rde/xchg/SID-3D0AB75D-
                                                                FEC5218E/hbs/hs.xsl/550.html.

                                                            Literatur
                                                            Biehler, R., Hartung, R. (2006). Die Leitidee Daten und Zufall.
                                                               In Blum, W. Drüke-Noe, C., Hartungs, R., Köller, O. (Hrsg.),
                                                               Bildungsstandards Mathematik: konkret. Berlin: Cornelsen-
                                                               Scriptor, S. 51-80.
                                                            Eichler, A. (2007) Geld weg – Arzt weg!“— Was ist dran am
                                                                                 ”
                                                               Ärzteprotest?. Praxis der Mathematik 49(13), S.20-26.
                                                            Fisz, M. (1973) Wahrscheinlichkeitsrechnung und mathemati-
                                                               sche Statistik. Berlin: VEB.
     Abb. 20: Alte und neue Preise im Vergleich             Herget, W. (1994) Artikelnummern und Zebrastreifen, Balken-
                                                               code und Pruefziffern - Mathematik und Informatik im All-
Eine weitere überraschende Entdeckung machten                 tag. In Blum, W., Henn, W., Klika, M., Maass, J. (Hrsg.),
Paul, David und Wladi, die inzwischen alle Ma-                 Materialien fuer einen realitaetsbezogenen Mathematikunter-
the und Informatik studieren: Die Rechnungsbeträge            richt. Bd. 1. Hildesheim: Franzbecker. 1994. S.69-84.
                                                            Makar, K. und Confrey, J. (2004). Secondary teachers’ statisti-
sind nicht, wie man vielleicht erwarten würde, nor-           cal reasoning in comparing two groups. In Ben-Zvi, D., und
malverteilt: Unabhängig von der Supermarktkette               Garfield, J. B. (Hrsg.), The challenge of developing statisti-
erwiesen sie sich als exponentialverteilt. Das gilt            cal literacy, reasoning, and thinking (S. 353-373). Dordrecht:
für Aldi, für Lidl, für Plus und selbst für Kaiser’s.      Kluwer.
                                                            Pfannkuch, M., Wild, C. (1999). Statistical Thinking in Empiri-
Das ’verrückte’ ist, dass man genau diese Verteilung          cal Enquiry. In: International Statistical Review 67(3) 1999,
erhält, wenn man im Rahmen einer Modellrechnung               S.223-248.
’virtuelle Kunden’ beim Einkauf durch den Laden             Riemer, W. (2003). Stochastik. Stuttgart: Klett-Verlag, S.154.
schlendern lässt, die jede Ware, an der sie vorbei-        Riemer, W. (2006). Lambacher-Schweizer 6 NRW. Stuttgart:
                                                               Klett-Verlag, S.164.
kommen, rein zufällig und unabhängig von dem, was
                                                            Tversky, A. und Kahnemann, D. (1973). Availability: A heuristic
schon im Korb ist mit einer festen Wahrscheinlich-             for judging frequency and probability. Cognitive Psachology
keit hinzupacken.                                              5, 207-232.

                                                            Anschrift der Verfasser
                                                            Andreas Eichler
                                                            Institut für Didaktik der Mathematik
                                                            Westfälische Wilhelms-Universität Münster
                                                            Fliednerstraße 21
                                                            48149 Münster
                                                            a.eichler@uni-muenster.de
                                                            Wolfgang Riemer
                                                            Studienseminar für Lehrämter an Schulen
                                                            Claudusstraße 1
                                                            50678 Köln

Abb. 21: Exponentialverteilung der Rechnungsbe-
         träge (Säulen) mit virtuellen Kunden (Kur-
         ve)

14
Sie können auch lesen