Daten, die auf der Erde liegen - auf Spurensuche im Supermarkt
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Daten, die auf der Erde liegen - auf Spurensuche im Supermarkt A NDREAS E ICHLER , M ÜNSTER UND W OLFGANG R IEMER , K ÖLN Zusammenfassung: Die Analyse von Kassenbons, als Pool von Anregungen zu verstehen. Die Beispie- die in Supermärkten achtlos weggeworfen werden, le werden exemplarisch ausgeführt, ohne dass diese ermöglicht eine detektivische Datenanalyse, die mit allerdings als fertigen Unterrichtsvorschlag für spe- unterschiedlichen Schwerpunkten in allen Schulstu- zielle Klassenstufen auszubauen. fen möglich ist. In diesem Artikel wird Schritt für Schritt die Rekonstruktion des Mikrokosmos’ eines Supermarkts aus zunächst leblosen Zahlenkolonnen 2 Datensammlung und erste Einsichten nachgezeichnet – vom Konsumentenverhalten bis hin 2.1 Der Supermarkt zum Umsatz des Supermarkts. Ein ’historisches’ Der Supermarkt, um den es hier geht, liegt in Braun- Nachwort zur Verwendung von Kasenzetteln im Sto- schweig und dort in einer gutbürgerlichen Gegend. chastikunterricht zur Zeit der Euro-Umstellung be- Es ist ein Markt, der Kunden aus der umliegenden schließt den Artikel. Gegend bedient und von Montag bis Samstag in der Zeit von 8 bis 20 Uhr geöffnet ist. Viele Kunden 1 Einführung kommen zu Fuß und mit dem Rad, der Parkplatz ist relativ klein. Der Supermarkt unterscheidet sich Sie liegen buchstäblich auf der Erde herum, zusam- damit deutlich von den großen Märkten in der Peri- mengeknüllt, weggeworfen oder im Einkaufswagen pherie der Stadt mit großen Parkplätzen, geschaffen zurückgelassen: nach einem prüfenden Blick haben für einen großen Wocheneinkauf und Angeboten, die die Bons, die man an der Kasse eines Supermarkts weit über Nahrungsmittel hinausreichen. erhalten hat, offenbar keinerlei Wert mehr für deren kurzfristige Besitzer. Doch für angehende Statisti- So ist das Angebot des Supermarkts zwar eher auf ker aller Schulstufen können sie spannende Einblicke gehobene Bedürfnisse ausgelegt, bedient aber neben in die Welt eines Supermarkts und Ansätze für die den üblichen Haushaltswaren wie Reinigungsmittel Analyse realer Daten geben, denen in ihrer Vielfalt oder Pflegebedarf in erster Linie Nahrungsmittel und quasi nur durch die Kreativität von Datendetektiven Getränke. Neben Angestellten, die ausschließlich für Grenzen gesetzt sind. Durch unterschiedliche Unter- die Bestückung der Obst- und Gemüseabteilung oder suchungsperspektiven und flexible Verwendung sta- für die Fleisch- und Käsetheke zuständig sind, bedie- tistischer Methoden entsteht so Stück für Stück aus nen 14 Verkäuferinnen bzw. Verkäufer die vier Kas- zunächst leblosen Zahlenkolonnen der Mikrokosmos sen des Supermarkts. eines Supermarkts. Die Idee, Kassenbons auszuwerten, stammt vom 2.2 Die Datensammlung zweiten Autor (2003, 2006) und wurde dort als Pro- Als Blatt voller Daten kommt ein Kassenbon daher jekt vorgeschlagen. Einige der vielen Möglichkei- (siehe Abb. 1).1 Einige der darauf enthaltenen Da- ten, diese von der Erde gesammelten Daten auszu- ten sind unmittelbar einsichtig, das sind die (meis- werten, sollen in dieser Arbeit behandelt werden. ten) Artikel-Bezeichnungen und zugehörigen Prei- Dabei geht zunächst der Blick in die unteren Klas- se. Die Angaben zur Preis-Summe aller Waren, zum sen (auch in die Primarstufe), in der Fragen nach Hin- und Rückgeld sowie zur Mehrwertsteueraus- dem Konsumentenverhalten anhand eindimensiona- zeichnung sind ebenso einsichtig. Dann folgen aller- ler Datensätze thematisiert werden können. Der Bo- dings im unteren Bereich (siehe Pfeil) des Bons An- gen reicht dann bis zum Untersuchen von Zusam- gaben, die erst nach dem Betrachten mehrerer Kas- menhängen durch die Auswertung zweidimensiona- senbons de-codiert werden können. So bezeichnet ler Datensätze, mit denen die Finanzlage eines Su- permarktes aufgedeckt und fachlich die Datenanaly- • die erste vierstellige Nummer (Zahl) die Num- se mit der Wahrscheinlichkeitsrechnung verbunden mer des Kunden an einer bestimmten Kasse, wird. Einige weitere Betrachtungen, wie etwa die • die zweite vierstellige Nummer den speziellen Auswirkung der Mehrwertsteuererhöhung oder die Supermarkt, Frage nach der ’Verkäuferin des Monats’ sind in die Datenanalyse eingeflochten. Die Arbeit ist insgesamt • die erste dreistellige Nummer die Kasse und Stochastik in der Schule XX (XXXX) X S. 1–?? 1
• die zweite dreistellige Nummer die Verkäufe- rin bzw. den Verkäufer. Abb. 2: Verteilung der Kassenbons über die Wochen- tage Auch die Verteilung der Kassenbons über die Öff- nungszeiten des Marktes ist nicht repräsentativ. Ins- besondere die Randzeiten sind deutlich unterre- präsentiert (siehe Abb. 3) Abb. 3: Verteilung der Kassenbons über die Stunden Abb. 1: Ein Kassenbon des Supermarkts Ein anderes Manko der Datengüte ist die Frage, wer Das Datum und die Uhrzeit des Einkaufs sind überhaupt seinen Kassenbon annimmt (wird er gleich schließlich ebenfalls noch auf dem Kassenbon ent- an der Kasse gelassen, landet er nämlich in einem un- halten. Was hier profan erzählt wird, ist schon Teil erreichbaren Korb), wer ihn annimmt und kurze Zeit des Detektivspiels ’dem Supermarkt auf der Spur’. später achtlos zurücklässt und wer diesen mitnimmt. Die Zahlen bzw. Ziffern, die hier mit dem im Mathe- Rein qualitativ, aus den dreimonatigen Beobachtun- matikunterricht der Sekundarstufen eher vereinzelt gen herrührend, ist kein Muster erkennbar gewesen, behandelten Kodieraspekt daherkommen (vgl. z.B. ob zum Beispiel erst bei besonders großen Einkäufen Herget 1994), enthalten eine zunächst unbekannte der Bon zur Kontrolle mitgenommen wird. Eine Botschaft, die entschlüsselt werden muss. Dieses für ebenso qualitative Einschränkung gibt es dabei: so jeden Supermarkt unterschiedliche Rätsel zu lösen ist scheinen Kartenzahler den Bon zusammen mit dem überhaupt der Ansporn gewesen, mehr als einen Bon Einzugsbeleg für die Karte eher mitzunehmen als fal- zu betrachten und hat schließlich die leidenschaftli- lenzulassen. Ein Indiz dafür könnte das geringe Auf- che Jagd auf das Wegwefprodukt Kassenzettel aus- kommen an solchen Bons zu sein, auf denen die Kar- gelöst. tenzahlung erkennbar dokumentiert ist. Andererseits Seit dem 6. November 2006 sind insgesamt bisher gibt es keinen harten Beleg dafür, wie viele Kun- 372 Bons unterschiedlicher Tage und unterschiedli- den mit Karte bezahlen, sondern eher einen, der in cher Tageszeiten zusammengekommen. der Literatur unter dem Stichwort ’Verfügbarkeits- heuristik’ (Tversky und Kahnemann 1973) bekannt 2.3 Die Güte der Daten geworden ist. Diese ’Verfügbarkeitsheuristik’ bedeu- Da die Kassenzettel von einer Einzelperson bei di- tet in diesem Zusammenhang die subjektiv empfun- versen eigenen Einkäufen in dem Supermarkt ge- dene Häufigkeit (bzw. Wahrscheinlichkeit) von Kun- sammelt wurden, kann natürlich nur bedingt von ei- den, die mit Karte bezahlen, denn schließlich ist ner Zufallsauswahl oder repräsentativen Auswahl ge- man überzeugt davon, dass zumindest in der eige- sprochen werden. Das liegt zum einen an der Zeit der nen Schlange vor der Kasse prinzipiell alle mit ei- eigenen Einkäufe und der zu diesen Zeiten verfügba- ner (langsamen) Karte bezahlen, deren halb defekter ren Bons. Abbildung 2 zeigt die Verteilung der ge- Magnetstreifen mehrere Anläufe verursacht. sammelten Bons über die Wochentage. 2
3 Wer kauft was - eine einfache andere, auch erheblich einfachere Klasseneinteilun- Datenanalyse gen vornehmen, wie etwa Getränke, Nahrungsmittel, Anderes oder Frischprodukte, konservierte Produkte Eine einfache, mit kleinen Datensätzen bereits in der etc. Primarstufe anwendbare Analyse, betrifft das Konsu- mentenverhalten. Was wird eigentlich vorwiegend in Eine Deutung oder Interpretation der Daten, ein solch einem Supermarkt gekauft? Ein Teildatensatz grundsätzlicher Schritt des statistischen Denkens von 64 Kassenbons ergibt dabei folgendes Bild (sie- (Pfannkuch und Wild 1999), ist bei diesem Datensatz he Tabelle 1): schwierig. Aus der Auswahl der Kassenbons ergibt sich etwa ein vermutlich zu hoher Anteil an Back- Warenart Umsatz Anteil am Gesamt- (in Euro) umsatz (in %) zutaten und Süßigkeiten, da einige Kassenbons aus Fleisch 126,48 13,9 der Vorweihnachtszeit stammen und einen erhebli- Obst & Gemüse 123,21 13,5 chen Anteil an den jeweiligen Gesamtsummen ha- Sonstiges 122,91 13,5 ben. Ebenso wird man an den Tagen vor dem Wo- Süßigkeiten 77,77 8,5 chenende einen erhöhten Umsatz an Alkoholika ent- Käse 68,0 7,5 decken. Alkohol 63,23 7 Backwaren 37,85 4,1 Sicher sind weitere Interpretationen anhand der Da- Milch 35,4 3,9 tentabelle möglich. Interessant und propädeutisch für Fertiggerichte 31,55 3,5 die Statistik wichtig wird es aber dann, wenn man Getränke 30,34 3,3 vor der Datenaufbereitung (aber nach einer Klas- Zigaretten 28 3,1 seneinteilung) eine wiederum fundamentale statisti- Backzutaten 25,73 2,8 sche Methode angewendet hat: nämlich die Hypothe- Eier 25,68 2,8 senbildung bezüglich der Verteilung der Waren in- Joghurt 24,71 2,7 Konserven (Gemüse) 14,59 1,6 nerhalb des Gesamtbudgets. Dann hat man mögli- Gewürze 14,31 1,6 cherweise Argumentationsbedarf: Stimmen die Da- Sanitärbedarf 13,29 1,5 ten mit den Hypothesen überein? Ab welcher Abwei- Zeitschriften 12,6 1,4 chung geht man davon aus, dass die Hypothese falsch Nudeln & Reis 9,83 1,1 war? Gut wäre es dabei, einen weiteren Datensatz Kaffee & Tee 9,68 1,1 zur Verfügung zu haben, der ein erstes Erkennen der Knabberwaren 8,38 1,0 Variabilität statistischer Daten (Pfannkuch und Wild Körperpflege 5,58 0,6 1999) ermöglicht. An solch einem Beispiel lässt sich Konserven (Obst) 3,37 0,4 die Hypothesenbildung sowie die Beibehaltung bzw. Tabelle 1: Verteilung der Umsätze auf einzelne Ablehnung von Hypothesen vorbereiten. Produktklassen Eine Datenaufbereitung in diesem Sinne berührt das elementare Umgehen im Größenbereich Geld. Aus 4 Dem Einzel-Umsatz auf der Spur der Sicht der Datenanalyse ist hier der Aspekt der Spannend wird es, wenn man die Daten im Sin- Klassierung interessant, der eine fundamentale Auf- ne des Umsatzes des Supermarkts hin- und herwen- gabe jeglicher (Ein)Ordnung von Daten ist. So hat det. Auch das geht bezogen auf untere Klassenstufen ein Supermarkt unüberschaubar viele Waren im An- (quasi) eindimensional. gebot. Unter welchen Kategorien oder eben Klassen soll man diese erfassen? Hier müssen Datendetekti- Alle folgenden Bearbeitungen sind sinnvoll nur mit ve vorher überlegen und kommen möglicherweise zu dem Rechner zu bearbeiten. Eine sehr geeignete der Einsicht, die die Statistik insgesamt durchzieht: Software, die unmittelbar das mehrfach bemühte es gibt eigentlich keine ’richtigen’ oder ’falschen’ Bild des Datendetektivs unterstützt, ist fathom, das Klasseneinteilungen, sondern nur sinnvolle und we- seit vergangenem Jahr in deutscher Sprache auf dem niger sinnvolle. Sinnvoll bedeutet hier allein, dass Markt ist. Der ungeheure Vorteil ist die unmittelba- man die Fragen, die man an die Daten stellt, durch ei- re, sehr einfach handhabbare Verfügbarkeit von gra- ne mehr oder minder willkürliche Klasseneinteilung fischen Datenaufbereitungen in allen schulrelevanten beachtet. Auch die oben gegebene Klasseneinteilung Repräsentationen. Der Nachteil ist, etwa gegenüber ist willkürlich, eine Vielzahl anderer Einteilungen Excel, die (noch) geringe Verbreitung. Alle Grafiken sind möglich. Je nach Fragestellungen könnte man in dieser Arbeit sind mit fathom erstellt. 3
4.1 Der Umsatz 4.1.2 Der Umsatz zu verschiedenen Zeitpunkten 4.1.1 Der Umsatz pro Kunde Ein weiterer Aspekt bei der Untersuchung der Kas- senbons könnte von der Frage ausgehen, ob sich Nimmt man alle Kassenbons (n = 372), dann er- beispielsweise an verschiedenen Wochentagen oder gibt sich eine leicht linkssteile Verteilung der Ein- auch zu verschiedenen Tageszeiten Unterschiede in zelumsätze (vgl. Abb. 21). Der Begriff ’Summe’ in den Umsätzen ergeben. Diese Aspekte werden im der Grafik und ebenso im Folgenden bezeichnet stets Folgenden zunächst qualitativ, über den grafikgesteu- den Einzelumsatz pro Kunden. erten Vergleich der Verteilung sowie den numerisch gesteuerten Vergleich von Kennzahlen der Vertei- lung, betrachtet. Anschließend folgt mit der Beurtei- lung mit Hilfe des Anpassungstest ein ’hartes’ statis- tisches Verfahren. Abb. 5: Umsätze pro Kunden nach Tageszeiten Bezüglich der Tageszeiten (vgl. Abb. 6) ergibt sich ein ähnliches Bild der Umsatzverteilung pro Kunden, wie es sich bereits in der Verteilung bezüglich aller Abb. 4: Verteilung der Einzelumsätze Kassenbons gezeigt hat. Die Aufteilung in Tageszei- ten bedeutet hier eine Drittelung der Öffnungszeiten Man erkennt die oben bereits gegebene Charakteri- (Morgen: 8-12 Uhr, Mittag: 12-16 Uhr, Abend: 16-20 sierung des Supermarkts: ’Großeinkäufe’ mit einem Uhr). Methodisch betreibt man hier eine Clusterung Umsatz über 50 Euro sind selten (zumindest in der der Daten und damit einen ersten, qualitativen Schritt Stichprobe), das Maximum liegt bei rund 72 Euro. in Richtung der Beurteilung von Abhängigkeiten Der Modalwert liegt bei der gewählten Klassenein- zwischen zwei Merkmalen. Die Verfahren bleiben al- teilung bei 10 Euro, die Hälfte der Kunden tätigt lerdings weiterhin die gleichen, die bei der Analyse Einkäufe zwischen etwa 10 und 20 Euro. eindimensionaler Daten verwendet werden. Unter der Annahme, dass es sich bei der Stichprobe um eine zumindest annähernd repräsentative Stich- probe handelt (siehe oben), erhält man über das arith- metische Mittel (x ≈ 15, 3) eine Schätzung hinsicht- lich des Umsatzes pro Kunden bei einer Standardab- weichung von etwa 11 (Euro). Diese Schätzung wird im weiteren Verlauf der Analyse wichtig. Mit Hilfe der (sinnvollen) Annahme, dass die Mit- telwerte der Verteilung des Umsatzes pro Kunden Abb. 6: Umsätze pro Kunden nach Tageszeiten in Stichproben von je 372 Kassenbons annähernd Ebenso ergibt sich das gleiche Bild, wenn man als normalverteilt sind, ergibt sich nach dem Standard- Clusterung der Gesamtdaten die Wochentage nimmt verfahren zur Berechnung von Konfidenzintervallen (vgl. Abb. 7). Im Histogramm sind hier die Tage (x± √sn , mit x ≈ 15 und s ≈ 11 aus der Stichprobe mit Mittwoch und Donnerstag auf Grund ihres geringen n = 372 Kassenbons) das Intervall Iµ = [14, 2; 16, 4] Vorkommens im Datensatz ausgenommen worden. (Euro) für den tatsächlichen Umsatz (µ) pro Kunden (Konfidenzniveau: α = 0, 95). 4
dem gleichen Umfang, der für verschiedene Mess- zeitpunkte vorhanden ist). Diese simulierten Stich- proben sollten dann wiederum eine der realen Stich- probe ’ähnliche’ Verteilung aufweisen. Durch die Si- mulation wird nun gerade die Erkenntnis der Varia- bilität gefördert. Jede Simulation ergibt eine neue, den anderen zwar ähnliche, im Detail dennoch un- terschiedliche Verteilung (vgl. Abb. 8). Man kann aber trotz der Variabilität der Einzelverteilungen das Muster, die immer ähnliche Form der Verteilungen erkennen. Abb. 7: Umsätze pro Kunden nach Tageszeiten Im Sinne des Aufbaus des statistischen Denkens sind in diesem Schritt der Datenanalyse mehrere Aspekte wichtig. Zunächst ist in nahezu allen realen Datensätzen die Frage nach Abhängigkeiten von Interesse und hier speziell die Frage, ob die Umsätze pro Kunden von der Tageszeit oder dem Tag selber abhängig sind. Diese Frage wird hier mit einem zunächst qualita- tiven Verfahren, der Clusterung der Daten und deren Visualisierung, aufgenommen. Als zweiter wichtiger Aspekt ergibt sich der Ver- gleich von Verteilungen, der als fundamentaler Abb. 8: Simulation von vier Freitagen (bzw. 57 Schritt im Aufbau statistischen Wissens eingeschätzt Umsätzen) wird (Makar und Confrey 2004). Der Vergleich kann hier zunächst über die Betrachtung der Form der Ver- Mit der statistischen Methode des Anpassungstests, teilung, dann aber über die Betrachtung der charak- der – wenn überhaupt – ein Thema am Ende der teristischen Kennzahlen, d.h. der verfügbaren Lage- Schulstochastik ist, kann man die qualitative Unter- und Streuparameter erfolgen (vgl. Tabelle 2). suchung schließlich statistisch absichern. Dazu kann man beispielsweise die Cluster verschiedener Wo- Zeitpunkt x0,5 x SW Q0,5 σ chentage heranziehen und untersuchen, ob Unter- Morgen 13,0 15,7 59,6 13,7 11,2 schiede in den Verteilung hinsichtlich der verschie- Mittag 12,4 14,5 76,9 11,9 10,1 Abend 10,5 16,0 55,1 17,2 17,2 denen Mess-Zeitpunkte innerhalb des Zufälligen lie- Montag 13,1 9,9 42,7 14,1 9,6 gen, d.h. mit dem χ2 -Anpassungstest sich jeweils Dienstag 13,2 11,6 59,6 10,1 9,8 die Hypothese der identischen Verteilung beibehal- Freitag 16,5 14,5 72,0 12,3 12,4 ten lässt (die folgenden Schritte sind nur in Kürze Samstag 17,4 15,0 55,1 13,7 12,0 beschrieben. Sie dienen nicht dazu, das Vorgehen Tabelle 2: Kennzahlen zur Umsatzverteilung: des Anpassungstests zu erlernen, sondern allein das Median, arithmetisches Mittel, Spannweite, Quar- Nachvollziehen in Kenntnis dieses Tests). tilsabstand und Standardabweichung Die Frage, die bei dem χ2 -Anpassungstest (hier in Eine wichtige Erweiterung zum Vergleich der Vertei- der Ausführungsvariante von Fisz 1973) beurteilt lungen ist die Simulation. Dabei wird nebenbei ein werden soll, ist die folgende: Passt die empirisch wichtiger Aspekt des statistischen Denkens berührt, ermittelte Verteilung der Umsätze eines bestimm- nämlich die Erkenntnis der Variabilität statistischer ten Wochentags mit der ebenfalls empirisch ermit- Daten (Pfannkuch und Wild 1999). Nimmt man an, telten Gesamtverteilung der Umsätze überein, oder dass die Umsätze pro Person unabhängig von den sind die Abweichungen der beiden Verteilungen von- Zeitpunkten der Messung sind, so kann man zufälli- einander überzufällig? Dazu werden beispielsweise ge Stichproben aus dem Gesamtdatensatz ziehen (mit hinsichtlich des Freitags die vorhandenen 57 Daten 5
in 5 Klassen mit 10 Daten und ein Randklasse mit tisch nachgewiesen werden. Das ist ein erstaunliches 7 Daten aufgeteilt. Die Häufigkeit dieser Klassen ist Resultat, das möglicherweise wiederum auf die Cha- H f r (ki ) = 10 für i = 1, ..., 5 und H f r(ki ) = 6 für i = 6; rakteristik des Supermarkts, kein Ziel größerer Wo- vgl. Tabelle 2). Als Vergleichsmaßstab gilt die Ver- chenendeinkäufe zu sein, zurückzuführen ist. teilung aller Umsätze. Mit der gleichen Klassierung ergeben sich die absoluten Häufigkeiten Hges (ki ). 4.1.3 Kassen und ihre Umsätze pro Kunde Daraus ergibt sich – ebenfalls mit der gleichen Klas- Die vier Kassen sind wie oben erwähnt nur selten al- sierung – die theoretische Häufigkeit Htheo (ki ) der le geöffnet. Nahezu durchgehend ist die Kasse 1 in Umsätze (wenn man die relative Häufigkeit hinsicht- Betrieb, die anderen werden je nach Bedarf dazuge- lich der Gesamtstichprobe als Wahrscheinlichkeit für schaltet. Auch für die Kassen soll abschließend ein- die Klasse setzt) der 6 Klassen durch: zeln der Umsatz pro Kunde betrachtet werden (vgl. Hges (ki ) Hges (ki ) Abb. 9). Htheo (ki ) = · nfr = · 57 nges 372 Mit diesen Vorgaben lassen sich die einzelnen Sum- manden der χ2 -Testverteilung mit (Htheo (ki ) − H f r (ki ))2 ti = Htheo (ki ) bestimmen, die Summe berechnen und mit Hilfe der χ2 -Verteilung die Anpassungshypothese beurteilen. In diesem Fall ergibt sich als Testgröße 6 t = ∑ ≈ 5, 37 i=1 Der Vergleich mit der χ2 -Verteilung (mit 5 Freiheits- graden) ergibt hinsichtlich des Wertes ihrer Vertei- Abb. 9: Unterschiede zwischen den Kassen 1-4 lungsfunktion: Fχ2 (5, 37) ≈ 0, 627, d.h. die Hypo- r=5 these der identischen Verteilung kann nicht abgelehnt Hinsichtlich der Kassen 1 bis 3 gibt es weder qua- werden. litativ noch quantitativ einen Zweifel, dass die Ver- Klasse (i) H f r(ki ) Hges (ki ) Htheo (ki ) ti teilung der Umsätze pro Kunden an den einzel- 1 10 83 12,7 0,58 nen Kassen identisch ist zur Gesamtverteilung die- 2 10 68 10,4 0,02 ser Umsätze. Hinsichtlich der Kasse 4 könnte man 3 10 70 10,7 0,05 dagegen einen Zweifel hegen, denn hier deutet die 4 10 37 5,67 3,31 visuelle Darstellung im Histogramm auf eine Ver- 5 10 82 12,6 0,52 6 7 32 4,9 0,90 schiebung des Zentrums in Richtung der niedrigen Umsätze hin. Diese Verschiebung des Zentrums bei Summe 57 372 57 5,37 den leicht linkssteilen Verteilungen bezieht sich auf Tabelle 3: Intervalle zum Anpassungstest den Median, da das arithmetische Mittel hier durch Man erkennt an der Tabelle, dass eine große Ab- die wenigen hohen Umsätze stark beeinflusst ist (vgl. weichung der theoretischen Häufigkeit von der in Eichler 2007): der Stichprobe vorhandenen (z.B. in der Klasse 4) Kasse x0,5 x xMod einen großen Summanden hinsichtlich der Testgröße 1 13,23 15,53 10 t ergibt. Insgesamt erkennt man ebenso, dass die 2 11,88 14,19 10 für die reale Verteilung am Freitag durch die Wahl 3 13,62 16,29 10 der Klassengrenzen künstlich erzeugten annähernden 4 11,36 14,55 5 Gleichverteilung ebenso annähernd in der theoreti- Tabelle 4: Lageparameter zur nach Kassen ge- schen Verteilung auftritt. clusterten Verteilung der Umsätze Ebenso wie bei der Verteilung für den Freitag kann Allerdings kann man der Tabelle (4.1.3) entnehmen, auch für die übrigen Wochentage keine Abweichung dass diese Verschiebung hinsichtlich der dargestell- von der Verteilung aller Umsätze pro Kunden statis- ten Kennzahlen auch für die Kasse 2 vorliegt. Auch 6
mit der Hinzunahme von Streuparametern lässt sich Verkäuferinnen beschränkt, von denen mehr als 40 der visuell entstandene Zweifel nicht belegen. Einzig Kassenbons vorhanden sind). der Modalwert, der aber abhängig ist von der gewähl- ten Klassierung, stützt den Verdacht. Ein vertiefte (und quantitative) Untersuchung kann sich wiederum durch einen χ2 -Anpassungstest erge- ben. Legt man wiederum die Gesamt-Verteilung der Umsätze pro Kunden zu Grunde, so gibt es hinsicht- lich der Teil-Verteilung zu den Kassen 1-3 keinerlei Zweifel, dass diese den gleichen Mechanismen wie die Gesamtverteilung unterliegen. Auch für die Kas- se 4 ergibt sich statistisch kein Zweifel (α ≈ 0, 314). Die in der Datenanalyse stets notwendige Verbin- dung der statistischen Untersuchungen mit dem Sachkontext (vgl. Pfannkuch und Wild 1999) kann dennoch eine Erklärung geben, warum möglicher- Abb. 11: Unterschiede zwischen vier Verkäuferinnen weise die niedrigen Umsätze pro Kunde an der Kas- se 4 leicht überrepräsentiert sind. Die Kasse 4 ist Wieder könnte eine qualitative und statistische diejenige Kasse, die kaum über einen längeren Zeit- Beurteilung der Verteilungsunterschiede erfolgen. raum geöffnet ist (vgl. dazu auch Abb. 10). Sie wird Tatsächlich ergibt sich für die Verkäuferin mit der meist im Bedarfsfall kurzfristig zugeschaltet. Wird Codenummer 16 ein signifikant oder überzufälliger eine neue Kasse in dem Supermarkt geöffnet, so zeigt Unterschied zur Gesamtverteilung der Umsätze pro sich (nach Erfahrung), dass insbesondere diejenigen Kunden. Mit einer Notation analog zur Betrachtung mit wenig Waren in der Hand eher den schnellen der Umsätze am Freitag verwendet wurden, ergibt Kassenwechsel vollziehen, als diejenigen mit einem sich: gefüllten Einkaufswagen. Ist die Kasse länger geöff- Klasse (i) HVerk.nr.16 (ki ) Hges (ki ) Htheo (ki ) ti net, so wirkt sich das Verhalten der wenigen ersten 1 10 18 2,9 17,35 ’Kassenwechsler’ nicht aus. Wird dagegen die Kasse 2 10 49 7,9 0,56 sehr schnell wieder geschlossen, so kann dies durch- 3 10 36 5,8 3,03 aus eine Auswirkung auf die Verteilung der Umsätze 4 10 104 16,77 2,74 pro Kunden haben, wie man sie – ohne statistische 5 10 65 10,48 0,022 Untermauerung – hinsichtlich der Kasse 4 vermuten Summe 50 372 50 26,02 kann. Tabelle 5: Vergleich der Umsatzverteilung der Verkäuferin Nr. 16 und aller Umsätze Man erkennt zunächst ohne Betrachtung der Test- größe, dass die künstlich herbeigeführte Gleich- verteilung hinsichtlich der realen Daten zu dieser Verkäuferin in den theoretisch ermittelten Häufigkei- ten kaum zu erkennen ist. Es scheinen in der realen Stichprobe die geringen Umsätze pro Kunde überre- Abb. 10: Unterschiede zwischen den Kassen 1-4 präsentiert, die hohen Umsätze unterrepräsentiert zu sein. Es ergibt sich folglich ein Wert für die Test- 4.1.4 Verkäuferin des Monats? größe t = 26, 02, so dass die Hypothese der identi- schen Verteilung (fast sicher: α < 0, 0001) abgelehnt Für die Filialleitung eines Supermarkts, die nicht werden kann. über eine Stichprobe, sondern über die Gesamtheit der Kassenbons verfügen, wäre es sicherlich von In- Was bedeutet das für diese Verkäuferin? Plakativ teresse, wenn man Unterschiede im Umsatz pro Kun- könnte man feststellen, dass diese Verkäuferin mit de zwischen den VerkäuferInnen feststellen könnte. Sicherheit nicht als ’Verkäuferin des Monats’ hin- Die 14 VerkäuferInnen in dem untersuchten Markt sichtlich des Umsatzes pro Kunden gekürt werden weisen die in Abb. 11 dargestellten Umsätze pro sollte. Bösartig könnte man gar eine Unterschlagung Kunden auf (hier ist die Darstellung auf diejenigen von Umsätzen vermuten (die aber praktisch schwer 7
zu realisieren wäre). Eine (von vielleicht mehreren) hat die Untersuchung des Gesamtumsatzes ausge- Hypothesen für die Ehrenrettung dieser Verkäufe- macht, der sich aus den Umsätzen der vier Kassen rin ergibt sich durch Zusatzinformationen zusam- ergibt. Eine weitere Klasse statistischer Methoden men mit der in Abb. 12 dargestellten Verteilung der kommt bei dieser Analyse der Daten ins Spiel, be- Verkäuferinnen auf die vier Kassen. stehend aus den Verfahren der Regression und Kor- relation. Um einen zumindest kleinen Eindruck der genannten Spannung zu vermitteln, werden im ers- ten Abschnitt die ersten Erkenntnisse in chronologi- scher Reihenfolge dargestellt und erst anschließend eine umfassendere Analyse vorgenommen. 5.1 Die ersten Schritte Nach der Analyse der ersten Kassenbon-Daten (vgl. Abb. 1) war nicht eindeutig geklärt, was die Kodie- rungen im unteren Teil des Bons tatsächlich bedeu- ten. Insbesondere war zunächst die Zuordnung der Abb. 12: Unterschiede zwischen vier Verkäuferinnen ersten vier-ziffrigen Codes zur Nummer des Kun- den (periodisch von 0 bis 9999) sowie die Zuord- Die Verkäuferin mit der Codenummer 16 ist rela- nung der ersten drei-ziffrigen Codes zur Kasse un- tiv neu in dem Supermarkt. Offenbar wird sie nicht, klar. Die sich allmählich herausschälende Hypothese wie ihre erfahrenen Kolleginnen, deutlich überwie- in diesem Sinne führte beschreibend zur Darstellung gend an der Kasse 1 eingesetzt, an der der Großteil der Kundennummern an einer Kasse in Form einer der Kunden bedient wird. Eine mögliche Hypothe- Punktwolke bzw. einer Zeitreihe (vgl. Abb. 13). Die se zur Ehrenrettung ist dann folgende: Die noch jun- Skalierung der Zeitachse beschreibt die Öffnungszeit ge Verkäuferin wird häufig in Überlastsituationen an in Stunden seit dem 6. November 2006 (täglich 12 den Kassen 2-4 eingesetzt (insbesondere an der Kas- Stunden ohne Sonn- und Feiertage). se 4, an der die anderen Verläuferinnen gar nicht ein- gesetzt werden), nach Abarbeiten der Überlast wie- derum anderswo im Supermarkt beschäftigt. Mögli- cherweise wirkt sich diese Einsatz-Strategie auch auf die Umsätze pro Kunde dieser Verkäuferin aus (vgl. auch den vorangegangenen Abschnitt). Evidenz durch die Daten, also eine statistische Unter- mauerung dieser Hypothese, gibt es allerdings durch die bisherigen Analysen nicht. Auch der Vergleich der Umsätze pro Kunde der Verkäuferin mit den Ver- teilungen der einzelnen Kassen ergibt jeweils die Ab- Abb. 13: Zeitreihe der Kundennummern an Kasse 1 lehnung der Hypothese, dass beide jeweils betrach- teten Verteilungen auf identischen Zufallsmechanis- Aus einer solchen Darstellung wurden folgende Hy- men beruhen (vgl. Tab. 6). pothesen gewonnen: Kasse t α 1. Der erste vier-ziffrige Code beschreibt die 1 24 0,0002 Kundennummer, fortlaufend und sich peri- 2 49,6 0 odisch wiederholend von 1 bis 9999 (ohne die- 3 24,3 0,0002 se Hypothese wäre der linke Punkt in der Wol- 4 14,6 0,0123 ke kaum zu erklären gewesen) Tabelle 6: Werte der Testgröße t beim Vergleich Verkäuferin Nr. 16 und der Umsätze der vier Kas- 2. Die Kundennummer kann gut durch eine li- sen neare Funktion (in Abhängigkeit von der Öff- nungszeit) beschrieben werden. 5 Dem Gesamt-Umsatz auf der Spur Mit der zweiten Hypothese geht die Möglichkeit Einen wesentlichen Anteil daran, die Spannung bei einer Prognose einher, zu welchem Zeitpunkt der der Sammlung der Kassenbons aufrecht zu erhalten, 10000. Kunde durch die Kasse 1 geht, wann also der 8
Umsprung von 9999 auf 1 erfolgt. Diese Prognose die Periodizität der Regression. Die eingepasste Ge- ist einerseits ebenfalls eine Hypothese, andererseits rade hat die Gleichung (mit gerundeten Achsenab- aber auch ein Kriterium für die bisher aufgestell- schnitten) ten Hypothesen gewesen. Die Schätzung des ’Um- 54 · Stunden + 7400 für x < 48, 15 sprungs’ sowie die Einpassung der Regressionsgera- g(Skala) := 54 · Stunden − 2600 für x < 233, 34 den (hier noch schlicht nach Augenmaß) sowie die 54 · Stunden − 12600 sonst Begrenzung der Kundennummer (Nummer < 10000, Die weiteren Schritte der Datenanalyse nach diesem Nummer ∈ N) sind in der folgenden Abbildung (Abb. Heureka-Effekt sind im Folgenden dargestellt. 14) aufgenommen. 5.2 Der Umsatz der einzelnen Kassen Für die mathematisch gesteuerte Regression so- wie die Beurteilung der linearen Abhängigkeit der Kunden-Nummern von der Öffnungszeit kann man zunächst die ’Umsprünge’ vermeiden und die Num- mern so transformieren, dass sie monoton wachsen (vgl. Abb. 16). Abb. 14: Zeitreihe der Kundennummern an Kasse 1 Ergebnis dieser ersten Prognose: nach (ungefähr) 234 Stunden (nach dem 6.11.2006, 8 Uhr), d.h. (un- gefähr) nach 19 Tagen und 6 Stunden Öffnungs- zeit, erfolgt der ’Umsprung’. Bezogen auf den Start- punkt bezieht sich die Prognose des ’Umsprungs’ auf Dienstag, den 28. November 2006, gegen 14 Uhr. Ab Abb. 16: Zeitreihe der Kundennummern an Kasse 1 diesem Zeitpunkt sollten dann, so die erweiterte Hy- pothese, die Punkte der Zeitreihe durch eine Gerade Nach der Methode der kleinsten Quadrate für die Re- mit identischer Steigung gegenüber der vorangegan- gression ist die Gerade mit der Gleichung genen Periode beschreibbar sein. g(x) = 53, 97 + 7370 Abbildung 15 zeigt Entwicklung der Zeitreihe nach optimal. Der Korrelationskoeffizient für diese Ge- der Sammlung der nächsten Kassenbons bis kurze rade ist 1, d.h. die Güte der linearen Abhängigkeit Zeit nach dem erwarteten ’Umsprung’. ist optimal. An den Datenpunkten selbst kann man in diesem Fall erkennen, dass der Wert des Korre- lationskoeffizienten von 1 nicht bedeutet, dass alle Punkte auf einer Geraden liegen, die Abweichungen sind allerdings gering (vgl. Abb 17). Abb. 15: Zeitreihe der Kundennummern an Kasse 1 Tatsächlich hat – von links kommend – der zu- Abb. 17: Ausschnitt aus der Zeitreihe der Kunden- letzt gesammelte Kassenbon der sehr nahe an dem nummern an Kasse 1 prognostizierten Termin liegt (Dienstag, 28.11.2006, 13.45 Uhr), die Nummer 9946. Ebenso erkennt man In diesem Fall ist die Residuenbestimmung in Rich- zumindest den prognostizierten ’Umsprung’ sowie tung der Zeitachse aussagekräftiger als die übliche 9
Bestimmung in vertikaler Richtung, also in Richtung radenanpassungen bzw. Durchlaufkoeffizienten (vgl. der Achse der transformierten Kunden-Nummern. So auch Abb. 19): gibt die Bestimmung der horizontalen Abweichun- gen an, wie weit zeitlich die Abweichungen der rea- len von den idealen Kundennummern sind. Für das markierte Datum (vgl. Abb 17) gilt etwa, dass diese Kundennummer gegenüber der idealen Kundennum- mer (eingepasste Gerade) um rund dreieinhalb Stun- den zu spät durch die Kasse gegangen ist. Betrach- tet man alle Daten in dieser Weise, so ergibt sich im Mittel eine zeitliche Abweichung von rund 4 Stunden und 40 Minuten (vgl. auch Abb. 18 zu allen Residuen in diesem Sinne). Abb. 18: Zeitliche Abweichungen der Kundennum- mern an Kasse 1 von der eingepassten Re- Abb. 19: Zeitreihe der Kundennummern an den Kas- gressionsgeraden sen 2, 3 und 4 Wie ist nun die Gerade zu interpretieren? Aus der Man erkennt an den Werten in der Tabelle ?? deutlich Geradengleichung gewinnt man die Aussage, dass die übergreifende Strategie, die Kassen in der Rei- pro Stunde rund 54 Kunden bedient werden. Auch an henfolge ihrer Nummerierung zur Hauptkasse, der dieser Stelle wäre es sinnvoll, solch einen Durchlauf- Kasse 1, hinzuzuschalten. Koeffizienten vorab schätzen zu lassen. So ist der 5.3 Der Umsatz des Supermarkts mittlere Durchlauf – trotz Kartenzahler, voller Ein- kaufswagen, mühsam die Cent suchende Kunden, Sind sowohl der Umsatz pro Kunde als auch der fehlender Auswägungen von Frischgemüse und den, Kundendurchsatz ekannt, so kann man natürlich un- an Kasse 1 allerdings seltenen, Leerlaufzeiten – recht mittelbar die Höhe der Kasseneinnahmen des Su- hoch. Es ist möglicherweise ein Durchlauf, in dem permarkts in bestimmten Zeitabschnitten berechnen. sich wiederum die Struktur des Supermarkts zeigt, in Während hier der Kundendurchsatz sehr genau be- der die großen Wocheneinkäufe eher selten sind (sie- stimmt werden kann, ist für den Umsatz pro Kunde he oben). Aus dem Durchlauf pro Stunden ergibt sich ein Intervall gegeben, das bei angemessener Güte der weiterhin, dass im Mittel etwa alle 185 Stunden bzw. Daten mit hoher Wahrscheinlichkeit den realen mitt- alle 15 Tage und 4 Stunden 10 000 Kunden die Kasse leren Umsatz pro Kunde enthält. 1 des Supermarkts passieren. Es ergibt sich z.B. pro Tag im Mittel der Durchsatz Kasse Gerade (h für ’Stun- Durchlauf pro h, von 12 · (53, 97 + 46 + 25, 9 + 14, 4) ≈ 1683 Kunden. den’) entspricht Legt man weiterhin das mit dem Standardverfahren 10000 Kunden in bestimmte Konfidenzintervall zum mittleren Umsatz 2 g1 (x) = 46 · h − 3100 46,0 pro Kunde, so erhält man Umsatz pro Tag in Euro das r=1 18 d 1 h Intervall [23900; 27600] (gerundet). Insgesamt ergibt 3 g1 (x) = 25, 9·h+4100 25,9 sich r=1 32 d 2 h 4 g1 (x) = 14, 4·h+4200 14,4 Einnahmen in Euro r=1 57 d 10 h Zeitspanne untere Grenze obere Grenze Tabelle 7: Kunden-Durchläufe Tag 23900 27600 Woche 167300 193200 Für die anderen Kassen, die bei Bedarf der Kasse Monat (26 Tage) 621500 717700 1 zugeschaltet werden, ergeben sich nach dem glei- Jahr (2007) 7242300 8364400 chen Analysemuster die in Tabelle 7 angeführten Ge- Tabelle 8: Einnahmen des Supermarkts 10
5.4 Kalkulation eines Supermarktes der Erhöhung der Mehrwertsteuer. Das Produkt kos- Aus dem Kassenumsatz die Kalkulation des Super- tet damit nach der Erhöhung 119 116 ≈ 1, 0259 mal so markts zu rekonstruieren, ist ein komplexes Problem viel wie vorher oder: Die Erhöhung der Mehrwert- und würde den Artikel sprengen. Es sollen nur kur- steuer hat das Produkt um rund 2,6 Prozent verteuert. ze Hinweise gegeben werden, die projektartig weiter Die Rechnung gilt aber natürlich nur für Produkte, verfolgt werden könnten, aber weit über die hier er- die der Mehrwertssteuer von ehemals 16 und nun folgte Datenanalyse hinausgehen. 19 Prozent unterliegen. Ein Blick auf den Kassenbon Ein Supermarkt hat das verständliche Ziel, Gewinn (vgl. Abb. 1 zeigt, dass das nicht für alle im Super- zu machen. Von den Einnahmen an der Kasse abzu- markt verkauften Waren gilt, sondern dass viele der rechnende Kosten entstehen durch Waren nur mit 7 Prozent (dem ermäßigten Mehrwert- steuersatz). Das Bundesfinanzministerium sagt dazu: • die monatliche Miete; solche Informationen Der ermäßigte Steuersatz wird insbesondere auf die ” kann man aus dem Netz beziehen. Lieferung, die Einfuhr und den innergemeinschaftli- chen Erwerb von fast allen Lebensmitteln – ausge- • Nebenkosten, die schwer abzuschätzen sind nommen Getränke ... – angewandt.“ 2 Das bedeutet (extensives Heizen im Winter, Kühlung von also, dass die Lebensmittel (fast) alle nur mit 7 Pro- Waren etc.). zent besteuert werden. Dieser Steuersatz ist entgegen • Kosten entstehen für das Personal. Das mo- dem ’normalen’ Mehrwertsteuersatz, der im Super- natliche Gehalt einer Verkäuferin bzw. ei- markt für Getränke (nicht Milchprodukte) gilt, zum nes Verkäufers ist (im Mittel) auch im Netz Jahreswechsel nicht gestiegen. Zeitschriften unter- verfügbar3 . Zuzurechnen wären die vom Ar- liegen dem ermäßigten Steuersatz, Waren von Ziga- beitgeber zur Hälfte zu bezahlenden Sozial- retten, Pflegemitteln, Reinigungsmitteln bis hin zum abgaben. Zudem müsste man eine Schätzung Klopapier dagegen dem ’normalen’. machen, wie viele Angestellte ein Supermarkt Die Erhöhung fast aller Waren, die nicht zu den Nah- abgesehen von denjenigen an den Kassen rungsmitteln gehören, hat sich folgendermaßen aus- beschäftigt. gewirkt: • die an den Staat gehende Mehrwertsteuer (vgl. Arithmetisches Mittel (Umsatzes pro Person) auch den folgenden Abschnitt). vor und nach der Erhöhung 15,18e 15,42e • natürlich durch den Einkauf der Waren. Kann man nach Abzug der an den Staat gehenden Damit haben sich die Waren (bezogen auf die Stich- Mehrwertsteuer die Miet-, Neben- und Perso- 15,42 probe) in dem Supermarkt um den Faktor 15,18 ≈ nalkosten bestimmen, so hat man die Möglich- 1, 016 oder um 1,6 Prozent erhöht. Für eine nähere keit, den Aufschlag des Supermarkts zu be- Analyse kann man noch die Betrachtungen aus Ka- stimmen, ab dem ein Gewinn (ohne Beachtung pitel 2 nutzen. Legt man die dort vorhandene Ver- der Steuer) entsteht. teilung der Warengruppen zugrunde, so unterliegen etwa 15,3 Prozent der erhöhten Mehrwertsteuer und 6 Ein letzter Aspekt - die die verbliebenen rund 85 Prozent nicht. Legt man diese Verteilung des sicherlich nicht allzu großen Da- Mehrwertsteuer tensatzes zugrunde, dann sollten sich 15,3 Prozent Als letzter Aspekt der Datenanalyse soll noch ein des mittleren Umsatzes um rund 2,6 Prozent erhöht Blick auf die Erhöhung der Mehrwertsteuer gewor- haben. Es wäre also demnach im Jahr 2007 ein fol- fen werden, die zum Jahresbeginn von 16 auf 19 gender mittlerer Umsatz zu erwarten gewesen: Prozent angehoben wurde. Was bedeutet das eigent- Arithmetisches Mittel (Umsatzes pro Person) lich für die Preise, falls die Erhöhung unmittelbar vor und nach der Erhöhung an die Kunden weitergegeben wird? Ein einfaches 15,18e 15, 18 · (1 + 0, 153 · 0, 026) ≈ 15, 24e Modell könnte so aussehen: Vor der Erhöhung kos- tet ein Produkt netto, d.h. ohne Aufschlag der Mehr- Zu erwarten wäre also durch die erhöhte Mehr- wertsteuer, 100 Geldeinheiten (als Normierung ir- wertsteuer nur eine Erhöhung von rund 0,4 Prozent gendeines konkreten Euro-Betrags). Damit kostete (0, 153 · 0, 026 ≈ 0, 004) gewesen, statt der offenba- das Produkt 100 + 0, 16 · 100 = 116 Geldeinheiten ren Verteuerung der Waren im Jahr 2007 von rund vor und 100 + 0, 19 · 100 = 119 Geldeinheiten nach 1,6 Prozent. Mit anderen Worten: Der Supermarkt ist 11
teurer geworden, als es die Erhöhung der Mehrwert- • Erkennen der Notwendigkeit von Daten steuer hergibt. • Flexible Aufbereitung von Daten Wie ist das zu erklären? Es gibt zwei Hypothesen, • Erkennen der Variabilität von Daten die zwar nicht belegbar, aber dennoch plausibel sind. Die erste ist simpel: Es hat zum Jahreswechsel eine • Erkennen und Beschreiben von Mustern in den allgemeine Preiserhöhung der Waren gegeben. Auch Daten die zweite Hypothese ist möglich: Die Preise im Su- permarkt enden zumeist auf 9 Cent, es hat also et- • Verbindung mit dem Sachkontext. wa ein Getränk vor der Erhöhung 1,19 Euro gekos- Im Sinne dieser Teilaspekte des statistischen Den- tet. Würde die Mehrwertsteuer unmittelbar und in der kens soll die Datenanalyse zu den Kassenbons noch richtigen Höhe an die Kunden weitergegeben wer- einmal rückblickend in Kürze betrachtet werden. den, so müsste das Getränk 1, 19 · 1, 026 ≈ 1, 22 Eu- ro kosten. Das gibt es aber im Supermarkt nicht. So Erkennen der Notwendigkeit von Daten: Für wird man eventuell in einigen Fällen bei 1,19 Eu- einen Statistiker ist die Formulierung dieser Stu- ro geblieben sein, im der größeren Zahl der (Wa- fe wahrscheinlich banal, für Schüler zunächst ein- ren)Fälle den Preis auf 1,29 Euro erhöht haben. Auch mal nicht. Hier ist die Erfahrung aufzubauen, dass dadurch kann sich die zu große Erhöhung des mittle- über das Vergößern von Datensätzen Beurteilungen ren Umsatzes erklären. von Situationen erst einmal über ’Stammtischmei- nungen’ bzw. naive Schätzungen hinauskommen. 7 Didaktische Anmerkungen In dem vorgestellten Projekt wird die Notwendigkeit In der Analyse von Daten, die auf dem Boden liegen, einer vergößerten Datenbasis in mehreren Phasen steckt einiges didaktisches Potenzial. Zunächst ist deutlich. Zunächst braucht man mehr Daten (Kas- die Analyse der Daten in unterschiedlichen Anforde- senbons), um die Kodierungen des Kassenzettels zu rungsstufen in verschiedenen Klassenstufen möglich, verstehen. Glaubt man zu verstehen (hypothetisch), prinzipiell vom Ende der Primarstufe bis in die so braucht man mehr Daten, um seine Hypothesen Sekundarstufe II. Die Spannweite liegt inhaltlich zu bestätigen (etwas die Kodierung der Kundennum- von einfachen Häufigkeitsbestimmmungen bis hin mer). Will man weitere Untersuchungen machen (et- zu Verfahren der beurteilenden Statistik wie Anpas- wa zum Umsatz pro Kunde aufgeteilt nach Verkäufe- sungstest. Innerhalb einzelner Untersuchungsschrit- rInnen), so braucht man unter Umständen noch mehr te kann die Schwierigkeit variiert werden. So sind Daten und kann dabei die Grenzen der Ausagefähig- an manchen Stellen wie etwa dem Vergleich von keit eines begrenzten Datensatzes erkennen. Umsätzen pro Kunde an bestimmten Tagen mit dem allgemeinen Umsatz pro Kunde verschiedene Metho- Flexible Aufbereitung: Die flexible Datenaufbe- den einsetzbar, für die Sekundarstufe I eine qualita- reitung durchzieht die explorative Datenanalyse der tive Untersuchung von Verteilungen durch Betrach- Kassenzettel. So werden die Daten nach unterschied- tung von Mittelwerten und Streuung, für die Sekun- lichen Gesichtspunkten grafisch dargestellt und ana- darstufe evtl. mit dem Einsatz von inferenzstatisti- lysiert, etwa als Gesamtdatensatz oder geclustert schen Verfahren. nach Aspekten wie Einzelkassen, Einzeltagen oder Einzelverkäuferinnen. Ein Unterrichtsprojekt zu Kassenbons enthält weiter- hin alle Stufen, die eine komplette statistische Un- Die eingesetzten Methoden können breit gestreut ” werden. So kann die Analyse eher qualitative Unter- tersuchung“ (Biehler, Hartung 2006, 53) aufweist: Problemstellung – Planung der Erhebung – Daten- suchungen verschiedener Diagramme (Boxplots oder ” Säulendiagramme), oder eher quantitativ-statistische erhebung – Auswertung – Interpretation – Schluss- folgerung und Ergebnisbericht“ (ebd.). Es ist zudem Verfahren wie etwa den Anpassungstest umfassen. über die Betrachtung der Kalkulation eines Super- Die flexible Datenaufbereitung hat dabei zum Ziel, in markts noch erheblich erweiterbar. möglichst vielfältiger Weise Muster in den Daten zu erkennen und beispielgebunden Möglichkeiten und Versteht man die Datenanalyse als Kompetenz, die Grenzen einzelner statistischer Methoden zu erfah- Schüler in ihrer Schulzeit erwerben sollen, so kann ren. man die Aufteilung des statistischen Denkens, die Wild und Pfannkuch (1999) formuliert haben, als Erkennen der Variabilität von Daten: Dieser Auflistung von Teilkompetenzen verstehen: Aspekt wird in der Analyse der Kassenbons eher un- 12
terschwellig behandelt. Dennoch ergibt sich etwa bei Frühjahr ein bisschen billiger werden zu können. der Analyse der nach Wochentagen oder Verkäufe- Und satte Preiserhöhungen unter dem Strich.... rinnen geclusterten Umsätze pro Person stets die Fra- Die Stochastik-Kurse am Heinrich-Mann-Gymnasi- ge, ob die Unterschiede in den Verteilungen auf eben um in Köln gingen erneut auf Zetteljagd. . . und das der Variabilität der Daten beruhen oder ob systema- Stöbern in dem alten Zettelhaufen begann von vor- tische Unterschiede bestehen. Einen etwas explizite- ne. Man musste auf den alten (zum Glück noch nicht ren Zugang zum Erkennen der Variabilität kann da- entsorgten) und den neuen Kassenzetteln gleiche Wa- gegen die in Kapitel 4.1.2 (vgl. S.5) simulierte Ver- ren finden. Die ersten Ergebnisse zeigen: Brechboh- teilung von Umsätzen pro Person an vier virtuellen nen wurden teurer (+), Toilettenpapier billiger (-). Freitagen leisten. Was sich hinter ’Wacholderbauch’ (-) verbirgt, blieb zunächst ungeklärt. Erkennen und Beschreiben von Mustern in den Daten: Die Suche nach Mustern in den Daten ist Ware März 2001 – Diff. Vorz. ein Kernstück der Datenanalyse. Hier geht es ei- März 2002 nerseits um die qualitative Beschreibung von Mus- 1e= 1,95583DM tern, etwa der Verteilung von Umsätzen pro Kun- Backofen 1,32DM (0,67e) 0,19e + Pommes – 0,86e de. Die statistische Analyse mit Hilfe des Anpas- Bandnudeln 1,29DM (0,66e) -0,01e - sungstest hilft bei der Beurteilung, ob ein Muster (in – 0,65e den Umsätzen pro Kunde) mit den in den Daten ste- Coca Cola 2l 2,79DM (1,43 e) -0,16e - ckenden empirischen Phänomenen wie etwa der Um- – 1,27e satzverteilung pro Kunde an bestimmten Tagen über- Fischstäbchen 2,49DM (1,27 e) 0,12e + einstimmt. Schließlich lässt sich der Durchlauf von – 1,39e Kunden an den Kassen in fast idealer Form mit Hilfe Brechbohnen 1,39DM (0,71e) 0,08e + eines Musters, einer Regressionsgeraden, beschrei- – 0,79e ben und die Güte des Musters mit Hilfe des Korre- Gouda 4,17DM (2,13e) 0,14e + – 2,27e lationskoeffizienten beurteilen. Klarspüler 1,99DM (1,02e) 0,15e + – 1,17e Verbindung mit dem Sachkontext: Die Verbin- Toiletten- 4,98DM -0,06e - dung der Datenanalyse mit dem Sachkontext ist bei papier (2,55e)– 2,49e realen Daten fast von selbst gegeben. An verschie- Wachholder- 1,99DM (1,02e) -0,03e - denen Stellen wird aber gerade bei der Analyse bauch – 0,99e der Kassenbons der Sachkontext Ausgangspunkt von Waffeleier 1,29DM (0,66e) 0,03e + Erklärungsversuchen, wenn die statistische Analyse – 0,69e keine Erklärungsansätze mehr bieten kann. Eines von Tabelle 9: kleine Stichprobe vom Umfang 10 mehreren Beispielen sind die Hypothesen zur statis- Und mit dieser Stichprobe war man beim einfachs- tischen Auffälligkeit des Umsatzes pro Kunden einer ten Verfahren der beurteilenden Statistik, beim Vor- bestimmten Verkäuferin. zeichentest, ’gelandet’. Und zu unserer Verblüffung - und allen Unkenrufen zum Trotz mussten wir fest- 8 Euro-Debatte und die Exponential- stellen, dass tatsächlich von den 360 verglichenen Preisen, 213 (das sind 59 Prozent) gesenkt worden verteilung, ein ’historischer’ Nachtrag. waren. Als der zweitgenannte Autor im April 2001 mit sei- nen Schülern erstmals auf Kassenzettel-Jagd ging, Genauere Untersuchungen zerrten dann den tiefe- dachte noch niemand an den Euro. ren Grund für diese vielen Preissenkungen ans Ta- geslicht: Nicht eine barmherzige Kundenfreundlich- Im April 2002 war er schon 4 Monate als der keit, sondern die sublime Psychologie der ’Schwel- berüchtigte ’Teuro’ unter uns. Und zu allem Ärger lenpreise’: Wenn früher ein Produkt 1,99DM ge- hingen da seit Wochen diese Plakate ’im ALDI’, kostet hätte, müsste es nun wegen des Umrech- die weismachen wollen, dass bei den Lebensmit- nungskurses 1,01e kosten. Wenn man daraus 0,99e teldiscountern alles billiger geworden ist, erinnern macht, hat ALDI 2 Cent ’verschenkt’, kann aber wie- Sie sich? Wieder so eine geschickte Werbemasche? der einen psychologisch günstigen Schwellenpreis Hat man doch oft gehört. Und überall gelesen. Kurz anbieten. Diese Vielzahl minimaler Preissenkun- vor der Euroumstellung Preise ´rauf, um dann im gen wurden durch massivere Preiserhöhungen bei 13
einzelnen Produkten ausgeglichen. Unsere ’ALDI- Kassenzettelforschung’ ergab insgesamt eine (recht moderate) Preiserhöhung von ca 2 Prozent während Anmerkungen eines Jahres. Wer mochte, konnte darauf guten Ge- 1 Die Supermärkte haben verschiedene Vorgehensweisen bei wissens reimen: ’Willst du keinen Teuro haben, den Angaben auf ihren Kassenbons. Welche Kodierungen von einzelnen Märkten aufgeführt werden, kann daher nicht allge- musst du dich bei ALDI laben’. mein angegeben werden. Die De-Codierung ist damit immer wieder eine neue Aufgabe. 2 Vgl. http://www.bundesfinanzministerium.de/cln 04/nn 3506/ DE/Service/Lexikon A Z/U/001.html 3 Vgl http://www.boeckler.de/cps/rde/xchg/SID-3D0AB75D- FEC5218E/hbs/hs.xsl/550.html. Literatur Biehler, R., Hartung, R. (2006). Die Leitidee Daten und Zufall. In Blum, W. Drüke-Noe, C., Hartungs, R., Köller, O. (Hrsg.), Bildungsstandards Mathematik: konkret. Berlin: Cornelsen- Scriptor, S. 51-80. Eichler, A. (2007) Geld weg – Arzt weg!“— Was ist dran am ” Ärzteprotest?. Praxis der Mathematik 49(13), S.20-26. Fisz, M. (1973) Wahrscheinlichkeitsrechnung und mathemati- sche Statistik. Berlin: VEB. Abb. 20: Alte und neue Preise im Vergleich Herget, W. (1994) Artikelnummern und Zebrastreifen, Balken- code und Pruefziffern - Mathematik und Informatik im All- Eine weitere überraschende Entdeckung machten tag. In Blum, W., Henn, W., Klika, M., Maass, J. (Hrsg.), Paul, David und Wladi, die inzwischen alle Ma- Materialien fuer einen realitaetsbezogenen Mathematikunter- the und Informatik studieren: Die Rechnungsbeträge richt. Bd. 1. Hildesheim: Franzbecker. 1994. S.69-84. Makar, K. und Confrey, J. (2004). Secondary teachers’ statisti- sind nicht, wie man vielleicht erwarten würde, nor- cal reasoning in comparing two groups. In Ben-Zvi, D., und malverteilt: Unabhängig von der Supermarktkette Garfield, J. B. (Hrsg.), The challenge of developing statisti- erwiesen sie sich als exponentialverteilt. Das gilt cal literacy, reasoning, and thinking (S. 353-373). Dordrecht: für Aldi, für Lidl, für Plus und selbst für Kaiser’s. Kluwer. Pfannkuch, M., Wild, C. (1999). Statistical Thinking in Empiri- Das ’verrückte’ ist, dass man genau diese Verteilung cal Enquiry. In: International Statistical Review 67(3) 1999, erhält, wenn man im Rahmen einer Modellrechnung S.223-248. ’virtuelle Kunden’ beim Einkauf durch den Laden Riemer, W. (2003). Stochastik. Stuttgart: Klett-Verlag, S.154. schlendern lässt, die jede Ware, an der sie vorbei- Riemer, W. (2006). Lambacher-Schweizer 6 NRW. Stuttgart: Klett-Verlag, S.164. kommen, rein zufällig und unabhängig von dem, was Tversky, A. und Kahnemann, D. (1973). Availability: A heuristic schon im Korb ist mit einer festen Wahrscheinlich- for judging frequency and probability. Cognitive Psachology keit hinzupacken. 5, 207-232. Anschrift der Verfasser Andreas Eichler Institut für Didaktik der Mathematik Westfälische Wilhelms-Universität Münster Fliednerstraße 21 48149 Münster a.eichler@uni-muenster.de Wolfgang Riemer Studienseminar für Lehrämter an Schulen Claudusstraße 1 50678 Köln Abb. 21: Exponentialverteilung der Rechnungsbe- träge (Säulen) mit virtuellen Kunden (Kur- ve) 14
Sie können auch lesen