Nicht proprietäre und lizenzkostenfreie Alternativen zu SPSS

Die Seite wird erstellt Stella Dittrich
 
WEITER LESEN
Nicht proprietäre und lizenzkostenfreie Alternativen zu SPSS
Nicht­proprietäre und lizenzkostenfreie Alternativen zu SPSS
von Martin Kotulla M.A. (Universität Münster / BRD) – 01.06.2008

Aufgrund seines enormen Funktionsumfangs und seines ausgezeichneten Bedienkomforts zählt SPSS zu den
populärsten Statistikprogrammen, die derzeit in Forschung, Lehre und Wirtschaftspraxis zum Einsatz kommen.
Doch wer mit diesem kommerziellen Markenprodukt arbeiten will, muß sich auf horrende Lizenzgebühren, über­
zogene Hardwareanforderungen und eine komplizierte Produktaktivierung gefaßt machen; selbst die preiswerten
Campus­ und Studentenlizenzen, die ja ohnehin nur für Hochschulangehörige angeboten werden, weisen einige
inakzeptable Nachteile auf. Je nach Anlaß und Umfang der statistischen Untersuchung könnte es im Einzelfall
sinnvoller sein, sich nach quelloffenen oder lizenzkostenfreien Alternativen umzusehen. Immerhin gibt es welt­
weit mehrere Dutzend Projektteams, die an der Entwicklung „freier“ Statistikprogramme arbeiten. Die besten
davon – darunter Instat+, Gretl und der R_Commander – werden nachfolgend vorgestellt. Besondere Features
werden dabei ebenso thematisiert wie technische Merkmale und Systemanforderungen. Zusätzliche Screen­
shots geben einen ersten Eindruck von den Benutzeroberflächen. Abschließend werden diverse Hilfsprogramme
präsentiert, die dazu geeignet sind, den statistischen Arbeitsprozeß zu unterstützen.

Gründe für die Popularität von SPSS

SPSS®(Statistical Package for the Social Sciences) wurde 1968 an der Stanford University
entwickelt und gilt mithin als eines der mächtigsten und umfassensten Softwarepakete zur
statistischen Datenanalyse. Anders als sein vollständiger Name suggeriert, kommt es nicht
nur in der empirischen Sozialforschung zum Einsatz, sondern auch in zahlreichen anderen
Wissenschaftsdisziplinen sowie in der Privatwirtschaft, z.B. in der Betriebswirtschaftslehre,
in der Medizin bzw. Epidemiologie, in Markt­ und Konsumforschungsinstituten oder in der
industriellen Qualitätssicherung.

SPSS basiert auf der Programmiersprache Java und ist modular aufgebaut: Grundbaustein
der Produktfamilie ist das sog. Base Module, das umfangreiche Optionen für ein Datei­ und
Datenmanagement sowie alle elementaren Prozeduren für Graphik und Statistik enthält,
darunter: Deskriptive Statistik, Kreuztabellen, Mehrfachantworten, Faktoren­, Cluster­ und
Diskriminanzanalysen, ANOVA­Modelle, nicht­parametrische Tests, lineare Regressionen.
In Version 15.0 wurde zudem ein neues Graphiksystem implementiert. Einen umfassenden
Überblick über den Funktionsumfang vermittelt die mehr als 1000 Seiten starke Einführung
von Felix Brosius. Das Basismodul, das seit September 2007 in der Version 16.0 vorliegt
und neuerdings auch für Linux­Betriebssysteme erhältlich ist, kann mit diversen Addons für
spezielle Anwendungszwecke (z.B. Zeitreihenanalysen) funktionell aufgerüstet werden.

Das Standard­Repertoire an statistischen Funktionen ist in der Tat beeindruckend und läßt
auch für Fortgeschrittene kaum Wünsche offen. Das Benutzerinterface ist intuitiv gestaltet
und selbst für Neulinge leicht zu handhaben; vor allem die Variablendefinition ist äußerst
komfortabel. Die Ergebnisse werden übersichtlich in präsentationsfähigen Pivot­Tabellen
dargestellt, die bei Bedarf nachträglich bearbeitet werden können. Außerdem beherrscht
SPSS alle gängigen Graphiktypen sowie 3D­Plots. Lobend hervorzuheben sind weiterhin
die instruktiven Tutorials und die gut plazierten Hilfetexte. Insgesamt ist es also kaum ver­
wunderlich, daß SPSS sich vielerorts als Standardsoftware etabliert hat.

                                                      1
Nicht proprietäre und lizenzkostenfreie Alternativen zu SPSS
Nachteile der SPSS­Lizenzmodelle
Die Firma SPSS Inc. verlangt für ihr gleichnamiges Statistikprogramm horrende Lizenzge­
bühren: Allein das oben erwähnte Basismodul kostet bereits 1.720 €. Zusatzmodule für die
Nutzung von Spezialfunktionen sowie Upgrades zur nächsthöheren Produktversion kosten
nochmals jeweils mehrere Hundert Euro. Große Unternehmen zahlen die saftigen Lizenz­
gebühren zwar locker aus der „Portokasse“; doch für kleinere Firmen oder Einzelpersonen,
vor allem für Studierende, dürfte der Erwerb einer Vollversion eher unerschwinglich sein.

Um Studierende und Hochschulbedienstete trotzdem an das eigene Markenprodukt heran­
zuführen, offeriert der Hersteller sog. Campuslizenzen. Dadurch ergeben sich grundsätz­
lich drei Möglichkeiten, kostengünstig oder lizenzkostenfrei mit SPSS zu arbeiten.

1.) Die erste Möglichkeit besteht darin, SPSS in den Computerräumen der Hochschule zu
nutzen, was jedoch mit gewissen Unannehmlichkeiten verbunden ist; hierzu zählen z.B. die
eingeschränkten Öffnungszeiten sowie die beschränkte Anzahl an PC­Arbeitsplätzen. Zu­
dem ist das Studieren in solch einer unruhigen und beengten Arbeitsumgebung nicht un­
bedingt jedermanns Sache. (Empirische Studien zur Universitätskultur belegen übrigens,
daß gerade Studierende der Geistes­ und Sozialwissenschaften lieber daheim arbeiten als
in den Räumlichkeiten der Hochschule.)

2.) Die zweite Möglichkeit besteht darin, vom heimischen PC aus eine sog. Netzwerklizenz
zu nutzen. D.h.: zu Beginn einer jeden Sitzung wird von einem Lizenzserver ein Lizenzkey
abgerufen. Hierfür muß jedoch eine VPN­getunnelte Internetverbindung zum Universitäts­
netzwerk aufgebaut und permanent aufrechterhalten werden. Die VPN­Verbindung (Virtual
Private Network) muß zuvor auf dem eigenen PC vorbereitet werden, was Laien oft über­
fordert. Davon abgesehen stellt das Arbeiten über eine laufende Online­Verbindung grund­
sätzlich immer ein Sicherheitsrisiko dar, vor allem wenn mit sensiblen oder personalisierten
Daten hantiert wird. Die Netzwerklizenz funktioniert übrigens nur bei Windows­Systemen
(und nur ab Version 14); Linux­User hingegen kommen hier leider nicht zum Zuge.

3.) Die dritte Möglichkeit besteht darin, für 50,00 € eine Einzelplatz­ bzw. Jahreslizenz über
das Rechenzentrum zu erwerben, um SPSS auf dem heimischen PC installieren und off­
line nutzen zu können. Seit Version 13.0 ist hierfür aber eine hardwareabhängige Produkt­
aktivierung erforderlich; und die ist noch umständlicher als bei WindowsXP! Schwerer
noch wiegt die Tatsache, daß die Einzelplatzlizenz beim Rechenzentrum bestellt werden
muß (kann dauern) und – unabhängig vom Zeitpunkt ihres Erwerbs – immer nur bis zum
Ende des jeweiligen Kalenderjahres läuft. Wer also die Lizenz erst später erwirbt, kann die
Software nicht volle zwölf Monate lang nutzen, da sich der SPSS­Prozessor nach Ablauf
der Lizenzperiode automatisch von selbst deaktiviert.

Darüber hinaus käme noch der Kauf einer Studenten­Version in Frage (für 78,00 € gegen
Vorlage eines Immatrikulationsnachweises). Diese ist aber nur auf Englisch erhältlich und
zudem funktionell eingeschränkt: So ist die Zahl der Variablen auf 50 und die der Fälle auf
1.500 begrenzt; außerdem sind einige statistische Proceduren nicht implementiert (z.B. die
Analyse von Mehrfachantworten). Wer mit diesen Einschränkungen leben kann, fährt mit
der Studenten­Version allemal besser als mit der o.g. Einzelplatzlizenz. Allerdings ist auch
hierfür eine Produktaktivierung über Telefon oder Internet erforderlich.

                                              2
Nicht proprietäre und lizenzkostenfreie Alternativen zu SPSS
Jede der o.g. Varianten setzt naheliegenderweise eine Immatrikulation voraus. D.h.: Nach
einer Exmatrikulation scheiden die o.g. Nutzungsmöglichkeiten grundsätzlich aus. Das gilt
streng genommen auch für die Studenten­Version: Einmal auf dem eigenen PC installiert,
kann sie nach Abschluß des Studiums zwar vorerst noch weiter verwendet werden; aber
spätestens bei einer Neuinstallation (d.h. bei der nächsten Produktaktivierung) könnte ein
neuer Immatrikulationsnachweis fällig werden.

Ärgerlich sind auch die sehr hohen Hardware­Anforderungen. Abgesehen davon, daß ein
Arbeitsspeicher mit mindestens 1024 MB empfohlen wird, sprengt SPSS insbesondere in
puncto Festplattenbelegung alle Rekorde: Auf Windows­ und Linux­Systemen beansprucht
der Programmbetrieb bis zu 450 MB; und auf einem Mac muß man sogar stolze 800 MB
reservieren. Kaum ein anderes Anwendungsprogramm ist so ressourcenhungrig. Bei allem
Komfort, den SPSS ja unbestreitbar zu bieten hat, ist eine derartige Mammut­Installation
eigentlich kaum noch zumutbar, zumal sich die Software tief im Betriebssystem festkrallt.
Eine rückstandsfreie Entfernung ist dann nur noch unter Einsatz des Windows­CleanUp­
Utilities msicuu.exe möglich (liegt auf der Windows­Setup­CD im Verzeichnis \support\tools
– genauer: in der komprimierten Archivdatei support.cab).

Wer nun gelegentlich eine kleinere statistische Untersuchung durchführen will – sei es zu
wissenschaftlichen oder zu gewerblichen Zwecken – und hierfür weder eine Vollversion er­
werben will noch eine Studenten­Version kaufen noch an einer Campus­ bzw. Netzwerk­
lizenz partizipieren kann, sollte einen näheren Blick auf die vorhandenen Freeware­ und
Open­Source­Alternativen werfen. Die besten werden nachfolgend präsentiert.

Freeware vs. OpenSource
Im Gegensatz zu Freeware ist OpenSource nicht einfach nur kostenfrei, sondern zeichnet
sich dadurch aus, daß der Programm­Quellcode „offen“, d.h. allgemein zugänglich ist und
beliebig genutzt, verändert und weitergegeben werden darf, was im Einzelnen durch ent­
sprechende Lizenzen geregelt ist, z.B. durch die Gnu General Public License (GPL). Zwar
lassen die Lizenzbestimmungen grundsätzlich auch die Möglichkeit zu, einen vorhandenen
Quellcode zu verändern und die so generierte Software anschließend kommerziell zu ver­
markten, dies ist aber nur unter der Maßgabe legal, daß der „Source Code“ weiterhin frei
zugänglich bleibt. Pointiert formuliert: OpenSource ist öffentliches Eigentum.

Der Begriff Freeware hingegen umfaßt solche Software­Produkte, deren Quellcode gerade
nicht offen ist (ClosedSource), sondern lizenz­ und eigentumsrechtlich unter Verschluß ge­
halten wird (proprietäre Software), aber unter bestimmten Bedingungen (z.B. für die nicht­
kommerzielle Einzelplatznutzung) lizenzkostenfrei aus dem Internet heruntergeladen und
genutzt – nicht aber manipuliert oder weiterverkauft – werden darf. Nicht selten sind Free­
ware­Produkte registrierungspflichtig; d.h. den Freischaltode erhält der User erst, nachdem
er bei der jeweiligen Softwarefirma seinen Namen, seine eMail­Adresse und/oder andere
Daten hinterlassen hat. Was danach mit diesen Daten passiert, ist nicht immer eindeutig
nachvollziehbar. Zuweilen werden diese für firmeneigene Marketingzwecke genutzt und im
schlimmsten Fall an kommerzielle Datensammler weitergegeben. Bei Freeware­Produkten
sind die Lizenz­ und Geschäftsbedingungen also besonders gründlich durchzulesen!

                                            3
Nicht proprietäre und lizenzkostenfreie Alternativen zu SPSS
Unzutreffend wäre nun die Behauptung, daß quelloffene Programme ausschließlich in der
Linux­Welt angesiedelt seien. Richtig ist zwar, daß Linux maßgeblich auf dem OpenSource­
Prinzip basiert und daß dieses Prinzip unter „unixoiden“ Betriebssystemen viel weiter ver­
breitet ist; jedoch zeigt das Beispiel der populären Büro­Suite OpenOffice, daß quelloffene
Programme auch unter Windows technisch möglich und – sehr zum Ärger von Microsoft –
tatsächlich auf dem Vormarsch sind.

Alle unten genannten Statistikprogramme sind lizenzkostenfrei und ohne Aktivierungs­ oder
Registrierungszwang im Internet erhältlich und ohne funktionelle oder zeitliche Limitationen
lauffähig. Zwar sind sie in puncto Daten­ und Dateimanagement sowie hinsichtlich ihres
statistischen Funktionsumfangs oder Bedienkomforts kommerziellen Markenprodukten wie
SPSS (fast) durchweg unterlegen; doch dafür bringen sie in anderer Hinsicht viele neue
originelle Ideen und innovative Features mit; vor allem in puncto Datenvisualisierung haben
sie gegenüber ihren gewerblichen Konkurrenzprodukten oftmals die Nase vorn.

Gnu_R
Unbestrittener Platzhirsch unter den quelloffenen Statistikprogrammen ist Gnu_R (oder ein­
fach nur R), das auf allen Betriebssystemen läuft (Windows, Linux, MacOS) und seit April
2008 in Version 2.7.0 verfügbar ist. Das R­Projekt startete im Jahr 1992 und ist inzwischen
in allen Fachdisziplinen, in denen angewandte Statistik zum Einsatz kommt, fest etabliert –
vor allem in den Naturwissenschaften. Insofern Gnu_R beliebig mit Zusatzmodulen auf­
gerüstet werden kann, bietet es ein nahezu unerschöpfliches Repertoire an statistischen
und graphischen Funktionen. Diese Module (vergleichbar mit den Firefox­Erweiterungen)
heißen bei Gnu_R Packages und sind auf einer eigenen Web­Site aufgelistet. Nach ihrer
Installation tauchen sie in einem eigenen Programmunterordner namens library wieder auf.

Befremdlich dürfte für SPSS­User zunächst die Tatsache sein, daß Gnu_R von Haus aus
ein reines Konsolenprogramm ist, also ohne graphische Benutzeroberfläche daherkommt.
Das heißt konkret: Alle statistischen und graphischen Funktionen müssen – wie in alten
DOS­Zeiten – mit der Tastatur bzw. vermittels einer kryptischen Befehlssyntax aufgerufen
werden, was auch für das Anlegen und Bearbeiten von Datendateien gilt. Um das Arbeiten
mit Gnu_R dennoch etwas komfortabler zu machen, wurden zwischenzeitlich verschiedene
Graphical User Interfaces (GUIs) entwickelt, die als Packages bzw. Libraries nachinstalliert
werden können. Die meisten davon sind auf einer eigenen Web­Site des R­Projekts aufge­
listet (zu jenen GUIs, die dort nicht genannt werden, gehören u.a. RKward und Driza­Qt
sowie das unten beschriebene Statistiklabor).

R_Commander
Der R_Commander zählt zweifellos zu den besten graphischen Frontends, die das R­Pro­
jekt derzeit zu bieten hat. Er basiert auf der Scriptsprache Tcl/Tk und ist seit April 2008 in
der Version 1.3­14 erhältlich. Obwohl er auf den ersten Blick etwas spartanisch wirkt, bietet
er gleichwohl alle wichtigen Funktionen für Statistik und Graphik, darunter Faktoren­ und
Clusteranalysen, nichtparametrische Tests, Hypothesentests, Mittelwertvergleiche, diskrete
und stetige Verteilungen. Zeitreihenanalysen sind ebenfalls möglich, sofern man zuvor die
Zusatzpakete tseries und RcmdrPlugin.emacs implementiert hat.

                                              4
Nicht proprietäre und lizenzkostenfreie Alternativen zu SPSS
Anders als bei SPSS öffnet sich das Interface nicht mit einem Dateneditor, sondern gliedert
sich in eine obere Befehlskonsole, in der alle Programmbefehle dokumentiert werden, und
ein darunter liegendes Ausgabefenster, in dem die Ergebnisse der einzelnen Proceduren
angezeigt werden. Daneben enthält es Menüleisten für das Daten­ und Dateimanagement,
wozu auch der Import von SPSS­ und Stata­Dateien gehört. Ein rudimentärer Dateneditor
zum Anlegen und Bearbeiten von Datendateien ist auch schon an Bord. Wer den Funktions­
umfang des Programms zunächst spielerisch erkunden will, kann auf die mitgelieferten Bei­
spieldateien zurückgreifen.

Bei der tabellarischen Ergebnispräsentation macht der RCommander allerdings keine gute
Figur: Übersichtliche und präsentationsfähige Pivot­Tabellen, wie man sie von SPSS kennt,
werden leider nicht angeboten. Die Stärken liegen statt dessen im Bereich Visualisierung:
Der RCommander beherrscht nämlich nicht nur alle gängigen Graphiktypen (z.B. Balken­,
Kuchen­ und Streudiagramme, Boxplots, Histogramme), sondern bietet auch die Möglich­
keit, interaktive 3D­Plots zu generieren, die sich stereoskopisch betrachten und mit der
Maus drehen und skalieren lassen. Wer einmal in den Genuß dieser atemberaubenden
3D­Graphiken gekommen ist, fragt sich, warum die Firma SPSS Inc. nicht schon längst Ver­
gleichbares in ihrem sündhaft teuren Markenprodukt implementiert hat. Die 3D­Plots lassen
sich allerdings nicht nachbearbeiten; und beim Speichern werden sie unwiederbringlich –
quasi als Screenshots – im png­Dateiformat „eingefroren“.

                                            5
Nicht proprietäre und lizenzkostenfreie Alternativen zu SPSS
Die Installation des R_Commanders ist durchaus lohnenswert, aber leider nicht ganz ein­
fach. Wer mit diesem komfortablen GUI arbeiten möchte, muß zunächst das Programm R­
base installieren und danach das Paket Rcmdr sowie einige obligatorische Zusatzpakete
nachinstallieren. Windows­User laden hierfür die erforderlichen zip­Dateien aus dem Inter­
net herunter und integrieren diese dann – mit Admin­Rechten – über das Rgui in das Pro­
gramm. Linux­User hingegen laden statt der zip­Dateien die gleichnamigen tar.gz­Dateien
herunter und installieren diese – mit root­Rechten – über folgendes Konsolenkommando:
R CMD INSTALL ­1 /Pfad/zum/Verzeichnis/Paketname.tar.gz. Danach ist im home­Verzeichnis
eine neue, unsichtbare Textdatei namens .Rprofile anzulegen (erst der Punkt vor dem Datei­
namen macht die Datei unsichtbar). Darin sind alle Packages, die beim Start von Gnu_R
ebenfalls geladen werden sollen, untereinander – jeweils in einer eigenen Zeile – aufzu­
listen; die Syntax hierfür lautet: library(paketname); im konkreten Fall also: library(Rcmdr).
Weitere Details sind dem englischsprachigen Handbuch zu entnehmen.

Statistiklabor
Auch das Statistiklabor ist ein graphisches Frontend (GUI), das auf der R­Engine aufsetzt.
Es wurde an der FU Berlin entwickelt und wird vom Bundesministerium für Bildung und
Forschung gefördert. Nach Aussagen seiner Entwickler handelt es sich dabei um einen
„explorativen und interaktiven Werkzeugkasten zur Unterstützung der statistischen Aus­
bildung“. Das Statistiklabor soll also eher in der (universitären) Lehre eingesetzt werden als
in der Forschung; die primären Zielgruppen sind folglich Dozenten und Studierende. Im
Jahr 2003 war das Projekt sogar Gewinner des hochschuldidaktischen Medida­Preises.

                                              6
Nicht proprietäre und lizenzkostenfreie Alternativen zu SPSS
Statistiklabor erlaubt das Bearbeiten einfacher bis komplexer statistischer Szenarien: von
der Deskriptiven Statistik über die Simulation theoretischer Probleme bis zur Einführung in
Programmiersprache R. Das Interface öffnet sich zunächst mit einer leeren Arbeitsfläche,
auf der die einzelnen Elemente des statistischen Arbeitsprozesses (Datenmatrix, Tabellen
und Graphiken) abgelegt, bearbeitet und miteinander verknüpft werden können. Obwohl
sich das Programm explizit mit einem didaktischen Anspruch verbindet, ist die Benutzer­
oberfläche nicht gerade sehr intutitiv gestaltet; anders als bei anderen Programmen kommt
man ohne einen gelegentlichen Blick in die Hilfedateien nur selten zum Ziel.

In puncto Visualisierung zeigt sich ein gemischtes Bild: Einfache Graphiktypen wie etwa
Kuchen­ und Balkendiagramme lassen sich zwar gut nachbearbeiten (Hintergrundfarbe,
Achsenbeschriftung etc.); doch auf anspruchsvolle stereoskopische 3D­Plots, wie man sie
vom R_Commander kennt, muß man hier leider verzichten. Ebenfalls verzichten muß man
auf ein ausführliches Handbuch. Hinweise zur Benutzung findet man allenfalls in den pro­
grammeigenen Hilfetexten; eine eigenständige Dokumentation hingegen existiert lediglich
in Form eines kostenpflichtigen Lehrbuches, welches auf der Projekt­Homepage beworben
wird (mit den Verkaufserlösen soll vermutlich die Drittmittelquote des universitären Projekts
aufgebessert werden).

Seit Anfang 2008 ist Statistiklabor in der Version 3.7 erhältlich – allerdings nur für Windows
2000/XP (eine Linux­Variante selber zu erstellen, ist zwar prinzipiell möglich, erfordert aber
einige Programmierkenntnisse). Der Source­Code wird seit der Version 3.5 unter der GPL­
Lizenz zur Verfügung gestellt. Wer das Statistiklabor nutzen möchte, muß zuvor unbedingt
eine modifizierte Programmversion von Gnu_R auf dem PC installieren, nämlich Version
2.0.1 vom 31.10.2005 (andere Versionen werden nicht unterstützt). Alle Komponenten, die
für die vollständige Installation benötigt werden, stehen auf der Downloadseite des Projekts
bereit. Anders als bei anderen GUIs für Gnu_R erfolgt die Installation des Statistiklabors
nicht etwa über das Nachladen einzelner Packages, sondern über eine eigene Setup­Datei.
Laut Projektteam sollten hierfür auf der Festplatte mindestens 100 MB reserviert werden.

Instat+
Instat+ ist ein Software­Paket für Allgemeine und Angewandte Statistik und wurde Mitte der
1980er Jahre an der University of Reading (England) entwickelt. Zunächst als reine DOS­
Anwendung konzipiert, wurde sie im Jahr 1999 endgültig in die heute bekannte Windows­
Variante überführt und liegt inzwischen in Version 3.36 vor. Instat+ ist also ein windows­
basierter Abkömmling des früheren DOS­Programms Instat.

Obwohl Instat+ prinzipiell in allen Disziplinen eingesetzt werden kann, die sich statistischer
Datenanalysen bedienen, hat es sich vor allem im Gesundheitsbereich, im agrarwissen­
schaftlichen Sektor und in der Klimatologie etabliert und wird mithin zur Wettervorhersage
eingesetzt. Deshalb enthält das Interface auch eine eigene Menüleiste, die speziell für die
Berechnung meteorologischer Daten reserviert ist (über die Programmeinstellungen kann
sie bei Bedarf ausgeblendet werden).

Während die Programmnutzung für Behörden und Unternehmen lizenzkostenpflichtig ist,
blieb die private, nicht­kommerzielle Einzelplatznutzung bis heute „free­of­charge“. Instat+

                                              7
Nicht proprietäre und lizenzkostenfreie Alternativen zu SPSS
ist z.Zt. nur auf Englisch und leider nur für Windows­Betriebssysteme erhältlich. In seinem
Aussehen und in seiner Bedienung ist es SPSS durchaus ähnlich, beansprucht dabei aber
nur ein Zehntel des Installationsvolumens (nämlich knapp 45 MB).

Per default öffnet sich das graphische Interface beim Programmstart horizontal zweigeteilt:
das untere Fenster beinhaltet einen komfortablen Dateneditor; das obere einen Viewer für
die Darstellung bzw. Eingabe der Programmbefehle sowie für die Ausgabe der Ergebnisse;
Größe und Position der beiden Fenster können den individuellen Bedürfnissen angepaßt
werden. Eine große Sammlung an Beispieldateien ist übrigens auch schon an Bord (leider
nur aus der Agroklimatologie). Instat+ erlaubt über 40 verschiedene Statistik­Proceduren,
darunter auch Zeitreihenanalysen, und beherrscht alle gängigen Graphiktypen (Boxplots,
Histogramme etc.). Der Ergebnisoutput, der nach jeder statistischen Berechnung im Aus­
gabefenster erscheint, ist sehr übersichtlich und kann – falls überhaupt Bedarf besteht –
ohne größeren Aufwand in eine präsentationsfähige Tabellenform gebracht werden.

Eine Stärke von Instat+ liegt zweifellos in den vielfaltigen Möglichkeiten, die ohnehin schon
respektablen Graphiken durch diverse Einstellungen und Themes nachträglich noch weiter
zu optimieren. Die verfügbaren Variationsmöglichkeiten stehen denen anderer Programme
in nichts nach. Echte stereoskopische 3D­Plots hingegen, also solche, die räumlich dreh­
und skalierbar wären, hat Instat+ leider nicht zu bieten.

                                             8
Nicht proprietäre und lizenzkostenfreie Alternativen zu SPSS
Lobend hervorzuheben sind schließlich die sehr ausführlichen Hilfedateien und Tutorials,
die im Gegensatz zu denen anderer Statistik­Programmen mit zahlreichen Screenshots ge­
spickt sind, so daß man innerhalb der Benutzeroberfläche nie die Orientierung verliert (da
für Instat+ keine deutsche Lokalisierung vorliegt, kann das im Einzelfall durchaus praktisch
sein). Die englischsprachige Dokumentation ist aber auch für wenig Sprachbegabte und für
Fachfremde verständlich geschrieben. Instat+ ist für Neulinge also bestens geeignet.

Gretl
Auch Gretl gehört zu jenen Statistikprogrammen, die auf der Suche nach Alternativen zu
SPSS in die engere Wahl gezogen werden sollten. Die Gnu Regression, Econometrics and
Time­Series Library – so der vollständige Name – wurde ursprünglich für die Berechnung
wirtschaftswissenschaftlicher bzw. volkswirtschaftlicher Daten konzipiert, ist aber durchaus
auch für andere Fachdisziplinen geeignet, zumal alle elementaren statistischen Funktionen
bereits implementiert sind.

Gretl ist ausgesprochen ressourcenschonend und kann sowohl über ein graphisches Inter­
face als auch über eine bordeigene Konsole bedient werden. Als originäres Ökonometrie­
Programm bringt es eine Fülle von wirtschaftswissenschaftlichen Beispieldateien mit und
erlaubt u.a. den Import von Gnumeric­, Excel­ und Stata­Files sowie das Anlegen eigener
Datendateien über einen integrierten Dateneditor. Letzterer ist aber noch verbesserungs­
bedürftig: So ist z.B. das Löschen von Zeilen/Fällen aus der Datenmatrix nicht möglich,
weshalb die Datendateien ersatzweise über Gnumeric oder MS­Excel bearbeitet werden
sollten. Davon abgesehen bietet Gretl ein komfortables Daten­ und Dateimanagement und
punktet vor allem bei der Stichprobenbildung.

Eine weitere Stärke liegt in der Ergebnispräsentation: Die Tabellen, die Gretl ausgibt, sind
eigentlich schon sehr übersichtlich und müssen im Normalfall nicht nachbearbeitet werden.
Im Einzelfall kann es jedoch erforderlich sein, den Output mit Hilfe eines externen Textver­
arbeitungsprogramms umzuformatieren; oft genügen hierfür schon wenige Mausklicks. Die
Graphiken indes erzeugt Gretl nicht mit bordeigenen Werkzeugen, sondern mit Hilfe eines
externen Datenplotters namens Gnuplot, der inzwischen in der Version 4.2.3 vorliegt und
zahllose Möglichkeiten zur Datenvisualisierung offeriert. Eigentlich ist Gnuplot ja ein reines
Konsolenprogramm, aber dank Gretls GUI kann man seine Funktionsvielfalt auch ohne
Kenntnis der sperrigen Befehlssyntax ausschöpfen. Die mit Gnuplot generierten Graphiken
können nachträglich weiter bearbeitet und dann in diversen Dateiformaten (png, pdf, eps,
emf) abgespeichert werden.

Gretl ist ein GTK­basiertes OpenSource­Produkt unter GPL­Lizenz und liegt inzwischen in
Version 1.7.3 vor. Das vorwiegend in C geschriebene Programm ist in sieben Sprachen er­
hältlich (u.a. auch auf deutsch) und wird grundsätzlich für alle Betriebssysteme angeboten.
Linux­User müssen allerdings ein paar kleine Einschränkungen hinnehmen: So muß etwa
Gnuplot auf Linux­Systemen immer separat installiert und dann über Datei/Einstellungen in
Gretl eingebunden werden. Im Windows­Binary hingegen ist Gnuplot bereits enthalten. Zu­
dem ist auf KDE­Desktops das direkte Ausdrucken von Tabellen und Graphiken ohne vor­
herige Zwischenspeicherung nicht möglich. Und 3D­Plots können weder nachbearbeitet

                                              9
Nicht proprietäre und lizenzkostenfreie Alternativen zu SPSS
noch gespeichert werden. Wer besonderen Wert auf Zeitreihenanalysen legt, muß hierfür
die Zusatzprogramme X­12­Arima und Tramo/Seats von der Gretl­Homepage downloaden
und nach deren Installation unter Einstellungen die Pfade zu den beiden Executables an­
geben. Die Dokumentation für Gretl ist derzeit nur in englischer Sprache erhältlich.

Weitere Statistikprogramme: OpenStat und StatistX
R_Commander, Instat+ und Gretl zählen zweifellos zu den besten Statistikprogrammen, die
derzeit unter dem Rubrum Freeware bzw. OpenSource erhältlich sind. Nichtsdestotrotz gibt
es aber noch viele andere „freie“ Programme, die ebenfalls Beachtung verdienen und
unter Entwicklern durchaus ein gewisses Renommeé genießen. Zwar kommen diese An­
wendungen hinsichtlich ihres Funktionsumfangs und ihres Bedienkomforts nicht immer an
die Qualitätsstandards der o.g. Projekte heran (geschweige denn an die kommerzieller Pro­
dukte), und sie sind auch nicht unbedingt für den alltäglichen Einsatz geeignet (schon gar
nicht für größe empirische Untersuchungen); gleichwohl aber handelt es sich bei ihnen um
respektable Leistungen, die einen tieferen Einblick in die Arbeitsweise der OpenSource­
Szene vermitteln. Hierzu zählen u.a. OpenStat und StatistX, die nachfolgend beschrieben
werden.

                                           10
OpenStat, entwickelt von Bill Miller an der Iowa States University, ist ein General Purpose
Package, das sich vorrangig an Studierende der Sozialwissenschaften richtet. Während
der gewerbliche Einsatz strikt ausgeschlossen wird, ist die persönliche Einzelplatznutzung
lizenzkostenfrei. Geschrieben in C++/Pascal, kommt OpenStat mit einem graphischen
Interface daher und hat einen Dateneditor an Bord, der sich beim Programmstart sofort
öffnet. Der Im­ und Export von Datendateien ist möglich; zudem werden ein paar Beispiel­
dateien mitgeliefert. Die ausgegebenen Tabellen und Graphiken lassen sich zwar sofort
drucken, sind aber allenfalls von mittelmäßiger Qualität. Während die Tabellen immerhin
noch im Ausgabefenster formatiert werden können, ist eine direkte Nachbearbeitung der
Graphiken nicht möglich. Wer jedoch auf publikationsfähige Ergebnispräsentationen ver­
zichten kann und sich statt dessen auf die reine Datenanalyse konzentrieren möchte, findet
bei OpenStat bis zu Hundert statistische Proceduren, darunter nicht­parametrische Tests
und ökonometrische Berechnungsverfahren. Die Windows­Version, die kurioserweise für
einige Monate auch unter dem Namen Stats4U firmierte, beansprucht auf der Festplatte
ca. 15 MB. Die Linux­Version heißt LinOStats; sie ist funktionell leicht eingeschränkt und
mißt in entpackter Form ca. 11 MB. Entgegen der üblichen Konvention enthalten die Setup­
Dateien leider keine Versionsnummern, sondern heißen schlichtweg OpenStatSetup.exe
bzw. LINOSTATS.TGZ. Vorsicht übrigens beim Verlassen des Programms, denn entgegen
aller Konvention wird beim Schließen nicht noch mal gefragt, ob die Resultate gespeichert
werden sollen.

                                            11
Statist ist ein originäres Linux­Projekt unter GPL­Lizenz. Es wurde im Jahr 1997 von Dirk
Melcher aus der Taufe gehoben und wird seit 2005 von Jakson Aquino fortgeführt. Von
Haus aus ist Statist zwar ein reines Konsolenprogramm, doch anders als bei anderen
terminal­basierten Anwendungen erfolgt die Programmsteuerung nicht über eine kryptische
Befehlssyntax, sondern vermittels einer interaktiven, wizard­ähnlichen Menüstruktur, die
den User behutsam durch alle Arbeitsschritte führt und die Tipparbeit auf ein Minimum
reduziert. Das Hauptmenü gliedert sich in die Unterpunkte Datenverwaltung, Regression/
Korrelation, Tests, Datenmanipulation, Präferenzen und Verschiedenes, wobei der zuletzt
genannte Menüpunkt elementare Proceduren wie Häufigkeitsauszählungen und Mittelwerte
umfaßt. Wer mehr Bedienkomfort wünscht, kann auf das GUI StatistX zurückgreifen, das
von Andreas Beyer (Universität Osnabrück) konzipiert wurde, aber seit der Version 0.4.0
(Januar 2006) nicht mehr weiterentwickelt wird. Immerhin wurde das GTK­basierte GUI,
das den Funktionsumfang von Statist in eine gefällige graphische Form bringt, im Januar
2002 mit dem Intevation Award for Free Software ausgezeichnet. Genau wie Statist selber
ist auch StatistX bei der Visualisierung auf Gnuplot angewiesen. Die so generierten Plots
sind im EPS­Format speicherbar. Das Anlegen eigener Datendateien mit Bordmitteln ist
allerdings nicht möglich.

                                           12
Statistische Hilfsprogramme
Gnumeric ist ein anschauliches Beispiel für den fließenden Übergang zwischen Tabellen­
kalkulation und Statistikanwendung. Einerseits ist es hervorragend zur Erstellung und Be­
arbeitung von Datendateien geeignet und kann daher gut mit einem „echten“ Statistikpro­
gramm kombiniert werden, das seinerseits nur einen rudimentären Dateneditor mitbringt;
andererseits beherrscht es selber schon einige datenanalytische Basisfunktionen (Grund­
auswertung, Korrelations­, Varianz­ und Regressionsanalysen). Nach eigenen Aussagen
verfolgt das Entwicklerteam das ehrgeizige Ziel, das „bestmögliche“ Spreadsheet hervor­
zubringen, und weist voller Stolz darauf hin, daß sein GPL­lizensiertes OpenSource­Pro­
dukt nicht nur den kompletten Funktionsumfang von MS­Excel aufweist, sondern diesen
um 154 weitere Features übertrifft und zudem noch präziser arbeitet als viele kommerzielle
Konkurrenzprodukte. Gnumeric positioniert sich also eher als Tabellenkalkulation denn als
Statistikanwendung. Vergleichen mit echten Statistikprogrammen fällt der datenanalytische
und graphische Funktionsumfang von Gnumeric in der Tat eher bescheiden aus; und das
Label „Advanced Statistical Analysis“, das sich auf der Homepage als Beschreibungsmerk­
mal findet, wirkt vor diesem Hintergrund etwas übertrieben. Insgesamt bietet sich Gnumeric
folglich eher als Hilfsprogramm zur Bearbeitung von Datendateien an. Als eigenständiges
Statistikprogramm ist es weniger geeignet. Seinen Ursprung hat Gnumeric übrigens in der
Gnome Desktop Umgebung, stammt also eigentlich aus der Linux­Welt und ist derzeit in
Version 1.8.2 verfügbar. Mittlerweile liegt aber auch eine Windows­Variante in der Version
1.6.3 vor. Gnumeric basiert auf GTK+ und hat sich als ressourcenschonende Alternative zu
MS­Excel etabliert.

                                           13
Wer lediglich eine kleinere Umfrage durchführen will, greife auf das Fragebogenprogramm
GrafStat zurück, das am Fachbereich Erziehungswissenschaften der Universität Münster,
namentlich von Uwe Diener, entwickelt wurde und alle Phasen einer Befragung unterstützt
– von der Fragebogenerstellung über die Datenerfassung und eine statistische Grundaus­
wertung bis hin zur Ergebnispräsentation. Ein typisches Einsatzgebiet wäre z.B. eine Um­
frage zum Mediennutzungsverhalten von Jugendlichen; für genuin naturwissenschaftliche
Forschungszwecke hingegen ist das Programm eher ungeeignet. Seine Stärken spielt Graf­
Stat zweifellos bei der Fragebogenerstellung aus; imposant ist hier vor allem die wahlweise
Konvertierung der Fragebogenmaske in eine Printversion oder in ein HTML­Format (leider
nur kompatibel mit Microsofts InternetExplorer). Bei Online­Befragungen können die rück­
laufenden Daten entweder auf einem Server oder per eMail gesammelt und danach in die
sog. Urliste (Datenmatrix) eingegeben werden. Sobald es aber an die Datenanalyse geht,
offenbart GrafStat deutliche Schwächen, denn außer einer simplen Häufigkeitsauszählung
und einer Mittelwertberechnung sind keine weiteren statistischen Funktionen implementiert.
Ein etwas größerer Funktionsumfang wäre hier durchaus wünschenswert. Dafür punktet
GrafStat bei der Erstellung und Nachbearbeitung von Kuchen­ und Balkendiagrammen so­
wie bei der Konvertierung der Befragungsergebnisse in ein präsentationsfähiges HTML­
Format. Interaktive 3D­Plots werden leider nicht angeboten. Seit März 2008 ist GrafStat in
der Version 3.48 verfügbar, wenngleich nur für Windows 2000/XP. Öffentliche Bildungs­
einrichtungen (städtische Schulen, staatliche Universitäten etc.) dürfen GrafStat kostenfrei
nutzen, aber ohne Zustimmung des Autors nicht modifizieren. Das Projekt wird von der
Bundeszentrale für politische Bildung finanziell gefördert.

                                            14
Auch SciDavis, LabPlot und QtiPlot können als Hilfsanwendungen gute Dienste leisten.
Bei ihnen handelt es sich strenggenommen nicht um Statistikprogramme, sondern um sog.
Daten­ und Funktionsplotter, die darauf spezialisiert sind, mathematische Funktionen oder
datenanalytische Berechnungen zu visualisieren. Genau wie Gnuplot kommen sie immer da
zu Einsatz, wo keine bordeigenen Tools zur Graphikerzeugung zur Verfügung stehen oder
wo die Graphiken nur von minderer Qualität sind. Rein äußerlich unterscheiden sie sich
zunächst nicht sonderlich von herkömmlichen Statistikprogrammen; denn auch sie haben
Spreadsheets für die Dateneingabe im Gepäck und beherrschen zudem einige wenige
statistische Grundfunktionen. Ihre eigentliche Stärke liegt jedoch in der Generierung und
Nachbearbeitung diverser Graphiktypen; und in eben dieser Hinsicht übertreffen sie sogar
solche hochwertigen Statistikanwendungen wie Instat+ oder den R_Commander sowie die
einschlägigen kommerziellen Markenprodukte. SciDavis, LabPlot und QtiPlot punkten vor
allem bei der Erstellung interaktiver OpenGL­basierter 3D­Plots, die sich nachträglich mit
zahlreichen Einstellungen (Farbthemes, Achsenbeschriftung, Legende etc.) professionell
nachbearbeiten und speichern lassen. Doch damit nicht genug: Die 3D­Plots werden beim
Speichern nicht etwa in ein statisches Graphik­Format (z.B. in eine png­Datei) konvertiert
und damit unwiederbringlich „eingefroren“ (Screenshot­Effekt), sondern sie werden als Pro­
jekte abgespeichert und stehen nach einem erneuten Öffnen wieder als dreidimensionale
und bewegliche Plots zur Verfügung. QtiPlot (Version: 0.9.5) und dessen „Fork­off“­Projekt
SciDavis (Version: 0.1.2) sind für alle Betriebssysteme erhältlich; LabPlot (Version: 1.6.0)
hingegen nur für Linux­/KDE­Desktops und für MacOS/X. Um den Funktionsumfang dieser
Anwendungen vollständig ausschöpfen zu können, müssen zuvor einige zusätzliche Pro­
grammpakete – sog. Bibliotheken – auf dem PC installiert werden; u.a. müssen Qt4, Qwt,
QwtPlot3D, GSL und QSA vorhanden sein. Alle drei Plotter stehen unter GPL­Lizenz.

                                            15
NumericalChameleon wiederum ist weder ein Statistikprogramm noch ein Plotter, sondern
ein Einheitenumrechner. Als Hilfsprogramm könnte es immer dann von Nutzen sein, wenn
der Statistiker mit ausländischen oder wenig vertrauten Währungen oder Maßeinheiten in
Berührung kommt (miles/hour, gallons, pints, Fahrenheit, Rubel etc.). Und das Chameleon
ist wirklich sehr leistungsstark: Es konvertiert 3.200 Einheiten in 82 Kategorien, darunter
Längen­, Raum­ und Flächenmaße, Geschwindigkeiten, Windstärken, Viskosität, Radio­
aktivität, Temperaturen und Zeitzonen. Es beherrscht 33 Zahlensysteme (natürlich auch
römische Zahlen) und kennt alle internationalen Telefonvorwahlen und alle wichtigen aus­
ländischen Feiertage. Es kann für jedes beliebige Datum den entsprechenden Wochentag
ermitteln, hält das phonetische Alphabet parat und enthält eine Tabelle mit Konfektions­,
Hut­ und Ringgrößen. Auch Wechselkurse sind im Repertoire; sie lassen sich sogar online
aktualisieren. Für StarTrek­Fans gibt es zudem klingonisch gesprochene Zahlen und Warp­
Geschwindigkeiten. Sein Programmautor, der Dipl.­Inf. (FH) Nepomuk Loefflmann, weist
auf die hohe Genauigkeit der Umrechnungen hin (bis zu 1.000 Nachkommastellen!). Alle
Umrechnungsergebnisse können an eine Zwischenablage übergeben und abgespeichert
werden. Ein Datenaustausch mit gängigen Office­Paketen ist möglich. Das GPL­lizensierte
Programm, das in entpackter Form ca. 5 MB groß ist, basiert auf Java und müßte überall
dort laufen, wo OpenOffice installiert ist. Es ist für alle Betriebssysteme erhältlich.

                                            16
Weiterführende Internet­Links
Nicht­proprietäre und lizenzkostenfreie Anwendungssoftware zur Datenanalyse und Daten­
visualisierung gibt es im Internet zuhauf. Weltweit existieren z.Zt. mehrere Dutzend Projekt­
teams, die sich mit der Entwicklung „freier“ Statistikprogramme oder Datenplotter befassen.
Wer sich einen umfassenden Überblick über das große Angebot verschaffen will, findet auf
den nachfolgenden Websites zahlreiche weiterführende Informationen sowie Links zu den
Projekt­ und Downloadseiten. Zu beachten ist aber, daß sich einige der unten genannten
Websites ausschließlich mit linux­kompatibler Software befassen (z.B. kde­apps); andere
Websites wiederum thematisieren auch Shareware, Demo­Versionen oder registrierungs­
pflichtige Programme (z.B. heise). Nicht alles also, was unter dem Label „freie Software“
firmiert, darf auch verändert oder gewerblich genutzt werden; bei einer nicht­kommerziellen
Einzelplatznutzung hingegen ist man grundsätzlich auf der sicheren Seite.

http://freestatistics.altervista.org/stat.php
http://statpages.org/javasta2.html
http://www.heise.de/software/download/o0g0s1l1k259
http://freshmeat.net/browse/98/
http://sourceforge.net/softwaremap/trove_list.php?form_cat=97
http://de.kde­apps.org/index.php?xcontentmode=280
http://www.linuxlinks.com/Software/Scientific/Statistics_and_Graphing/

Paket­Datenbanken für RPM­basierte Linux­Distributionen
Erfahrungsgemäß haben Linux­User immer wieder Probleme bei der Kompilierung des Quellcodes
und müssen deshalb ersatzweise auf vorkompilierte Binaries ausweichen. Die nachfolgenden Links
verweisen auf einschlägige Datenbanken, die zahlreiche Programmpakete für RPM­basierte Linux­
Distributionen bereithalten. Dort findet man nicht nur viele der oben beschrieben Statistik­ und Hilfs­
programme, sondern eventuell auch jene Bibliotheken, die für deren Installation zwingend erforder­
lich sind. Datenbanknutzung und Downloads sind kostenfrei und nicht registrierungspflichtig.

http://rpmfind.net/
http://rpm.pbone.net/
http://www.rpmseek.com/index.html
http://packman.links2linux.de/search
http://packages.opensuse­community.org

Anmerkung: Dank an Stefan Hille (Iret GmbH, Münster) für seine wertvollen Hinweise und Anregungen.

                                                  17
Sie können auch lesen