Nicht proprietäre und lizenzkostenfreie Alternativen zu SPSS
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Nichtproprietäre und lizenzkostenfreie Alternativen zu SPSS von Martin Kotulla M.A. (Universität Münster / BRD) – 01.06.2008 Aufgrund seines enormen Funktionsumfangs und seines ausgezeichneten Bedienkomforts zählt SPSS zu den populärsten Statistikprogrammen, die derzeit in Forschung, Lehre und Wirtschaftspraxis zum Einsatz kommen. Doch wer mit diesem kommerziellen Markenprodukt arbeiten will, muß sich auf horrende Lizenzgebühren, über zogene Hardwareanforderungen und eine komplizierte Produktaktivierung gefaßt machen; selbst die preiswerten Campus und Studentenlizenzen, die ja ohnehin nur für Hochschulangehörige angeboten werden, weisen einige inakzeptable Nachteile auf. Je nach Anlaß und Umfang der statistischen Untersuchung könnte es im Einzelfall sinnvoller sein, sich nach quelloffenen oder lizenzkostenfreien Alternativen umzusehen. Immerhin gibt es welt weit mehrere Dutzend Projektteams, die an der Entwicklung „freier“ Statistikprogramme arbeiten. Die besten davon – darunter Instat+, Gretl und der R_Commander – werden nachfolgend vorgestellt. Besondere Features werden dabei ebenso thematisiert wie technische Merkmale und Systemanforderungen. Zusätzliche Screen shots geben einen ersten Eindruck von den Benutzeroberflächen. Abschließend werden diverse Hilfsprogramme präsentiert, die dazu geeignet sind, den statistischen Arbeitsprozeß zu unterstützen. Gründe für die Popularität von SPSS SPSS®(Statistical Package for the Social Sciences) wurde 1968 an der Stanford University entwickelt und gilt mithin als eines der mächtigsten und umfassensten Softwarepakete zur statistischen Datenanalyse. Anders als sein vollständiger Name suggeriert, kommt es nicht nur in der empirischen Sozialforschung zum Einsatz, sondern auch in zahlreichen anderen Wissenschaftsdisziplinen sowie in der Privatwirtschaft, z.B. in der Betriebswirtschaftslehre, in der Medizin bzw. Epidemiologie, in Markt und Konsumforschungsinstituten oder in der industriellen Qualitätssicherung. SPSS basiert auf der Programmiersprache Java und ist modular aufgebaut: Grundbaustein der Produktfamilie ist das sog. Base Module, das umfangreiche Optionen für ein Datei und Datenmanagement sowie alle elementaren Prozeduren für Graphik und Statistik enthält, darunter: Deskriptive Statistik, Kreuztabellen, Mehrfachantworten, Faktoren, Cluster und Diskriminanzanalysen, ANOVAModelle, nichtparametrische Tests, lineare Regressionen. In Version 15.0 wurde zudem ein neues Graphiksystem implementiert. Einen umfassenden Überblick über den Funktionsumfang vermittelt die mehr als 1000 Seiten starke Einführung von Felix Brosius. Das Basismodul, das seit September 2007 in der Version 16.0 vorliegt und neuerdings auch für LinuxBetriebssysteme erhältlich ist, kann mit diversen Addons für spezielle Anwendungszwecke (z.B. Zeitreihenanalysen) funktionell aufgerüstet werden. Das StandardRepertoire an statistischen Funktionen ist in der Tat beeindruckend und läßt auch für Fortgeschrittene kaum Wünsche offen. Das Benutzerinterface ist intuitiv gestaltet und selbst für Neulinge leicht zu handhaben; vor allem die Variablendefinition ist äußerst komfortabel. Die Ergebnisse werden übersichtlich in präsentationsfähigen PivotTabellen dargestellt, die bei Bedarf nachträglich bearbeitet werden können. Außerdem beherrscht SPSS alle gängigen Graphiktypen sowie 3DPlots. Lobend hervorzuheben sind weiterhin die instruktiven Tutorials und die gut plazierten Hilfetexte. Insgesamt ist es also kaum ver wunderlich, daß SPSS sich vielerorts als Standardsoftware etabliert hat. 1
Nachteile der SPSSLizenzmodelle Die Firma SPSS Inc. verlangt für ihr gleichnamiges Statistikprogramm horrende Lizenzge bühren: Allein das oben erwähnte Basismodul kostet bereits 1.720 €. Zusatzmodule für die Nutzung von Spezialfunktionen sowie Upgrades zur nächsthöheren Produktversion kosten nochmals jeweils mehrere Hundert Euro. Große Unternehmen zahlen die saftigen Lizenz gebühren zwar locker aus der „Portokasse“; doch für kleinere Firmen oder Einzelpersonen, vor allem für Studierende, dürfte der Erwerb einer Vollversion eher unerschwinglich sein. Um Studierende und Hochschulbedienstete trotzdem an das eigene Markenprodukt heran zuführen, offeriert der Hersteller sog. Campuslizenzen. Dadurch ergeben sich grundsätz lich drei Möglichkeiten, kostengünstig oder lizenzkostenfrei mit SPSS zu arbeiten. 1.) Die erste Möglichkeit besteht darin, SPSS in den Computerräumen der Hochschule zu nutzen, was jedoch mit gewissen Unannehmlichkeiten verbunden ist; hierzu zählen z.B. die eingeschränkten Öffnungszeiten sowie die beschränkte Anzahl an PCArbeitsplätzen. Zu dem ist das Studieren in solch einer unruhigen und beengten Arbeitsumgebung nicht un bedingt jedermanns Sache. (Empirische Studien zur Universitätskultur belegen übrigens, daß gerade Studierende der Geistes und Sozialwissenschaften lieber daheim arbeiten als in den Räumlichkeiten der Hochschule.) 2.) Die zweite Möglichkeit besteht darin, vom heimischen PC aus eine sog. Netzwerklizenz zu nutzen. D.h.: zu Beginn einer jeden Sitzung wird von einem Lizenzserver ein Lizenzkey abgerufen. Hierfür muß jedoch eine VPNgetunnelte Internetverbindung zum Universitäts netzwerk aufgebaut und permanent aufrechterhalten werden. Die VPNVerbindung (Virtual Private Network) muß zuvor auf dem eigenen PC vorbereitet werden, was Laien oft über fordert. Davon abgesehen stellt das Arbeiten über eine laufende OnlineVerbindung grund sätzlich immer ein Sicherheitsrisiko dar, vor allem wenn mit sensiblen oder personalisierten Daten hantiert wird. Die Netzwerklizenz funktioniert übrigens nur bei WindowsSystemen (und nur ab Version 14); LinuxUser hingegen kommen hier leider nicht zum Zuge. 3.) Die dritte Möglichkeit besteht darin, für 50,00 € eine Einzelplatz bzw. Jahreslizenz über das Rechenzentrum zu erwerben, um SPSS auf dem heimischen PC installieren und off line nutzen zu können. Seit Version 13.0 ist hierfür aber eine hardwareabhängige Produkt aktivierung erforderlich; und die ist noch umständlicher als bei WindowsXP! Schwerer noch wiegt die Tatsache, daß die Einzelplatzlizenz beim Rechenzentrum bestellt werden muß (kann dauern) und – unabhängig vom Zeitpunkt ihres Erwerbs – immer nur bis zum Ende des jeweiligen Kalenderjahres läuft. Wer also die Lizenz erst später erwirbt, kann die Software nicht volle zwölf Monate lang nutzen, da sich der SPSSProzessor nach Ablauf der Lizenzperiode automatisch von selbst deaktiviert. Darüber hinaus käme noch der Kauf einer StudentenVersion in Frage (für 78,00 € gegen Vorlage eines Immatrikulationsnachweises). Diese ist aber nur auf Englisch erhältlich und zudem funktionell eingeschränkt: So ist die Zahl der Variablen auf 50 und die der Fälle auf 1.500 begrenzt; außerdem sind einige statistische Proceduren nicht implementiert (z.B. die Analyse von Mehrfachantworten). Wer mit diesen Einschränkungen leben kann, fährt mit der StudentenVersion allemal besser als mit der o.g. Einzelplatzlizenz. Allerdings ist auch hierfür eine Produktaktivierung über Telefon oder Internet erforderlich. 2
Jede der o.g. Varianten setzt naheliegenderweise eine Immatrikulation voraus. D.h.: Nach einer Exmatrikulation scheiden die o.g. Nutzungsmöglichkeiten grundsätzlich aus. Das gilt streng genommen auch für die StudentenVersion: Einmal auf dem eigenen PC installiert, kann sie nach Abschluß des Studiums zwar vorerst noch weiter verwendet werden; aber spätestens bei einer Neuinstallation (d.h. bei der nächsten Produktaktivierung) könnte ein neuer Immatrikulationsnachweis fällig werden. Ärgerlich sind auch die sehr hohen HardwareAnforderungen. Abgesehen davon, daß ein Arbeitsspeicher mit mindestens 1024 MB empfohlen wird, sprengt SPSS insbesondere in puncto Festplattenbelegung alle Rekorde: Auf Windows und LinuxSystemen beansprucht der Programmbetrieb bis zu 450 MB; und auf einem Mac muß man sogar stolze 800 MB reservieren. Kaum ein anderes Anwendungsprogramm ist so ressourcenhungrig. Bei allem Komfort, den SPSS ja unbestreitbar zu bieten hat, ist eine derartige MammutInstallation eigentlich kaum noch zumutbar, zumal sich die Software tief im Betriebssystem festkrallt. Eine rückstandsfreie Entfernung ist dann nur noch unter Einsatz des WindowsCleanUp Utilities msicuu.exe möglich (liegt auf der WindowsSetupCD im Verzeichnis \support\tools – genauer: in der komprimierten Archivdatei support.cab). Wer nun gelegentlich eine kleinere statistische Untersuchung durchführen will – sei es zu wissenschaftlichen oder zu gewerblichen Zwecken – und hierfür weder eine Vollversion er werben will noch eine StudentenVersion kaufen noch an einer Campus bzw. Netzwerk lizenz partizipieren kann, sollte einen näheren Blick auf die vorhandenen Freeware und OpenSourceAlternativen werfen. Die besten werden nachfolgend präsentiert. Freeware vs. OpenSource Im Gegensatz zu Freeware ist OpenSource nicht einfach nur kostenfrei, sondern zeichnet sich dadurch aus, daß der ProgrammQuellcode „offen“, d.h. allgemein zugänglich ist und beliebig genutzt, verändert und weitergegeben werden darf, was im Einzelnen durch ent sprechende Lizenzen geregelt ist, z.B. durch die Gnu General Public License (GPL). Zwar lassen die Lizenzbestimmungen grundsätzlich auch die Möglichkeit zu, einen vorhandenen Quellcode zu verändern und die so generierte Software anschließend kommerziell zu ver markten, dies ist aber nur unter der Maßgabe legal, daß der „Source Code“ weiterhin frei zugänglich bleibt. Pointiert formuliert: OpenSource ist öffentliches Eigentum. Der Begriff Freeware hingegen umfaßt solche SoftwareProdukte, deren Quellcode gerade nicht offen ist (ClosedSource), sondern lizenz und eigentumsrechtlich unter Verschluß ge halten wird (proprietäre Software), aber unter bestimmten Bedingungen (z.B. für die nicht kommerzielle Einzelplatznutzung) lizenzkostenfrei aus dem Internet heruntergeladen und genutzt – nicht aber manipuliert oder weiterverkauft – werden darf. Nicht selten sind Free wareProdukte registrierungspflichtig; d.h. den Freischaltode erhält der User erst, nachdem er bei der jeweiligen Softwarefirma seinen Namen, seine eMailAdresse und/oder andere Daten hinterlassen hat. Was danach mit diesen Daten passiert, ist nicht immer eindeutig nachvollziehbar. Zuweilen werden diese für firmeneigene Marketingzwecke genutzt und im schlimmsten Fall an kommerzielle Datensammler weitergegeben. Bei FreewareProdukten sind die Lizenz und Geschäftsbedingungen also besonders gründlich durchzulesen! 3
Unzutreffend wäre nun die Behauptung, daß quelloffene Programme ausschließlich in der LinuxWelt angesiedelt seien. Richtig ist zwar, daß Linux maßgeblich auf dem OpenSource Prinzip basiert und daß dieses Prinzip unter „unixoiden“ Betriebssystemen viel weiter ver breitet ist; jedoch zeigt das Beispiel der populären BüroSuite OpenOffice, daß quelloffene Programme auch unter Windows technisch möglich und – sehr zum Ärger von Microsoft – tatsächlich auf dem Vormarsch sind. Alle unten genannten Statistikprogramme sind lizenzkostenfrei und ohne Aktivierungs oder Registrierungszwang im Internet erhältlich und ohne funktionelle oder zeitliche Limitationen lauffähig. Zwar sind sie in puncto Daten und Dateimanagement sowie hinsichtlich ihres statistischen Funktionsumfangs oder Bedienkomforts kommerziellen Markenprodukten wie SPSS (fast) durchweg unterlegen; doch dafür bringen sie in anderer Hinsicht viele neue originelle Ideen und innovative Features mit; vor allem in puncto Datenvisualisierung haben sie gegenüber ihren gewerblichen Konkurrenzprodukten oftmals die Nase vorn. Gnu_R Unbestrittener Platzhirsch unter den quelloffenen Statistikprogrammen ist Gnu_R (oder ein fach nur R), das auf allen Betriebssystemen läuft (Windows, Linux, MacOS) und seit April 2008 in Version 2.7.0 verfügbar ist. Das RProjekt startete im Jahr 1992 und ist inzwischen in allen Fachdisziplinen, in denen angewandte Statistik zum Einsatz kommt, fest etabliert – vor allem in den Naturwissenschaften. Insofern Gnu_R beliebig mit Zusatzmodulen auf gerüstet werden kann, bietet es ein nahezu unerschöpfliches Repertoire an statistischen und graphischen Funktionen. Diese Module (vergleichbar mit den FirefoxErweiterungen) heißen bei Gnu_R Packages und sind auf einer eigenen WebSite aufgelistet. Nach ihrer Installation tauchen sie in einem eigenen Programmunterordner namens library wieder auf. Befremdlich dürfte für SPSSUser zunächst die Tatsache sein, daß Gnu_R von Haus aus ein reines Konsolenprogramm ist, also ohne graphische Benutzeroberfläche daherkommt. Das heißt konkret: Alle statistischen und graphischen Funktionen müssen – wie in alten DOSZeiten – mit der Tastatur bzw. vermittels einer kryptischen Befehlssyntax aufgerufen werden, was auch für das Anlegen und Bearbeiten von Datendateien gilt. Um das Arbeiten mit Gnu_R dennoch etwas komfortabler zu machen, wurden zwischenzeitlich verschiedene Graphical User Interfaces (GUIs) entwickelt, die als Packages bzw. Libraries nachinstalliert werden können. Die meisten davon sind auf einer eigenen WebSite des RProjekts aufge listet (zu jenen GUIs, die dort nicht genannt werden, gehören u.a. RKward und DrizaQt sowie das unten beschriebene Statistiklabor). R_Commander Der R_Commander zählt zweifellos zu den besten graphischen Frontends, die das RPro jekt derzeit zu bieten hat. Er basiert auf der Scriptsprache Tcl/Tk und ist seit April 2008 in der Version 1.314 erhältlich. Obwohl er auf den ersten Blick etwas spartanisch wirkt, bietet er gleichwohl alle wichtigen Funktionen für Statistik und Graphik, darunter Faktoren und Clusteranalysen, nichtparametrische Tests, Hypothesentests, Mittelwertvergleiche, diskrete und stetige Verteilungen. Zeitreihenanalysen sind ebenfalls möglich, sofern man zuvor die Zusatzpakete tseries und RcmdrPlugin.emacs implementiert hat. 4
Anders als bei SPSS öffnet sich das Interface nicht mit einem Dateneditor, sondern gliedert sich in eine obere Befehlskonsole, in der alle Programmbefehle dokumentiert werden, und ein darunter liegendes Ausgabefenster, in dem die Ergebnisse der einzelnen Proceduren angezeigt werden. Daneben enthält es Menüleisten für das Daten und Dateimanagement, wozu auch der Import von SPSS und StataDateien gehört. Ein rudimentärer Dateneditor zum Anlegen und Bearbeiten von Datendateien ist auch schon an Bord. Wer den Funktions umfang des Programms zunächst spielerisch erkunden will, kann auf die mitgelieferten Bei spieldateien zurückgreifen. Bei der tabellarischen Ergebnispräsentation macht der RCommander allerdings keine gute Figur: Übersichtliche und präsentationsfähige PivotTabellen, wie man sie von SPSS kennt, werden leider nicht angeboten. Die Stärken liegen statt dessen im Bereich Visualisierung: Der RCommander beherrscht nämlich nicht nur alle gängigen Graphiktypen (z.B. Balken, Kuchen und Streudiagramme, Boxplots, Histogramme), sondern bietet auch die Möglich keit, interaktive 3DPlots zu generieren, die sich stereoskopisch betrachten und mit der Maus drehen und skalieren lassen. Wer einmal in den Genuß dieser atemberaubenden 3DGraphiken gekommen ist, fragt sich, warum die Firma SPSS Inc. nicht schon längst Ver gleichbares in ihrem sündhaft teuren Markenprodukt implementiert hat. Die 3DPlots lassen sich allerdings nicht nachbearbeiten; und beim Speichern werden sie unwiederbringlich – quasi als Screenshots – im pngDateiformat „eingefroren“. 5
Die Installation des R_Commanders ist durchaus lohnenswert, aber leider nicht ganz ein fach. Wer mit diesem komfortablen GUI arbeiten möchte, muß zunächst das Programm R base installieren und danach das Paket Rcmdr sowie einige obligatorische Zusatzpakete nachinstallieren. WindowsUser laden hierfür die erforderlichen zipDateien aus dem Inter net herunter und integrieren diese dann – mit AdminRechten – über das Rgui in das Pro gramm. LinuxUser hingegen laden statt der zipDateien die gleichnamigen tar.gzDateien herunter und installieren diese – mit rootRechten – über folgendes Konsolenkommando: R CMD INSTALL 1 /Pfad/zum/Verzeichnis/Paketname.tar.gz. Danach ist im homeVerzeichnis eine neue, unsichtbare Textdatei namens .Rprofile anzulegen (erst der Punkt vor dem Datei namen macht die Datei unsichtbar). Darin sind alle Packages, die beim Start von Gnu_R ebenfalls geladen werden sollen, untereinander – jeweils in einer eigenen Zeile – aufzu listen; die Syntax hierfür lautet: library(paketname); im konkreten Fall also: library(Rcmdr). Weitere Details sind dem englischsprachigen Handbuch zu entnehmen. Statistiklabor Auch das Statistiklabor ist ein graphisches Frontend (GUI), das auf der REngine aufsetzt. Es wurde an der FU Berlin entwickelt und wird vom Bundesministerium für Bildung und Forschung gefördert. Nach Aussagen seiner Entwickler handelt es sich dabei um einen „explorativen und interaktiven Werkzeugkasten zur Unterstützung der statistischen Aus bildung“. Das Statistiklabor soll also eher in der (universitären) Lehre eingesetzt werden als in der Forschung; die primären Zielgruppen sind folglich Dozenten und Studierende. Im Jahr 2003 war das Projekt sogar Gewinner des hochschuldidaktischen MedidaPreises. 6
Statistiklabor erlaubt das Bearbeiten einfacher bis komplexer statistischer Szenarien: von der Deskriptiven Statistik über die Simulation theoretischer Probleme bis zur Einführung in Programmiersprache R. Das Interface öffnet sich zunächst mit einer leeren Arbeitsfläche, auf der die einzelnen Elemente des statistischen Arbeitsprozesses (Datenmatrix, Tabellen und Graphiken) abgelegt, bearbeitet und miteinander verknüpft werden können. Obwohl sich das Programm explizit mit einem didaktischen Anspruch verbindet, ist die Benutzer oberfläche nicht gerade sehr intutitiv gestaltet; anders als bei anderen Programmen kommt man ohne einen gelegentlichen Blick in die Hilfedateien nur selten zum Ziel. In puncto Visualisierung zeigt sich ein gemischtes Bild: Einfache Graphiktypen wie etwa Kuchen und Balkendiagramme lassen sich zwar gut nachbearbeiten (Hintergrundfarbe, Achsenbeschriftung etc.); doch auf anspruchsvolle stereoskopische 3DPlots, wie man sie vom R_Commander kennt, muß man hier leider verzichten. Ebenfalls verzichten muß man auf ein ausführliches Handbuch. Hinweise zur Benutzung findet man allenfalls in den pro grammeigenen Hilfetexten; eine eigenständige Dokumentation hingegen existiert lediglich in Form eines kostenpflichtigen Lehrbuches, welches auf der ProjektHomepage beworben wird (mit den Verkaufserlösen soll vermutlich die Drittmittelquote des universitären Projekts aufgebessert werden). Seit Anfang 2008 ist Statistiklabor in der Version 3.7 erhältlich – allerdings nur für Windows 2000/XP (eine LinuxVariante selber zu erstellen, ist zwar prinzipiell möglich, erfordert aber einige Programmierkenntnisse). Der SourceCode wird seit der Version 3.5 unter der GPL Lizenz zur Verfügung gestellt. Wer das Statistiklabor nutzen möchte, muß zuvor unbedingt eine modifizierte Programmversion von Gnu_R auf dem PC installieren, nämlich Version 2.0.1 vom 31.10.2005 (andere Versionen werden nicht unterstützt). Alle Komponenten, die für die vollständige Installation benötigt werden, stehen auf der Downloadseite des Projekts bereit. Anders als bei anderen GUIs für Gnu_R erfolgt die Installation des Statistiklabors nicht etwa über das Nachladen einzelner Packages, sondern über eine eigene SetupDatei. Laut Projektteam sollten hierfür auf der Festplatte mindestens 100 MB reserviert werden. Instat+ Instat+ ist ein SoftwarePaket für Allgemeine und Angewandte Statistik und wurde Mitte der 1980er Jahre an der University of Reading (England) entwickelt. Zunächst als reine DOS Anwendung konzipiert, wurde sie im Jahr 1999 endgültig in die heute bekannte Windows Variante überführt und liegt inzwischen in Version 3.36 vor. Instat+ ist also ein windows basierter Abkömmling des früheren DOSProgramms Instat. Obwohl Instat+ prinzipiell in allen Disziplinen eingesetzt werden kann, die sich statistischer Datenanalysen bedienen, hat es sich vor allem im Gesundheitsbereich, im agrarwissen schaftlichen Sektor und in der Klimatologie etabliert und wird mithin zur Wettervorhersage eingesetzt. Deshalb enthält das Interface auch eine eigene Menüleiste, die speziell für die Berechnung meteorologischer Daten reserviert ist (über die Programmeinstellungen kann sie bei Bedarf ausgeblendet werden). Während die Programmnutzung für Behörden und Unternehmen lizenzkostenpflichtig ist, blieb die private, nichtkommerzielle Einzelplatznutzung bis heute „freeofcharge“. Instat+ 7
ist z.Zt. nur auf Englisch und leider nur für WindowsBetriebssysteme erhältlich. In seinem Aussehen und in seiner Bedienung ist es SPSS durchaus ähnlich, beansprucht dabei aber nur ein Zehntel des Installationsvolumens (nämlich knapp 45 MB). Per default öffnet sich das graphische Interface beim Programmstart horizontal zweigeteilt: das untere Fenster beinhaltet einen komfortablen Dateneditor; das obere einen Viewer für die Darstellung bzw. Eingabe der Programmbefehle sowie für die Ausgabe der Ergebnisse; Größe und Position der beiden Fenster können den individuellen Bedürfnissen angepaßt werden. Eine große Sammlung an Beispieldateien ist übrigens auch schon an Bord (leider nur aus der Agroklimatologie). Instat+ erlaubt über 40 verschiedene StatistikProceduren, darunter auch Zeitreihenanalysen, und beherrscht alle gängigen Graphiktypen (Boxplots, Histogramme etc.). Der Ergebnisoutput, der nach jeder statistischen Berechnung im Aus gabefenster erscheint, ist sehr übersichtlich und kann – falls überhaupt Bedarf besteht – ohne größeren Aufwand in eine präsentationsfähige Tabellenform gebracht werden. Eine Stärke von Instat+ liegt zweifellos in den vielfaltigen Möglichkeiten, die ohnehin schon respektablen Graphiken durch diverse Einstellungen und Themes nachträglich noch weiter zu optimieren. Die verfügbaren Variationsmöglichkeiten stehen denen anderer Programme in nichts nach. Echte stereoskopische 3DPlots hingegen, also solche, die räumlich dreh und skalierbar wären, hat Instat+ leider nicht zu bieten. 8
Lobend hervorzuheben sind schließlich die sehr ausführlichen Hilfedateien und Tutorials, die im Gegensatz zu denen anderer StatistikProgrammen mit zahlreichen Screenshots ge spickt sind, so daß man innerhalb der Benutzeroberfläche nie die Orientierung verliert (da für Instat+ keine deutsche Lokalisierung vorliegt, kann das im Einzelfall durchaus praktisch sein). Die englischsprachige Dokumentation ist aber auch für wenig Sprachbegabte und für Fachfremde verständlich geschrieben. Instat+ ist für Neulinge also bestens geeignet. Gretl Auch Gretl gehört zu jenen Statistikprogrammen, die auf der Suche nach Alternativen zu SPSS in die engere Wahl gezogen werden sollten. Die Gnu Regression, Econometrics and TimeSeries Library – so der vollständige Name – wurde ursprünglich für die Berechnung wirtschaftswissenschaftlicher bzw. volkswirtschaftlicher Daten konzipiert, ist aber durchaus auch für andere Fachdisziplinen geeignet, zumal alle elementaren statistischen Funktionen bereits implementiert sind. Gretl ist ausgesprochen ressourcenschonend und kann sowohl über ein graphisches Inter face als auch über eine bordeigene Konsole bedient werden. Als originäres Ökonometrie Programm bringt es eine Fülle von wirtschaftswissenschaftlichen Beispieldateien mit und erlaubt u.a. den Import von Gnumeric, Excel und StataFiles sowie das Anlegen eigener Datendateien über einen integrierten Dateneditor. Letzterer ist aber noch verbesserungs bedürftig: So ist z.B. das Löschen von Zeilen/Fällen aus der Datenmatrix nicht möglich, weshalb die Datendateien ersatzweise über Gnumeric oder MSExcel bearbeitet werden sollten. Davon abgesehen bietet Gretl ein komfortables Daten und Dateimanagement und punktet vor allem bei der Stichprobenbildung. Eine weitere Stärke liegt in der Ergebnispräsentation: Die Tabellen, die Gretl ausgibt, sind eigentlich schon sehr übersichtlich und müssen im Normalfall nicht nachbearbeitet werden. Im Einzelfall kann es jedoch erforderlich sein, den Output mit Hilfe eines externen Textver arbeitungsprogramms umzuformatieren; oft genügen hierfür schon wenige Mausklicks. Die Graphiken indes erzeugt Gretl nicht mit bordeigenen Werkzeugen, sondern mit Hilfe eines externen Datenplotters namens Gnuplot, der inzwischen in der Version 4.2.3 vorliegt und zahllose Möglichkeiten zur Datenvisualisierung offeriert. Eigentlich ist Gnuplot ja ein reines Konsolenprogramm, aber dank Gretls GUI kann man seine Funktionsvielfalt auch ohne Kenntnis der sperrigen Befehlssyntax ausschöpfen. Die mit Gnuplot generierten Graphiken können nachträglich weiter bearbeitet und dann in diversen Dateiformaten (png, pdf, eps, emf) abgespeichert werden. Gretl ist ein GTKbasiertes OpenSourceProdukt unter GPLLizenz und liegt inzwischen in Version 1.7.3 vor. Das vorwiegend in C geschriebene Programm ist in sieben Sprachen er hältlich (u.a. auch auf deutsch) und wird grundsätzlich für alle Betriebssysteme angeboten. LinuxUser müssen allerdings ein paar kleine Einschränkungen hinnehmen: So muß etwa Gnuplot auf LinuxSystemen immer separat installiert und dann über Datei/Einstellungen in Gretl eingebunden werden. Im WindowsBinary hingegen ist Gnuplot bereits enthalten. Zu dem ist auf KDEDesktops das direkte Ausdrucken von Tabellen und Graphiken ohne vor herige Zwischenspeicherung nicht möglich. Und 3DPlots können weder nachbearbeitet 9
noch gespeichert werden. Wer besonderen Wert auf Zeitreihenanalysen legt, muß hierfür die Zusatzprogramme X12Arima und Tramo/Seats von der GretlHomepage downloaden und nach deren Installation unter Einstellungen die Pfade zu den beiden Executables an geben. Die Dokumentation für Gretl ist derzeit nur in englischer Sprache erhältlich. Weitere Statistikprogramme: OpenStat und StatistX R_Commander, Instat+ und Gretl zählen zweifellos zu den besten Statistikprogrammen, die derzeit unter dem Rubrum Freeware bzw. OpenSource erhältlich sind. Nichtsdestotrotz gibt es aber noch viele andere „freie“ Programme, die ebenfalls Beachtung verdienen und unter Entwicklern durchaus ein gewisses Renommeé genießen. Zwar kommen diese An wendungen hinsichtlich ihres Funktionsumfangs und ihres Bedienkomforts nicht immer an die Qualitätsstandards der o.g. Projekte heran (geschweige denn an die kommerzieller Pro dukte), und sie sind auch nicht unbedingt für den alltäglichen Einsatz geeignet (schon gar nicht für größe empirische Untersuchungen); gleichwohl aber handelt es sich bei ihnen um respektable Leistungen, die einen tieferen Einblick in die Arbeitsweise der OpenSource Szene vermitteln. Hierzu zählen u.a. OpenStat und StatistX, die nachfolgend beschrieben werden. 10
OpenStat, entwickelt von Bill Miller an der Iowa States University, ist ein General Purpose Package, das sich vorrangig an Studierende der Sozialwissenschaften richtet. Während der gewerbliche Einsatz strikt ausgeschlossen wird, ist die persönliche Einzelplatznutzung lizenzkostenfrei. Geschrieben in C++/Pascal, kommt OpenStat mit einem graphischen Interface daher und hat einen Dateneditor an Bord, der sich beim Programmstart sofort öffnet. Der Im und Export von Datendateien ist möglich; zudem werden ein paar Beispiel dateien mitgeliefert. Die ausgegebenen Tabellen und Graphiken lassen sich zwar sofort drucken, sind aber allenfalls von mittelmäßiger Qualität. Während die Tabellen immerhin noch im Ausgabefenster formatiert werden können, ist eine direkte Nachbearbeitung der Graphiken nicht möglich. Wer jedoch auf publikationsfähige Ergebnispräsentationen ver zichten kann und sich statt dessen auf die reine Datenanalyse konzentrieren möchte, findet bei OpenStat bis zu Hundert statistische Proceduren, darunter nichtparametrische Tests und ökonometrische Berechnungsverfahren. Die WindowsVersion, die kurioserweise für einige Monate auch unter dem Namen Stats4U firmierte, beansprucht auf der Festplatte ca. 15 MB. Die LinuxVersion heißt LinOStats; sie ist funktionell leicht eingeschränkt und mißt in entpackter Form ca. 11 MB. Entgegen der üblichen Konvention enthalten die Setup Dateien leider keine Versionsnummern, sondern heißen schlichtweg OpenStatSetup.exe bzw. LINOSTATS.TGZ. Vorsicht übrigens beim Verlassen des Programms, denn entgegen aller Konvention wird beim Schließen nicht noch mal gefragt, ob die Resultate gespeichert werden sollen. 11
Statist ist ein originäres LinuxProjekt unter GPLLizenz. Es wurde im Jahr 1997 von Dirk Melcher aus der Taufe gehoben und wird seit 2005 von Jakson Aquino fortgeführt. Von Haus aus ist Statist zwar ein reines Konsolenprogramm, doch anders als bei anderen terminalbasierten Anwendungen erfolgt die Programmsteuerung nicht über eine kryptische Befehlssyntax, sondern vermittels einer interaktiven, wizardähnlichen Menüstruktur, die den User behutsam durch alle Arbeitsschritte führt und die Tipparbeit auf ein Minimum reduziert. Das Hauptmenü gliedert sich in die Unterpunkte Datenverwaltung, Regression/ Korrelation, Tests, Datenmanipulation, Präferenzen und Verschiedenes, wobei der zuletzt genannte Menüpunkt elementare Proceduren wie Häufigkeitsauszählungen und Mittelwerte umfaßt. Wer mehr Bedienkomfort wünscht, kann auf das GUI StatistX zurückgreifen, das von Andreas Beyer (Universität Osnabrück) konzipiert wurde, aber seit der Version 0.4.0 (Januar 2006) nicht mehr weiterentwickelt wird. Immerhin wurde das GTKbasierte GUI, das den Funktionsumfang von Statist in eine gefällige graphische Form bringt, im Januar 2002 mit dem Intevation Award for Free Software ausgezeichnet. Genau wie Statist selber ist auch StatistX bei der Visualisierung auf Gnuplot angewiesen. Die so generierten Plots sind im EPSFormat speicherbar. Das Anlegen eigener Datendateien mit Bordmitteln ist allerdings nicht möglich. 12
Statistische Hilfsprogramme Gnumeric ist ein anschauliches Beispiel für den fließenden Übergang zwischen Tabellen kalkulation und Statistikanwendung. Einerseits ist es hervorragend zur Erstellung und Be arbeitung von Datendateien geeignet und kann daher gut mit einem „echten“ Statistikpro gramm kombiniert werden, das seinerseits nur einen rudimentären Dateneditor mitbringt; andererseits beherrscht es selber schon einige datenanalytische Basisfunktionen (Grund auswertung, Korrelations, Varianz und Regressionsanalysen). Nach eigenen Aussagen verfolgt das Entwicklerteam das ehrgeizige Ziel, das „bestmögliche“ Spreadsheet hervor zubringen, und weist voller Stolz darauf hin, daß sein GPLlizensiertes OpenSourcePro dukt nicht nur den kompletten Funktionsumfang von MSExcel aufweist, sondern diesen um 154 weitere Features übertrifft und zudem noch präziser arbeitet als viele kommerzielle Konkurrenzprodukte. Gnumeric positioniert sich also eher als Tabellenkalkulation denn als Statistikanwendung. Vergleichen mit echten Statistikprogrammen fällt der datenanalytische und graphische Funktionsumfang von Gnumeric in der Tat eher bescheiden aus; und das Label „Advanced Statistical Analysis“, das sich auf der Homepage als Beschreibungsmerk mal findet, wirkt vor diesem Hintergrund etwas übertrieben. Insgesamt bietet sich Gnumeric folglich eher als Hilfsprogramm zur Bearbeitung von Datendateien an. Als eigenständiges Statistikprogramm ist es weniger geeignet. Seinen Ursprung hat Gnumeric übrigens in der Gnome Desktop Umgebung, stammt also eigentlich aus der LinuxWelt und ist derzeit in Version 1.8.2 verfügbar. Mittlerweile liegt aber auch eine WindowsVariante in der Version 1.6.3 vor. Gnumeric basiert auf GTK+ und hat sich als ressourcenschonende Alternative zu MSExcel etabliert. 13
Wer lediglich eine kleinere Umfrage durchführen will, greife auf das Fragebogenprogramm GrafStat zurück, das am Fachbereich Erziehungswissenschaften der Universität Münster, namentlich von Uwe Diener, entwickelt wurde und alle Phasen einer Befragung unterstützt – von der Fragebogenerstellung über die Datenerfassung und eine statistische Grundaus wertung bis hin zur Ergebnispräsentation. Ein typisches Einsatzgebiet wäre z.B. eine Um frage zum Mediennutzungsverhalten von Jugendlichen; für genuin naturwissenschaftliche Forschungszwecke hingegen ist das Programm eher ungeeignet. Seine Stärken spielt Graf Stat zweifellos bei der Fragebogenerstellung aus; imposant ist hier vor allem die wahlweise Konvertierung der Fragebogenmaske in eine Printversion oder in ein HTMLFormat (leider nur kompatibel mit Microsofts InternetExplorer). Bei OnlineBefragungen können die rück laufenden Daten entweder auf einem Server oder per eMail gesammelt und danach in die sog. Urliste (Datenmatrix) eingegeben werden. Sobald es aber an die Datenanalyse geht, offenbart GrafStat deutliche Schwächen, denn außer einer simplen Häufigkeitsauszählung und einer Mittelwertberechnung sind keine weiteren statistischen Funktionen implementiert. Ein etwas größerer Funktionsumfang wäre hier durchaus wünschenswert. Dafür punktet GrafStat bei der Erstellung und Nachbearbeitung von Kuchen und Balkendiagrammen so wie bei der Konvertierung der Befragungsergebnisse in ein präsentationsfähiges HTML Format. Interaktive 3DPlots werden leider nicht angeboten. Seit März 2008 ist GrafStat in der Version 3.48 verfügbar, wenngleich nur für Windows 2000/XP. Öffentliche Bildungs einrichtungen (städtische Schulen, staatliche Universitäten etc.) dürfen GrafStat kostenfrei nutzen, aber ohne Zustimmung des Autors nicht modifizieren. Das Projekt wird von der Bundeszentrale für politische Bildung finanziell gefördert. 14
Auch SciDavis, LabPlot und QtiPlot können als Hilfsanwendungen gute Dienste leisten. Bei ihnen handelt es sich strenggenommen nicht um Statistikprogramme, sondern um sog. Daten und Funktionsplotter, die darauf spezialisiert sind, mathematische Funktionen oder datenanalytische Berechnungen zu visualisieren. Genau wie Gnuplot kommen sie immer da zu Einsatz, wo keine bordeigenen Tools zur Graphikerzeugung zur Verfügung stehen oder wo die Graphiken nur von minderer Qualität sind. Rein äußerlich unterscheiden sie sich zunächst nicht sonderlich von herkömmlichen Statistikprogrammen; denn auch sie haben Spreadsheets für die Dateneingabe im Gepäck und beherrschen zudem einige wenige statistische Grundfunktionen. Ihre eigentliche Stärke liegt jedoch in der Generierung und Nachbearbeitung diverser Graphiktypen; und in eben dieser Hinsicht übertreffen sie sogar solche hochwertigen Statistikanwendungen wie Instat+ oder den R_Commander sowie die einschlägigen kommerziellen Markenprodukte. SciDavis, LabPlot und QtiPlot punkten vor allem bei der Erstellung interaktiver OpenGLbasierter 3DPlots, die sich nachträglich mit zahlreichen Einstellungen (Farbthemes, Achsenbeschriftung, Legende etc.) professionell nachbearbeiten und speichern lassen. Doch damit nicht genug: Die 3DPlots werden beim Speichern nicht etwa in ein statisches GraphikFormat (z.B. in eine pngDatei) konvertiert und damit unwiederbringlich „eingefroren“ (ScreenshotEffekt), sondern sie werden als Pro jekte abgespeichert und stehen nach einem erneuten Öffnen wieder als dreidimensionale und bewegliche Plots zur Verfügung. QtiPlot (Version: 0.9.5) und dessen „Forkoff“Projekt SciDavis (Version: 0.1.2) sind für alle Betriebssysteme erhältlich; LabPlot (Version: 1.6.0) hingegen nur für Linux/KDEDesktops und für MacOS/X. Um den Funktionsumfang dieser Anwendungen vollständig ausschöpfen zu können, müssen zuvor einige zusätzliche Pro grammpakete – sog. Bibliotheken – auf dem PC installiert werden; u.a. müssen Qt4, Qwt, QwtPlot3D, GSL und QSA vorhanden sein. Alle drei Plotter stehen unter GPLLizenz. 15
NumericalChameleon wiederum ist weder ein Statistikprogramm noch ein Plotter, sondern ein Einheitenumrechner. Als Hilfsprogramm könnte es immer dann von Nutzen sein, wenn der Statistiker mit ausländischen oder wenig vertrauten Währungen oder Maßeinheiten in Berührung kommt (miles/hour, gallons, pints, Fahrenheit, Rubel etc.). Und das Chameleon ist wirklich sehr leistungsstark: Es konvertiert 3.200 Einheiten in 82 Kategorien, darunter Längen, Raum und Flächenmaße, Geschwindigkeiten, Windstärken, Viskosität, Radio aktivität, Temperaturen und Zeitzonen. Es beherrscht 33 Zahlensysteme (natürlich auch römische Zahlen) und kennt alle internationalen Telefonvorwahlen und alle wichtigen aus ländischen Feiertage. Es kann für jedes beliebige Datum den entsprechenden Wochentag ermitteln, hält das phonetische Alphabet parat und enthält eine Tabelle mit Konfektions, Hut und Ringgrößen. Auch Wechselkurse sind im Repertoire; sie lassen sich sogar online aktualisieren. Für StarTrekFans gibt es zudem klingonisch gesprochene Zahlen und Warp Geschwindigkeiten. Sein Programmautor, der Dipl.Inf. (FH) Nepomuk Loefflmann, weist auf die hohe Genauigkeit der Umrechnungen hin (bis zu 1.000 Nachkommastellen!). Alle Umrechnungsergebnisse können an eine Zwischenablage übergeben und abgespeichert werden. Ein Datenaustausch mit gängigen OfficePaketen ist möglich. Das GPLlizensierte Programm, das in entpackter Form ca. 5 MB groß ist, basiert auf Java und müßte überall dort laufen, wo OpenOffice installiert ist. Es ist für alle Betriebssysteme erhältlich. 16
Weiterführende InternetLinks Nichtproprietäre und lizenzkostenfreie Anwendungssoftware zur Datenanalyse und Daten visualisierung gibt es im Internet zuhauf. Weltweit existieren z.Zt. mehrere Dutzend Projekt teams, die sich mit der Entwicklung „freier“ Statistikprogramme oder Datenplotter befassen. Wer sich einen umfassenden Überblick über das große Angebot verschaffen will, findet auf den nachfolgenden Websites zahlreiche weiterführende Informationen sowie Links zu den Projekt und Downloadseiten. Zu beachten ist aber, daß sich einige der unten genannten Websites ausschließlich mit linuxkompatibler Software befassen (z.B. kdeapps); andere Websites wiederum thematisieren auch Shareware, DemoVersionen oder registrierungs pflichtige Programme (z.B. heise). Nicht alles also, was unter dem Label „freie Software“ firmiert, darf auch verändert oder gewerblich genutzt werden; bei einer nichtkommerziellen Einzelplatznutzung hingegen ist man grundsätzlich auf der sicheren Seite. http://freestatistics.altervista.org/stat.php http://statpages.org/javasta2.html http://www.heise.de/software/download/o0g0s1l1k259 http://freshmeat.net/browse/98/ http://sourceforge.net/softwaremap/trove_list.php?form_cat=97 http://de.kdeapps.org/index.php?xcontentmode=280 http://www.linuxlinks.com/Software/Scientific/Statistics_and_Graphing/ PaketDatenbanken für RPMbasierte LinuxDistributionen Erfahrungsgemäß haben LinuxUser immer wieder Probleme bei der Kompilierung des Quellcodes und müssen deshalb ersatzweise auf vorkompilierte Binaries ausweichen. Die nachfolgenden Links verweisen auf einschlägige Datenbanken, die zahlreiche Programmpakete für RPMbasierte Linux Distributionen bereithalten. Dort findet man nicht nur viele der oben beschrieben Statistik und Hilfs programme, sondern eventuell auch jene Bibliotheken, die für deren Installation zwingend erforder lich sind. Datenbanknutzung und Downloads sind kostenfrei und nicht registrierungspflichtig. http://rpmfind.net/ http://rpm.pbone.net/ http://www.rpmseek.com/index.html http://packman.links2linux.de/search http://packages.opensusecommunity.org Anmerkung: Dank an Stefan Hille (Iret GmbH, Münster) für seine wertvollen Hinweise und Anregungen. 17
Sie können auch lesen