Freie Software für die Datenanalyse

von Dirk Schmücker (Stand: Januar 2022)

Diese Liste ist nicht vollständig, sondern meine persönliche Auswahl aus der Vielzahl verfügbarer Programme. Ergänzungsvorschläge sind willkommen. Alle Programme sind für Windows verfügbar, die meisten auch für Linux, einige für MacOS. Software, die nicht frei verfügbar ist, ist in dieser Liste nicht enthalten.

Deskriptive und schließende Datenanalyse

R und RStudio

R ist die wegen ihres Umfanges mächtigste Statistiksoftware überhaupt.

Vorteile: Es gibt praktisch keine statistische Anwendung, die mit R und den dafür verfügbaren Erweiterungen (Packages) nicht lösbar ist. Einige Packages sind besonders toll (z. B. Tidyverse).

Nachteile: Nur per Skriptsprache zu steuern (grafische Benutzeroberflächen wie RCommander helfen meist nicht wirklich weiter). Vergleichsweise hoher Einarbeitungsaufwand, bis man erste Analysen produzieren kann. Dokumentation zuweilen schwer verständlich oder unvollständig oder falsch oder alles zusammen.

∞ Verfügbar unter r-project.org.

RStudio ist eine Benutzeroberfläche, die die Handhabung von R nach meiner Erfahrung spürbar erleichtert. RStudio ist zur Nutzung von R nicht notwendig, aber hilfreich.

∞ Verfügbar unter rstudio.com.

JASP

JASP integriert ausgewählte Funktionen von R und packt sie in eine exzellente Benutzeroberfläche mit gut lesbaren Ausgaben.

Besondere Stärke sind Siginifkanztests: Neben der üblichen Teststatistik (NHST) sind alle Tests auch in Bayesscher Statistik vorhanden. Entwickelt von einem Team um Eric Jan Wagenmakers in Amsterdam.

∞ Verfügbar unter jasp-stats.org.

PSPP

PSPP ist eine Art Klon des kommerziellen Programms IBM SPSS Statistics, allerdings mit sehr abgespecktem Funktionsumfang und, nach meiner Erfahrung, nicht immer zuverlässig. Als Notlösung aber brauchbar.

∞ Verfügbar unter gnu.org.

OpenOffice Calc

OpenOffice Calc ist eine Tabellenkalkulation, die aber auch für grundlegende Aufgaben der Datenanalyse verwendet werden kann (genau so wie das kommerzielle Pendant von Microsoft).

∞ Verfügbar unter openoffice.org, dort gibt es auch eine Übersicht der Statistikfunktionen.

Openstat

OpenStat ist eine Anwendung, die nicht so umfangreich ist wie R oder SPSS, aber die wichtigsten Statistikfunktionen unter einer Windowsoberfläche bietet. Entwickelt von Bill Miller.

∞ Verfügbar unter openstat.info, dort gibt es auch einen Überblick der Analysefunktionen.

Data Mining und Predictive Analytics

Google TensorFlow

TensorFlow ist eine Rahmenstruktur (Framework) zur Nutzung von Algorithmen des maschinellen Lernens und ist Open Source. TensorFlow kann z. B. aus der ebenfalls von Google bereitgestellten Onlineumgebung „Colaboratory“ genutzt werden.

∞ Verfügbar unter colab.research.google.com (ein Google-Konto wird benötigt).

Orange

Orange Data Mining ist ein Python-basiertes OpenSource-Programm für das Maschinelle Lernen und Datenvisualisierung.

Literatur: Demšar, J., Curk, T., Erjavec, A., Gorup, Č., Hočevar, T., Milutinovič, M., Možina, M., Polajnar, M., Toplak, M., Starič, A., Štajdohar, M., Umek, L., Žagar, L., Žbontar, J., Žitnik, M., & Zupan, B. (2013). Orange: Data Mining Toolbox in Python. Journal of Machine Learning Research, 14, 2349–2353 (Link)

∞ Verfügbar unter orangedatamining.com

Weka 

Weka beherrscht wesentliche Techniken von Predictive Analytics und Segmentation (z.B. J48, eine Java-Implementierung von Quinlans C4.5) und ist vollständig Open Source.  Die Bedienung und das ARFF-Datenformat sind nicht kompliziert, aber gewöhnungsbedürftig. Entwickelt von einem Team um Ian Witten in Waikato/Neuseeland (wo der Weka-Vogel lebt).

∞ Verfügbar unter waikato.ac.nz.

Rapid Miner

RapidMiner Studio beherrscht viele gängige Data Mining-Verfahren, z. B. Predictive AnalyticsSegmentation und Optimization. Die Bedienung ist prozessorientiert per Drag & Drop.

Das Programm und sein Vorgänger YALE wurde ursprünglich von einem Team um Ingo Mierswa in Dortmund entwickelt. Bis Version 5.3 gab es eine unbeschränkte kostenfreie Lizenz, die auf sourceforge.net weiterhin verfügbar ist.

Seitdem ist eine kostenfreie Lizenz für den akademischen Gebrauch erhältlich.

∞ Informationen dazu gibt es unter rapidminer.com.

KNIME

KNIME (der Konstanzer Informaton Miner) hat einen ähnlichen Workflow und Funktionsumfang wie RapidMiner und ist vollständig frei verfügbar (Open Source). 

∞ Verfügbar unter knime.com

Räumliche Datenanalyse (Geodaten)

QGIS

QGIS ist ein vollständiges Geoinformationssystem, das durch zahlreiche Plugins noch an Funktionalität gewinnt.

∞ Verfügbar unter qgis.org.

GeoDA

GeoDA ist ein Programm insbesondere für die statistische Analyse von räumlichen Zusammenhängen. Entwickelt von einem Team um Luc Anselin in Chicago.

∞ Verfügbar unter github.io oder am Center for Spatial Data Science.

Spezielle Anwendungen

G*Power

Mit G*Power kann die Teststärke in verschiedenen Perspektiven (z. B. benötigte Fallzahl, benötigte Effektstärke) für T-Tests, F-Tests, χ²-Tests oder z-Tests berechnet werden. Ursprünglich entwickelt von F. Faul (Kiel), E. Erdfelder (Mannheim) und A.G. Lang und A. Buchner (Düsseldorf).

∞ Verfügbar unter hhu.de

Gephi

Gephi ist ein Programm zu Analyse und Visualisierung von Netzwerken. Geeignet für gerichtete und ungerichtete Netzwerke. Ursprünglich entwickelt in Compiègne (Frankreich).

∞ Verfügbar unter gephi.org.

Interaction!

Interaction! beherrscht verschiedenste Interaktionsberechnungen und stellt die Ergebnisse auch grafisch dar. Entwickelt von Daniel Soper.

∞ Verfügbar unter danielsoper.com.

RelCalc

RelCalc berechnet neben dem τ-äquivalenten Cronbachs Alpha und dem standardisierten Alpha auch eine kongenerische Reliabilität auf Basis von Kovarianzmatrizen und der Fallzahl. Dazu gibt es einen Artikel des Autors in Organizational Research Methods.

∞ Verfügbar auf der Blogseite von Eunseong Cho.

InZight

InZight ist eine schöne Anwendung, um schnell Diagramme für die grafische Datenanalyse zu erstellen. Das Skalenniveau wird automatisch bestimmt. Entwickelt an der Unvierstiy of Auckland.

∞ Verfügbar unter inzight.nz

NetLogo

NetLogo ist ein Agenten-basiertes Simulationsprogramm, entwickelt von Uri Wilensky an der Northwestern University.

∞ Verfügbar unter northwestern.edu