Graduiertenschule 3GO

Details zum Termin:

Webscraping und quantitative Textanalyse mit R

11. Mai 2017 - 13. Mai 2017

Es handelt sich um zwei getrennt buchbare Kurse, die sich den Einführungstag (11.05.) teilen. 

Webscraping mit R (11./12. Mai)

Das Internet bietet eine nicht unüberschaubare Menge an Daten. Im Internet werden sowohl bereits bestehende Datensätze frei zugänglich bereit gestellt (bspw. Wahlergebnisse) als auch täglich neue Inhalte produziert (bspw. Twitter, Wikipedia). Automatisierte Verfahren zum Sammeln dieser Daten aus dem Internet (“Webscraping”) bieten daher ein enormes Potential für die Forschung. Durch diese Verfahren können innerhalb weniger Minuten Datensätze erstellt werden, deren Erstellung ansonsten mehrere Wochen, Monate oder Jahre gedauert hätte.

Zwei Beispiele: Das automatisierte Herunterladen der letzten 3000 Tweets von Barack Obama (inkl. sämtlicher Informationen zur Uhrzeit, Datum, Retweets, etc.) dauert weniger als eine Minute, während dieser Vorgang manuell vermutlich mehrere Tage intensiver Arbeit beanspruchen würde. Eine Datenbank aller Reden im Polnischen Parlament (inkl. Redetext, Uhrzeit, Thema der Debatte etc.) kann durch entsprechende Verfahren in weniger als einem Tag erstellt werden. Die automatisierten Verfahren sind jedoch nicht nur um ein Vielfaches schneller als das manuelle Sammeln von Daten im Internet, sondern noch dazu kaum fehleranfällig.

Der Kurs liefert eine Einführung in das automatisierte Sammeln von Daten aus dem Internet mit der Software R. Der Kurs adressiert die folgenden Inhalte:

  • Einführung in die Software/Programmiersprache R
  • Arbeiten mit dem rvest-Package (Standard-Package für das Webscraping)

  • Sammeln von Twitter- und Facebook-Daten

Voraussetzungen
Keine, eine Affinität / Grundlegende Kenntnisse für die Funktionsweise von Webpages wird aber erwartet. Kenntnisse von R sind von großem Vorteil.

Aufbau des Kurses
Der Kurs ist auf zwei Tage ausgelegt. Die Inhalte werden stets durch Übungen zu den jeweiligen Themenabschnitten ergänzt.

 

Text as Data: Einführung in die quantitative Textanalyse mit R (11. und 13. Mai)

Texte spielen in den Sozialwissenschaften eine kaum zu unterschätzende Rolle. Eine große Reihe von Informationen liegt zunächst als Text vor. Seien es Reden, Parteiprogramme, Pressemitteilungen oder Interviews: all diese Daten sind zunächst Text. Soll der Inhalt dieser Texte statistisch analysiert werden, dann werden diese Texte meist erst in aufwendigen Verfahren in einzelne Datenpunkte umkodiert. Verfahren der quantitativen Textanalyse bieten eine Möglichkeit diesen Prozess um ein Vielfaches zu beschleunigen. Diesen Verfahren widmet sich der Kurs.

Der Kurs verfolgt das Ziel die Potentiale und Anwendungsmöglichkeiten quantitativer Textanalyseverfahren aufzuzeigen und anhand praktischer Beispiele zu verdeutlichen. Dabei wird auch auf die notwendigen Limitierungen dieser Verfahren hingewiesen. Da unter den gängigen Softwarepaketen (SPSS, Stata und R) ausschließlich R in der Lage ist mit großen Textmengen umzugehen, konzentriert sich der Kurs auf die Umsetzung dieser Verfahren mit R.

Der Kurs zielt auf die Vermittlung der folgenden Inhalte ab:

  • Einführung in die Software/Programmiersprache R bzw. RStudio
  • Umgang mit Text (bspw. Aufbereitung, Datenerstellung) und Bearbeitung von Text (z.B. Stemming)
  • Idealpunktschätzung anhand von Texten (Wordfish, Correspondence Analysis)
  • Themenextraktion aus Texten (Latent Dirichlet Allocation & Structural Topic Models)
    Ausblick auf das automatisierte Sammeln von Texten im Internet mit R (“Webscraping”)

Voraussetzungen
De facto werden keine Vorkenntnisse vorausgesetzt. Erste Kenntnisse in R sind aber Vorteil, da der Kurs nur eine kurze Einführung in R bietet. Eine Affinität zur quantitativen Forschung wird erwartet.

Aufbau des Kurses
Der Kurs ist auf zwei Tage ausgelegt. Der erste Tag umfasst die Einführung in R, wobei sich hierbei insbesondere auf die wichtigsten Funktionen für den Kurs (d.h. die quantitative Textanalyse) konzentriert wird. Der zweite Teil des Kurses stellt dann die jeweiligen Analysen und Methoden vor. Sämtliche Schritte werden stets durch Beispiele verdeutlicht und die Teilnehmerinnen und Teilnehmer üben die Funktionsweise anhand von Beispielaufgaben.

 

Referent: Dr. Michael Jankowski 

Eine Anmeldung ist ab dem 3. April möglich.