Utforska stora material med digital textanalys

De digitala källorna blir allt fler och med det möjligheterna för forskare inom samhällsvetenskap och humaniora att hitta frågor och svar med datorstödd textanalys.

Text mining. Korpusanalys. Datorstödd textanalys. Kärt barn har många namn.

Karl Berglund

– Vad det handlar om är statistiska analyser på digitala material med hjälp av datorer, säger Karl Berglund som är forskningskoordinator på Centrum för digital humaniora Uppsala som bildades vid Uppsala universitet förra året.

Det som tidigare var ett special­ämne – kvantitativ språkvetenskap – är nu något som alla som jobbar med större textmaterial kan ha nytta av eftersom mängden digitala källor ständigt ökar.
– Från att ha jobbat på exempelnivå eller med ett urval kan man med datorstödd textanalys titta på helheter, säger Karl Berglund.

Själv forskar han inom litteraturvetenskap.
– Litteraturhistorien har skrivits utifrån ett antal viktiga exempel, men om man i stället tittar på det tillgängliga materialet som helhet kan en annan bild framträda, kanske inte en mer rättvisande, men man får syn på andra aspekter som kan väcka andra forskningsfrågor.

I USA har litteraturvetenskapen kommit långt med datorstödd textanalys, till exempel för att studera stilistik utifrån användning av ordklasser eller meningsstrukturer, eller teman utifrån specifika ord. I Sverige har metoden framför allt fått ett genomslag inom idéhistoria där till exempel utvecklingen av olika begrepp studeras.
– Om du som forskare sitter med ett stort digitalt material och inser att du aldrig kommer att kunna gå igenom allt själv, men att det finns intressanta saker i materialet som helhet – då är det läge att börja fundera över datorstödd textanalys, säger Karl Berglund.

Inom juridiken kan forskningsfrågor bland annat ställas till digitaliserade domar, sociologin kan studera interaktionen på sociala medier, statsvetenskapen den politiska retoriken på debattsidor.
Metoden är kvantitativ – det datorn gör är att räkna det du ber den om. En grundläggande förståelse för statistik är viktigt, och vill man göra jobbet själv behöver man lära sig ett visst mått av programmering. Men det är också vanligt med tvärvetenskapliga projekt där ämnesexperten samarbetar med statistiker eller tekniska forskare.

Den som saknar kunskaper men är intresserad av att börja använda datorstödd textanalys ska i första hand kontakta stödfunktionen på sitt lärosäte. Alla har inte särskilda centrumbildningar, men om inte annat brukar biblioteken veta var relevant forskarstöd finns.
– Det finns olika möjligheter för att lära sig. Vi ger workshops, håller på att skissa på en doktorandkurs och kan förmedla kontakter för samarbeten. Vi hjälper också till med strategiska frågor och med forskningsdesign, säger Karl Berglund.

Beroende på forskningsfrågan finns sedan olika program för olika analyser, till exempel de som kan göra kluster av ord utifrån teman, eller andra som märker upp varenda ords ordklass. Många program har öppen källkod och är gratis, men då är tröskeln ofta programmeringen. Det finns också enklare program som i alla fall kan användas för explorativa analyser av ett material.
Karl Berglund förespråkar att den datorstödda textanalysen kombineras med kvalitativ analys.
– Det man vinner i bredd förlorar man i djup. Därför förordar jag att man gör lite både och.


Kategorier: Artiklar, Metod, Forskning