Logo Utrecht University

Digital Humanities Lab

Blog

Text mining begint booming business te worden. Wat is text mining?

Toen ik in 2006 begon met het toepassen van text mining voor mijn onderzoek naar de negentiende eeuwse pers, had vrijwel niemand interesse. Als ik bijeenkomsten organiseerde om de techniek toe te lichten, kreeg ik hooguit twee aanmeldingen.  Dat is sinds ruim een jaar flink aan het veranderen. De collega’s worden wakker, zo lijkt het. Vermoedelijk is het steeds ruimere aanbod van gedigitaliseerde teksten daar debet aan. Het wachten is op implementatie van de techniek in een grootschaliger Nederlands project dan mijn VIDIonderzoek, dat zal de toepassing van text mining hopelijk vleugels geven. Want de mogelijkheden van de techniek voor de letteren zijn enorm.

Maar voordat text mining voldoende benut zal kunnen worden, zal er nog wel wat moeten veranderen. Er is onvoldoende kennis van zowel de mogelijkheden als de toepassing van deze methode, waardoor er allerlei vage en vaak achterhaalde verhalen de ronde doen. Daarom heb ik besloten een serie blogberichten te gaan maken over text mining. Deze tekst wordt dus de eerste uit een reeks.

Veel letterenonderzoekers menen dat text mining een soort geavanceerde zoekfunctie is. Voor een deel is dat nog waar ook. Met text mining software kan gezocht worden naar de spreekwoordelijke naald in de hooiberg. Maar is het niet veel fascinerender om woordgebruik daadwerkelijk in kaart te brengen? Bijvoorbeeld: wanneer is een woord, term of concept voor het eerst gebruikt en hoe is het zo’n begrip sindsdien vergaan?

Culturonomics, wordt dit genoemd in dit zeer geestige TEDfilmpje.

Freakhumanities, zeggen anderen smalend. Tja, er zal nog wel wat water door de zee gaan voordat letterenonderzoekers die gewend zijn om met teksten te werken, bereid zullen zijn om technieken als clusteranalyse onder de knie te krijgen, zodat ze echt aan ‘culturonomics’ zullen kunnen gaan doen. Waarover meer in een volgend bericht. 

Voor nu en voor een eerste eigen kennismaking met text mining: kijk in de Google NGram viewer, waar de TEDpresentatie over gaat en waar ik bij wijze van voorbeeld Koningin Juliana heb opgezocht, maar helaas noodgedwongen in een Engels corpus. 

 Vermors nu de rest van uw dag met dit fascinerende speeltje. Wat jammer dat Google nog niet zoiets heeft gebouwd voor het Nederlands. Maar daar valt omheen te werken. Ook daarover meer in volgende berichten over text mining.

You must be logged in to post a comment.