 [Anne Kuijs] Vertaalmachines, autocorrect en T9 op je telefoon, spraakcomputers, voorleesapplicatie, spellingscontrole... De techniek staat voor niks tegenwoordig, maar voor het ontwikkelen van taalapplicaties heb je meer nodig dan alleen een computer!
De Universiteiten van Tilburg, Utrecht, Nijmegen, Twente, en in Vlaanderen Leuven en Gent bouwen met zijn allen aan een taalcorpus: een enorme taaldatabank met geschreven taal. Het is de bedoeling om 500 miljoen woorden aan tekst in verschillende teksttypes te verzamelen. Het vernieuwende aspect van dit project, genaamd SoNaR, zit hem in de aandacht voor taal uit nieuwe media. SoNaR verzamelt tekst uit weblogs, tweets, e-mails (spam en geen-spam), ondertiteling, discussiefora, autocues en zelfs SMS. Op 1 december wil SoNaR 50.000 SMSjes uit Vlaanderen en Nederland verzameld hebben!
Maar waar is dit nu goed voor? Taalcorpora bestaan al jaren, in verschillende talen, en aangelegd door verschillende instituten. Een corpus bevat tekst die door mensen is geschreven: natuurlijk geproduceerde tekst dus. Mensen zijn de meesters in het produceren van taal, en met behulp van bakken vol door-mensen-geproduceerde-taal kun je leuke dingen doen. Taal is een dankbaar studieobject: het is constant in beweging, en het Nederlands is overal net een beetje anders. Aan de hand van een taalcorpus kan sociolinguïstisch onderzoek worden gedaan. Zo kun je bekijken of er taalverschillen zijn tussen Noord en Zuid Nederlanders, maar ook of je pa anders SMS’t dan de tieners van...
 |