ghanja.be
Contact Us

Kies een categorie

SoNaR project : Universiteiten verzamelen SMSjes voor onderzoek
Geschreven door Dutch Cowboys
Artikelen - ICT nieuws
zaterdag, 12 november 2011 16:10
SoNaR project : Universiteiten verzamelen SMSjes voor onderzoek

[Anne Kuijs] Vertaalmachines, autocorrect en T9 op je telefoon, spraakcomputers, voorleesapplicatie, spellingscontrole... De techniek staat voor niks tegenwoordig, maar voor het ontwikkelen van taalapplicaties heb je meer nodig dan alleen een computer!

De Universiteiten van Tilburg, Utrecht, Nijmegen, Twente, en in Vlaanderen Leuven en Gent bouwen met zijn allen aan een taalcorpus: een enorme taaldatabank met geschreven taal. Het is de bedoeling om 500 miljoen woorden aan tekst in verschillende teksttypes te verzamelen. Het vernieuwende aspect van dit project, genaamd SoNaR, zit hem in de aandacht voor taal uit nieuwe media. SoNaR verzamelt tekst uit weblogs, tweets, e-mails (spam en geen-spam), ondertiteling, discussiefora, autocues en zelfs SMS. Op 1 december wil SoNaR 50.000 SMSjes uit Vlaanderen en Nederland verzameld hebben!

Maar waar is dit nu goed voor? Taalcorpora bestaan al jaren, in verschillende talen, en aangelegd door verschillende instituten. Een corpus bevat tekst die door mensen is geschreven: natuurlijk geproduceerde tekst dus. Mensen zijn de meesters in het produceren van taal, en met behulp van bakken vol door-mensen-geproduceerde-taal kun je leuke dingen doen. Taal is een dankbaar studieobject: het is constant in beweging, en het Nederlands is overal net een beetje anders. Aan de hand van een taalcorpus kan sociolinguïstisch onderzoek worden gedaan. Zo kun je bekijken of er taalverschillen zijn tussen Noord en Zuid Nederlanders, maar ook of je pa anders SMS’t dan de tieners van...

Commentaar (0)add comment

Schrijf commentaar
U moet ingelogd zijn om commentaar te geven. U dient zich eerst te registreren als u nog geen account hebt.

busy
 
Ghanja Alternatief - Community voor een open wereld!
   
Copyright © 2005 - 2012 Ghanja.be - Sitemap