Lid worden? Inloggen!

Deze website maakte gebruik van cookies. We gebruiken enkel functionele cookies die er zijn er om de gebruiksvriendelijkheid van de website voor onze gebruikers te verbeteren. Wij maken GEEN gebruik van trackingcodes, of andere advertenties / marketing gerichte cookies. (Meer informatie). Klik op OK om akkoord te gaan met het gebruik van cookies.

OK

500 miljard woorden en verder

opanerd - vrijdag 17 december 2010 - 09:12


0

Op dit moment zijn ongeveer 15 miljoen boeken gedigitaliseerd, voor een groot deel door Google. Dat is 4% van de naar schatting 375 miljoen boeken die ooit zijn gedrukt sinds de uitvinding van de boekdrukkunst. Dat schept ongekende mogelijkheden voor onderzoek.

Een groep van Harvard University selecteerde ongeveer 5 miljoen boeken die volledig, woord voor woord, waren gedigitaliseerd. Dat zijn meer dan 500 miljard woorden. Vervolgens telden de wetenschappers het aantal malen dat elk woord voorkwam voor elk jaar tussen 1800 en 2000.

Hieruit bleek dat bijvoorbeeld het aantal gebruikte (Engelse) woorden steeg van 544.000 in 1900 tot meer dan 1 miljoen in 2000. De grootste toename vond plaats na 1950. Ongeveer 52% van die miljoen woorden kwamen overigens niet voor in standaardwoordenboeken. Dat noemen de onderzoekers 'lexicologische donkere materie'.

Ze telden ook de frequentie van persoonsnamen, een ruwe indicatie van beroemdheid. Daaruit blijkt dat momenteel mensen op jongere leeftijd beroemd worden dan vroeger. In de vroege negentiende eeuw was dat gemiddeld 43 jaar. In het midden van de twintigste eeuw was dat 29 jaar. Ook de opkomst en ondergang van woorden ten gevolge van censuur kon worden nagegaan. Zo verdween de naam 'Tiananmen Square' in China na 1989, 'Leon Trotsky' in Russische boeken na 1940 en de namen van bepaalde Hollywood acteurs tijdens de anti-communistische McCarthy periode in de Verenigde Staten.

Digitalisering schept daarmee mogelijkheden voor historici en literatuuronderzoekers die tot dusver niet bestonden. En dit is nog maar het begin. Er moeten nog 360 miljoen boeken worden gedigitaliseerd, ruw geschat zo'n 12*1012 woorden.

Bron: New Scientist