Källor, metod och begränsningar

För att ta reda på hur vanliga orden är i språket har en förenklad beräkningsmodell tagits fram utifrån flera tillgängliga orddatabaser (korpusar) över svenska texter från Språkbanken Text.

Modellen är kraftigt förenklad och ska därför inte ses som 100 % korrekt. Bland annat finns följande begränsningar som påverkar slutresultatet:

Slutresultatet på sidan kommer av en sammanslagning och filtrering av frekvensstatistiken från följande korpusar i Språkbanken Text:

Totalt sett innehåller ovanstående material cirka 2,97 miljarder tokens och efter filtreringen finns omkring 2,35 miljarder ordförekomster kvar. Från det finns 5,33 miljoner unika ord att hitta.

Om man jämför det med Svenska Akademiens ordbok, SAOB, som innehåller omkring 490 000 unika ord så kan det verka som att det finns betydligt många fler ord i användning jämfört med vad som räknas som riktiga ord. I SAOB är däremot ordformerna sammanslagna, vissa modernare ord saknas och det finns en högre gränsnivå för vad som ska inkluderas där.

De omkring 550 000 vanligaste orden i statistiken, som förekommer minst 64 gånger i källmaterialet, motsvarar cirka 98 % av ordfrekvensen av den totala mängden ord. Ytterligare filtrering skulle inte göra någon märkbar påverkan på andelarna och samtliga identifierade ord har därför lämnats kvar.

Till de vanligaste orden har det lagts till lite ytterligare information med en definition, användningsexempel och ett uttal enligt det internationella fonetiska alfabetet. Uttalen har försökt göras för att motsvara ett genomsnittligt uttal när orden används i sitt sammanhang i en normal konversation.

Exempelvis ligger ordet till med som [tɪ] istället för [tɪl:] och mig ligger som [mɛj] istället för [mi:g]. Det är gjort eftersom det är vanligare att säga "skicka ti' mej" istället för att använda mer gammaldags uttal och formellt korrekt språk. Det finns självklart undantag från dessa uttal, bland annat i finlandssvenskan, eller när man säger ett ord separat utan att det är i en mening. Uttalen på sidan ska därför inte ses som gällande i alla lägen.

Definitionerna som finns med är kortfattade och ska inte heller ses som en komplett beskrivning av varje ord och för de vanliga orden så finns det ofta fler former som de kan användas i. Om du upptäcker att vi har missat någon grundläggande användning av ett visst ord så får du gärna höra av dig till oss.