Skip to main content
Entropija v slovenskih leposlovnih besedilih


Avtor: Primož Jakopin
Leto: 2002


Delo prinaša kvantitativni opis dveh vzorcev slovenskih leposlovnih besedil, skupaj dolgih 3.100.000 besed, in najpomembnejše parametre znakovnih n-terčkov, od enojčkov do štiriindvajseterčkov, ocenjena je tudi zgornja meja entropije v tovrstnih besedilih. Prvi vzorec vsebuje besedila 60 del 41 avtorjev, od Ivana Cankarja do Ivana Zorca, 46 izvirnih in 14 prevodov, z letnico izida od 1858 do 1996 in v skupnem obsegu 2.700.000 besed, drugi vzorec pa vsebuje celoten opus Cirila Kosmača, 52 del, objavljenih med letoma 1931 in 1988, s 400.000 besedami. Oba vzorca skupaj predstavljata med 0,5 % in 1 % celotne slovenske leposlovne produkcije.

V prvem delu knjige je naveden statistični opis osnovnih gradnikov besedila, črk in posebnih znakov, besed in povedi. Med drugim je mogoče izvedeti, da so najpogostejše črke predvsem samoglasniki oz. sonanti in soglasnik t(e, a, i, o, n, l, r, s, j in t), da so najpogostejši glagoli biti, reči, imeti, vedeti, videti, iti, stopiti, začeti in pogledati, najpogostejši samostalniki roka, glava, oči, otrok, dan, hiša, leto, vrata, beseda, oče, človek in glas ter najpogostejši pridevniki star, velik, lep, dolg, črn, bel, dober, živ, mlad, težek, širok in hud.

Entropija, pojem, za katerega marsikdo ne ve prav, kam bi ga dal, je v tem primeru mera za nedoločenost sistema sporočil, kamor sodijo tudi besedila. Večja kot je entropija besedila na znak (črko, presledek, ločilo), manj črk porabimo za njegov zapis. V delu je za slovenska leposlovna besedila podana ocena 2,2 bita na znak, kar je za desetino več od ocene za besedila v angleškem jeziku (2,0 bita na znak).

Ključne besede
avtomatska obdelava podatkov
jezikovna analiza
leposlovje
računalniška lingvistika
slovenska književnost
slovenščina
statistične metode
uporaba računalnikov
Možnosti

Dodaj med priljubljene

Natisni

Pošlji po mailu

QR