Isz siveöl tégaz hazuj
Tarcsay Tamás
2004/06/10 08:00
2052 megtekintés
A cikk már legalább egy éve nem frissült, az akkor még aktuális információk lehet, hogy mára elavultak.
avagy Mit tud a nyelvstatisztika?A statisztika és a nyelvtudomány határán található tudományág alapjaival ismertet meg bennünket ez az írás. A Statisztika tanítása közben e területről is vehetünk példákat.

(Zsobrák Róbert cikke)

Rövid történet

A nyelvstatisztika nem tekinthető a nyelvtudomány önálló ágának, de eredményei sok területen hasznosíthatók. Ezen alkalmazások azután ösztönzően visszahatnak a nyelvstatisztika fejlődésére. Az írógép billentyűzetének vagy a nyomdai szedőgép betűállományának megtervezésében fontos szerepet játszottak az első fonéma- és betűstatisztikák. A gyorsírás kifejlesztésénél (amelyben a szótagoknak, szavaknak van külön jelük) szükséges volt arra, hogy tudjuk, mik a leggyakoribb szótagok, hangkapcsolatok. A Morse-abc is alkalmazza a statisztikát: az 'e' betű az angolban gyakori, ezért a jele rövid, egyszerű: '.'; a ritkább betűk kódjelei hosszabbak, bonyolultabbak. A nyelv esztétikájának, zeneiségének, ritmikájának vizsgálatánál is hasznosíthatók a szó-, szótag-, hangkapcsolat-statisztikák.

Elsősorban a nyelvtanulásban és a távközlésben alkalmazzák a gyakorisági szótárakat. Az egyik első legjelentősebb gyakorisági szótár Berlinben jelent meg 1898-ban. 1320 szakember ötévi munkája, mintegy 11 millió német szót tartalmaz. Ezt követték a világ nagy nyelveinek gyakorisági szótárai, a francia 1929-ben, az angol 1930-ban és 1940-ben.
Az informatika megszületése és a számítógép megjelenése új lendületet adott a munkának. A számítógépre jellemző, hogy gyorsan, pontosan dolgozik, mentesíti az embert a monoton munkától. Az első teljesen számítógéppel feldolgozott anyag a félmillió szót felölelő spanyol gyakorisági szótár volt 1964-ben. (A leggyakoribb szavak egészen prózai módon: a, az, egy, és, hogy, de...)
Simonyi Zsigmond emléktáblája

Alkalmazzák a nyelvstatisztikát a nyelvészet más területein is, a nyelvtörténetben, a nyelvrokonság kérdéseiben (Rokonaink-e a finnek?), a nyelvjáráskutatásban, a nyelvtipológiában, ismeretlen nyelvek, titkosírások megfejtésében.
Gyökerei visszavezethetők a talmudisták, ill. az alexandriai grammatikusok korára. Ezek Biblia-, ill. Homérosz-konkordanciái képviselték az első nyelvstatisztikai munkálatokat. A múlt század közepén Marbe egyik műve után, amely Geothe és Heine útleírásait hasonlítja össze, sok nyelvész igyekezett a nyelvi jelenségeket statisztikai adatokkal alátámasztani.

Magyar vonatkozásban elsőként Simonyi Zsigmondot (1895) lehet megemlíteni. Ő az 'íra' alak előfordulását vette számba, hasonlította össze Vörösmartynál és Aranynál, s ezzel támasztotta alá, hogy ez az alak kiveszőben van - és azóta valóban ki is veszett.
Később ugyanő a magyar írógépbillentyűzet kialakításával kapcsolatban foglalkozik a betűk és hangok előfordulási arányaival (1896). Mikes Ferenc (1935), ill. Tarnóczi Tamás (1942) több tízezer szó figyelembe vételével megállapították, hogy az 'e' és az 'a' hangok előfordulási aránya magas a magyarban:

  • Mikes 26.77% 22.34%
  • Tarnóczy 25% 23.6 %

Ezeket az eredményeket hasznosíthatjuk nem utolsósorban a nyelvi játékokban is. (Ezek közül nemrégiben - avagy régebben? a televíziónézés ilyen magas népszerűsége óta másképpen érezzük múlni az időt - a Szerencsekerék volt a legismertebb.)

Egy játék

Talán érdekesebb, mulatságosabb dolog az adatok alapján szöveget gyártani. Az ilyen véletlenszerűen készült, legtöbbször értelmetlen halandzsaszavakat, -mondatokat a távközléstechnika is használja vonalak tesztelésére. Nézzük, miről is van szó. A nyelvet a nyelvészetben, a matematikában is szokás úgy megközelíteni, mint bizonyos szimbólumok (betűk, fonémák) időben egymást követő sorozata. A magyar nyelvben 63 fonéma van.Ha ezek egymástól függetlenül, azonos valószínűséggel fordulnak elő, ilyen szöveget kaphatunk:

fünnyvvdzs agypnnöcstty nnytyh udzmm ggzzsöujj fflvvgyll lbhrrggö vvóasz gyaldzszzst ccgcddsstahcs.

Tudjuk, hogy nem minden betű egyformán gyakori, vannak ritkább és gyakoribb hangok. Az egyik legjelentősebb magyar szógyakorisági szótár Nemes Zoltán munkája, az 1941-ben megjelent Szóstatisztika egymillió szótagot felölelő újságszövegek alapján (amely 397 956 szót dolgozott fel) eredménye a következő (kerekítve):

a=10,08%; á=2,52%; b=0,63%; bb=0,27%; c=0,26%; cc=0%; cs=0,29%; ccs=0%; d=1,65; dd=0,04%; dz=0%; ddz=0%; dzs=0%; e=7,50%; é=3,31%; f=0,71%; ff=0%; g=1,99; gg=0,01%; gy=1,73%; ggy=0%; h=1,54%; hh=0,01% ; i=3,25%; í=0,43%; j=1,13; jj=0,01%; k=3,04%; kk=0,05%; l=3,90%; ll=0,49%; m=3,56%; mm=0,03%; n=3,75%; nn=0,11%; ny=0,41%; nny=0,03%; o=3,10%; ó=0,53%; ö=1,07%; ő=0,90%; p=0,84%; pp=0,01%; r=3,41%; rr=0,09%; s=3,55%; ss=0,02%; sz=1,34%; ssz=0,10%; t=4,50%; tt=0,45%; ty=0%; tty=0%; u=0,62%; ú=0,42%; ü=0,55%; ű=0,08%; v=1,67%; vv=0% ; z=2,81%; zz=0,01%; zs=0,02%; zzs=0%; szóköz=21,16%

Ha mindezt számitásba vesszük, ilyen szöveget nyerhetünk:

nká zralö gheoln j gy kva aéiae méhr nvlaasáoááslada sákoaeö alótre g alu sz olagyvöka in z eo ttmknz ö sédzmbbn oll ásztönlvttj etszuraémeszé íáslmne a szseüajk. Ebben talán egyetlen értelmes szó van: a.

Ez a szöveg mégis furcsának tűnik a különös magánhangzó-torlódások miatt, főleg a szavak elején, amelyek a magyarra nem jellemzők, idegenszerűek. Azzal is számolnunk kell, hogy például az 'l' után nem ugyanolyan gyakorisággal szokott következni az 'i', mint például a 'k'. Azaz ügyelnünk kell a betűpárok gyakoriságaira is.

Tarnóczy Tamás nem csak az egyes hangok előfordulásaival, gyakoriságaival foglalkozott, hanem Ady költői nyelve alapján elkészítette a magyar kettős hangkapcslolatok (ún. digrammák) statisztikáját is (1952).

Sőt, ha figyelembe vesszük azt is, hogy a magyar a magán- és mássalhangzók elhelyezkedése szempontjából milyen szavakat kedvel (a leggyakoribbak a CVCVC, VCVC, CVCCVC típusúak, C=consonans, mássalhangzó; V=vocalis, magánhangzó), még valósághűbb, még inkább magyarnak hangzó szövegeket gyárthatunk.

Íme: efézkos zogynésés aga alargyoj rés ser a kol aramga kenuz és u isz siveöl tégaz hazuj é gyész áz nöbbv asih á am tisz oz ik emi azész isz á alejmem afom ésip orpelág elenél omtea.

Felesleg a nyelvben

Michelangelo: Mózes

A diákok gyakran kíméletlenül kritikusak a felnőttek világával szemben. Ilyeneket szoktak mondani, hogy hát ezt meg miért csinálja, tanár úr, ez teljesen felesleges?! Vajon mit szólnának ahhoz, ha megtudnák, hogy az általuk is beszélt nyelv milyen sok felesleget tartalmaz? Ez a redundancia. A nyelv tehát igen szószátyár módon fejezi ki magát: dagályosabb, mint amennyire a közölt információ kódolására feltétlenül szükség volna.

A redundancia az a fölösleg az írásban vagy a szövegben, ami már nem hordoz újabb információt, a nem optimális kódolás eredményeképpen (az optimális kódolás az lenne ily módon, ha minden jelet egyenlő arányban használnánk ki). Ezért a redundanciának úgy is meghatározhatónak kellene lennie, hogy egy szövegből a betűk bizonyos hányadát véletlenszerűen kitörlik, és megfigyelik, hogy a kísérleti alany megérti-e a szöveget, vagy sem. Azaz, ha nem volna redundancia, nem lehetne Szerencskereket sem játszani. A redundancia céloka egyébként a feltételezések szerint az, hogy zavaró körülmények között is megtörténhessen az információ átadása, a kommunikáció.

Egy próba

K_zd_t_en _er_mté _s_en a_ eg_t és a _ölde_. A föld p_di_ kietle_ é_ p_szta va_a, és s_téts_g _ala a m_ly_ég _zín_n, é_ az Is_en Le_k_ l_beg _a_a a _i_ek fel_t_. És mo_d_ I_ten: L_gye_ vil_gos_ág: _s lő_ vi_ágo_s_g.

Próbálja meg kipótolni az Olvasó a hiányzó betűket! (A megfejtés: Mózes első könyve. A teremtésről. 1. rész, 1-3. versek.)
Abraham A. Moles Van azonban egy kis bibi: Abraham A. Moles a Tóra (a héber Biblia) 647 390 betűjéből egy 1000 betűből álló szövegrész alapján meghatározta a héber betűk relatív gyakoriságát, ez alapján a héber nyelv redundanciáját. A héber ábécé 22 betűs. A héber nyelv redundanciája 10.4%.

A francia nyelvben a betűk redundanciája 19% Moles alapján. A betűkitörölgetős-kitalálgatós módszerrel pedig ugyanannak a nyelvnek, a franciának a redundanciája 55%-nak adódott.

Különböző módszerek vannak tehát, és azok különböző eredményeket is adnak. A 19% és 55% közötti különbség onnan van, hogy az első módszer a nyelv legalacsonyabb szintjén mozog, a fonológia szintjén, de nem veszi figyelembe a morfológiát, a szerkezetet és a jelentést. A szövegfelismerő módszer pedig igen. (Sokan haragszanak is a jelenleg használt, "modern" szövegszerkesztő számítógépes programokra, helyesírásellenőrzőkre. Ezek hibái is ebből a tényből erednek: a nyelv legalacsonyabb szintjein mozognak, a fonológia szintjén, csak kicsit veszik figyelembe a morfológiát; a szerkezetet, a jelentést pedig egyáltalán nem.)

Claude E. Shannon vizsgálata alapján a redundancia az angol nyelv esetében 50%, azzal a módszerrel, amellyel a franciára 55% volt. Magyar nyelvre az én számításaim alapján a redundancia (úgy ahogy a franciáé 19 %-osnak bizonyult) 25.8%-osra jött ki.

Úgy tűnik, a Biblia nyelve, a héber a legtömörebb nyelv, ez tartalmazza a legkevesebb sallangot. Ezt követi mondjuk az angol. A magyar nyelv nem túl takarékos, a különbség fordításkor is megmutatkozhat: ugyanaz a szöveg az angolban sokkal rövidebb tud lenni, mint a magyarban.

(7589 betű és jel, de nem karakter)

Csatlakozz hozzánk!

Ajánljuk

European Schoolnet Academy Ingyenes online tanfolyamok tanároknak
School Education Gateway Ingyenes tanfolyamok és sok más tanárok számára
ENABLE program Program iskoláknak a bullying ellen
Jövő osztályterme Modern tanulási környezetekről a Sulineten