Email: deb@aurora.fi.muni.cz   

ZÁKLADNÍ ZPRACOVÁNÍ HESEL V LDB PRALEX

3. Příkladová část hesla (Exemplifikace)

Příkladová část hesla (Exemplifikace) je u všech databázových položek v LDB Pralex rozčleněna na jednotlivé bloky. Zvlášť se uvádějí tzv. upravené doklady (zejména u substantiv, adjektiv aj. autosémantik), které představují minimální syntagmata až vybrané části vět, dokládající celou oblast významového užití heslových slov a jejich jednotlivých významů. V dalším samostatném bloku jsou vybrány větné (citátové) doklady (tj. celé věty s uvedením zdroje, datace a typu textu).

Pro každý slovní druh a typ hesel je Exemplifikace specifická a má jinou strukturu. Nejpodrobněji jsme se zaměřili na zpracování podstatných jmen, přídavných jmen a příslovcí.

U zájmen, číslovek, předložek, sousloví, vlastních jmen a zkratek jsme pracovali pouze se dvěma výchozími bloky, Upravené doklady a Větné doklady, přičemž v některých případech byly dále členěny podrobněji (např. u zkratek jsme rozdělovali Větné doklady na Větné doklady k užití a Větné doklady k definici). Pro citoslovce jsou relevantní pouze Větné doklady. U některých slovních druhů (slovesa, spojky a částice) z časových i jiných důvodů příkladová část hesla zpracována nebyla.

Exemplifikace v LDB Pralex je zaměřena na zachycení relevantních dokladů, tedy příkladů na konkrétní užití, a to jak k významům předem založeným podle SSJČ, tak i k dalším významům identifikovaným na základě korpusových dokladů1) . Exemplifikace tak představuje širší materiálový základ, ze kterého se pak budou vybírat typické příklady pro nové slovníkové zpracování. Protože podrobné zpracování příkladové části jednotlivých položek databáze ukazuje celou šíři spojitelnosti (kolokabilitu) heslových slov, kolokace zde uvedené mohou být také využity pro diferenciaci jednotlivých významů v počítačových aplikacích.

Pro třídění dokladů z korpusu jsme používali nástroje Word Sketch Engine a Bonito. Word Sketch Engine (WSE) je program propojený s Bonitem2) sloužící k zobrazení spojitelnosti daného slova na základě gramatických charakteristik, jimiž je korpus ORIG_SYN doplněn – výsledkem po zadání příslušného lemmatu je seznam kontextových slov, která se k danému lemmatu vážou, roztříděných do tabulek podle jednotlivých gramatických kategorií. Spojení, která vygeneruje WSE, je však nutno vyhodnocovat s určitou dávkou obezřetnosti, protože se někdy jedná o chybná spojení – náhodné pozice slov, které netvoří lexikální syntagma, nebo o chybnou lemmatizaci. WSE jsme používali pro výběr a podrobné třídění minimálních kontextů (upravených dokladů) k jednotlivým významům. Bonito je korpusový manažer, v němž lze korpus prohledávat. Prostřednictvím Bonita jsme vybírali tzv. citátové doklady (v průměru 3–5 větných příkladů s uvedením zdroje)3) .

Podrobnost zpracování příkladové části hesla ukazuje širší obraz syntaktické i sémantické spojitelnosti daného lexému; vybírali jsme spojení běžná, v úzu hojně zastoupená, i příklady na přenesené užití (viz např. u hesla fešák – o autech). V rámci každého exemplifikačního bloku jsme postupovali částečně na základě frekvence, částečně na základě sémantiky tak, aby byly vedle sebe uvedeny kolokace z jedné lexikálněsémantické skupiny. Pokud jsme nenašli žádné relevantní doklady, příslušný blok zůstal prázdný.

Ustálená spojení vyhodnocená jako víceslovné lexikální jednotky potřebující výklad se už v Exemplifikaci neuvádějí, protože byly rovnou zapsány na Seznam sousloví nebo Seznam frazémů, a zároveň založeny a zpracovány jako samostatné položky databáze. Ve speciálním bloku Exemplifikace s názvem Ustálená spojení – Návrhy na samostatné zpracování jsou pak registrovány další potenciální VLJ identifikované v korpusu.

U frazeologicky vázaných významů či významů vázaných v SSJČ jen na sousloví zůstane po samostatném zařazení těchto frazémů / sousloví do hesláře u jednoslovného hesla celá exemplifikace sbalena (celý význam pak slouží jen jako odkaz na samostatné zpracování, srov. výše uvedený stolní tenis).

Pokud bylo v korpusu nalezeno jen několik dokladů, které signalizují významové posuny oproti stavu registrovanému v předchozích slovnících, ale nedají se zařadit k žádnému registrovanému významu (ani ošetřit dovýkladem), jsou uvedeny v poli Doklady pro nové významy nebo VLJ, aby bylo možné je vyhodnotit později po dohledání příkladů v jiných zdrojích. Totéž se týká potenciálních VLJ identifikovaných v korpusu, u kterých zatím nebylo rozhodnuto, zda budou zpracovány v samostatném hesle (viz např. u hesla delegát, delegátka, kopec, nafta).

Z hlediska frekvence výskytu se v korpusu setkáváme s lemmaty doloženými velmi hojně (auto, autobus, autokar, automobil, horolezectví, hospoda I, houslista, houslistka, lahvička, národohospodář, nostalgie), středně často (egyptologie, fotolaboratoř, levobok, mořeplavec, národohospodářství), i velice málo (adam, brýličky). Podle toho by se měl lišit i rozsah zpracování příkladové části hesla. U hesel s malou doložeností jsme zaznamenávali celkový počet výskytů v korpusu do Celkové poznámky k exemplifikaci, např. brýličky orig_syn 17x. Často bývá výrazný rozdíl v doloženosti jednotlivých variant, zejména pravopisných (autocensura/autocenzura), i ve frekvenci výskytu mužských názvů osob a jejich ženských protějšků (národohospodář – doloženo hojně, zatímco národohospodářka není doložena vůbec; srov. též např. stolní tenistastolní tenistka). Velký rozdíl se ukazuje i v doloženosti jednotlivých významů polysémních hesel (viz např. lup I, mezera).

Pokud se k některému z významů hesla nepodařilo v korpusu dohledat žádné relevantní příklady, je zaškrtnut údaj Nepodařilo se doložit v orig_syn; v takovém případě se celá Exemplifikace k danému významu sbalí a zůstane vidět pouze výkladová definice a Pozn. k výkladu s kompletní informací o slovníku, v němž bylo dané heslo zpracováno.

Nedoložené může být celé heslo, jak monosémní (celula, národohospodářka), tak i polysémní (viz např. u hesla puk II – oba významy nedoloženy), nebo jen některý význam (viz např. u hesla puk I – ze 4 významů doložen pouze jeden), případně víceslovná lexikální jednotka (začít od abecedy).



POZNÁMKY:

1   Exemplifikace je vždy vztažena ke konkrétní formální podobě a dokládá tak reálné fungování variantních podob lexikální jednotky.

3   U každého větného dokladu jsou uvedeny informace o zdroji v této podobě: opus.rokvyd (rok vydání), opus.txtype (typ textu, tj. např. román, publicistický text, text vědeckonaučné literatury apod.), opus.id (identifikační kód zdrojového textu).