Email: deb@aurora.fi.muni.cz   

ZÁKLADNÍ ZPRACOVÁNÍ HESEL V LDB PRALEX

1. Údaje platné pro celé heslo

Východiskem pro práci s hesly v LDB Pralex je obrazovka Heslář. Všechna hesla (položky databáze) se zde zobrazují abecedně pod sebou formou tabulky, v níž jsou barevně odlišeny jednotlivé typy hesel (hesla jednoslovná, víceslovná, vícesložková, odkazová, podslovní části, zkratky a značky); každé heslo je uvedeno na samostatném řádku tabulky s nejdůležitějšími údaji (heslo – homonymie – rod – slovní druh – varianty – počet významů – definice) uvedenými ve sloupcích a s možností třídění podle těchto sloupců (vzestupně, sestupně nebo bez třídění – kliknutím na název příslušného sloupce lze v demoverzi např. abecedně setřídit všechny slovní druhy a typy hesel).

Z Hesláře je přístup k jednotlivým položkám databáze
1) i k většině funkcí: vyhledávání (jednoduché nebo pokročilé2) ), tisk (v demoverzi není aktivní), slovníkový vyhledávač DEBDict, rozbalení/sbalení připojených hesel aj.

Zpracování databázových položek v LDB Pralex je zaměřeno na tyto části lexikografického popisu:

Lemma a jeho varianty: V databázi se jako lemma uvádí zásadně jediný tvar, všechny varianty jsou uvedeny samostatně. Jako samostatné položky databáze byly zpracovávány jednotky jednoslovné (včetně vlastních jmen, zkratek a značek) i víceslovné (sousloví a frazémy).

Variantnost je jev, se kterým jsme se při zpracování slovníkových i korpusových dat setkávali velice často, a to u hesel jednoslovných i víceslovných. Varianty se vyskytují u různých slovních druhů – viz např. u substantiv antropocentrismus / antropocentrizmus; axiom / axióm / axioma / axióma; brýle / brejle; dabing / dabink; smůla / smola), u adjektiv cihelný / cihelní, u zájmen cokoli / cokoliv, u číslovek jedenadvacátý / jednadvacátý, u citoslovcí adié / adieu – i u dalších typů hesel: u zkratek např. s. I a str., cf. a cfr.), u sousloví hladká ančka a hladká Ančka, u frazémů má úcta / moje úcta; smůla se /mu/ lepí na paty a lepí se na /něj/ smůla.

V LDB Pralex jsou pracovně registrovány téměř všechny variantní podoby uvedené v SSJČ a dalších slovnících (kromě variant označených už v SSJČ jako zastaralé) a jsou vyhodnoceny z hlediska dnešní doloženosti v korpusu (zatím bez ohledu na to, zda jde o varianty hláskové, grafické, pravopisné či slovotvorné) – zaměřili jsme se především na dnešní stav úzu tak, jak je zachycen v korpusu ORIG_SYN; celý soubor variant je po stránce materiálové připraven k dalšímu vyhodnocování a okomentování z nejrůznějších aspektů – jak z hlediska časové osy, stylové příznakovosti, dnešní kodifikace či lexikální normy, tak i z hlediska dalšího výběru pro zařazení do slovníků různého typu, rozsahu a zaměření3) .

Všechny variantní podoby daného lemmatu jsou zpracovány paralelně, protože jde o stejný význam/významy4) , a také proto, že všechny informace uváděné v rámci jednoho hesla se musí – na rozdíl od slovníků – v databázi vztahovat k jediné podobě lemmatu5) ; platí to jak pro metajazyk výkladu, tak i pro doklady uváděné v příkladové části hesla (Exemplifikaci). Ostatní variantní podoby byly zapsány na Seznam variant a hypertextově propojeny mezi sebou, takže po kliknutí na příslušnou položku uvedenou na Seznamu variant lze prohlížet všechny variantní podoby najednou a porovnávat je mezi sebou. Ke každé takto zpracované dvojici, trojici atd. bylo založeno i tzv. zastřešující odkazové heslo pro varianty, v němž pořadí uvádění variant přihlíží k současné pravopisné kodifikaci6) i stylové příznakovosti, srov. např. tato odkazová hesla: axiom i axioma; axióm, axióma (var.); seizmograf i seismograf (var.).

Podheslí (za číslem významu) se vyplňuje v případě, že se v daném významu užívá jiný tvar, než jaký je uveden v lemmatu – zejména u jmen pomnožných (viz např. u hesla lup II: lupy), nebo tehdy, když se v rámci daného významu vykládá víceslovná lexikální jednotka, např. stolní tenis jako 2. význam (V2) u hesla tenis. Podobně jsme postupovali i u frazémů (frazeologicky vázaných významů).

Homonyma jsou označena římskou číslicí7) (včetně homonym slovnědruhových) a pracovně – výhradně pro potřeby LDB Pralex – jsou očíslována v pořadí podle slovních druhů (počínaje substantivy a konče zkratkami). Všechna homonyma v rámci dané řady jsou pomocí Seznamu homonym hypertextově propojena mezi sebou, aby se dala prohlížet zároveň (viz např. abonentka I, II; lup I, II, III; můj I, II). U zkratek se homonymie projevuje v mnohem větší míře než u jednoslovných výrazů z jednotlivých slovních druhů, neboť plné znění zkratky je jejím identifikačním rysem. Zkratky a značky pocházejí z různých oborů a denotát, který označují, je zcela odlišný (srov. např. s. I – strana, stránka, s. II – soudruh, s. III – soudružka, s. IV – sestra).

U všech položek databáze je v poli Zdroj pro heslář uveden údaj, na základě kterého zdroje (referenčního a materiálového) bylo dané lemma zařazeno do hesláře. V tomto poli je registrován první výskyt daného lemmatu ve výkladových slovnících obecných (počínaje SSJČ) i speciálních a dále výskyt v materiálových zdrojích, se kterými jsme pracovali (buď podle FSČ, nebo výskyt v korpusu ORIG_SYN)8) . Pokud je tedy dané lemma registrováno v některém slovníku a zároveň doloženo v korpusu, jde o kombinaci dvou údajů („FSČ + slovník“ – viz např. achát: fsc+ssjc; puk I: fsc+ssjc; případně „slovník + SYN“ – viz např. axióma: ssjc+syn; sedm: ssjc+syn; hihihi: ssjc+syn); u hesel v korpusu nedoložených je uveden jen údaj o 1. výskytu ve slovníku (počínaje SSJČ – viz např. celula: ssjc; puk II: ssjc; začít od abecedy: ssjc); u hesel neregistrovaných v žádném referenčním zdroji se naopak objeví jen údaj o výskytu ve FSČ9) (arciopat: fsc), případně v korpusu (achátově: syn).

Většina hesel vybraných pro demoverzi má zdroj fsc+ssjc (aby byla opora pro výklad a heslo bylo dostatečně doloženo); s jiným zdrojem viz např. autopříslušenství: fsc+ssc; autorskoprávní: csn+syn. Různé údaje o zdroji se uvádějí nejčastěji u variant (protože do hesláře LDB Pralex byly zařazeny jak varianty registrované v různých slovnících, tak i další nalezené v korpusu – srov. např. artérie: fsc+ssjc / arterie: ssc+syn; axióm: fsc+ssjc / axiom: fsc+ssc / axióma: ssjc+syn / axioma: vscs+syn), a dále u homonym (abonentka I: ssjc+syn, abonentka II: vscs+syn; puk IV fsc+ssc), u názvů osob a jmen přechýlených (abonent: fsc+ssjc, abonentka I: ssjc+syn; psychoterapeut: fsc+ssjc, psychoterapeutka: fsc+vscs) atd.

V Hesláři se každé lemma, jeho varianty, římská číslice u homonym a zdroj pro heslář zobrazují v samostatných sloupcích tabulky.

Statistické údaje byly do LDB Pralex vloženy podle Frekvenčního slovníku češtiny, tj. na základě korpusu SYN2000. Jde-li ve FSČ (u variant a homonym) o společnou lemmatizaci dvou či více forem, v LDB Pralex jsou statistické údaje zapsány ke všem relevantním podobám lemmatu a okomentovány v Poznámce ke statistice(viz např. u variant brýle/brejle: Stat. údaje platí pro brýle/brejle; u homonym lup I–III: Stat. údaje platí pro lup I–III; u hesla puk: Stat. údaje platí pro puk I, III a IV10) ).

U homonym a variant v korpusu ORIG_SYN málo doložených jsme kromě toho zapisovali údaj o celkovém počtu dokladů v korpusu do Celkové poznámky k exemplifikaci, viz např. u hesla kovbojka I: v orig_syn cca 25x; podobně jsme počet výskytů uváděli i u ostatních málo doložených hesel, i když nemají statistiku podle FSČ (viz např. u hesla abonentka I: orig_syn 2x).

Slovnědruhová charakteristika se zásadně uvádí u všech slovních druhů (tj. na rozdíl od slovníků i u podstatných jmen, aby byla zajištěna možnost jejich vyhledávání a třídění). Číslovky a zájmena v LDB Pralex vymezujeme shodně se SSJČ; kromě těchto tradičních slovnědruhových kategorií jsme pracovali také s kategoriemi čistě sémantickými: zachycovali jsme přítomnost rysů deixe (ukazování, odkazování) a kvantifikace (udávání množství) ve významu lexikálních jednotek11) . U zájmen a číslovek je uveden i jejich druh (zájmena: osobní, osobní zvratná, přivlastňovací, přivlastňovací zvratná, demonstrativní, tázací, vztažná, neurčitá, totalizační, záporná; číslovky: základní, řadové, druhové, souborové, úhrnné, násobné, neurčité) a primární syntaktická funkce (substantivní, adjektivní, adjektivní i substantivní).

U příslovcí je určen jejich druh (místa, času, způsobu, míry, zřetele, příčiny) a syntaktický nebo sémantický typ (predik.; kvant., deikt.); také citoslovce jsou zatříděna k dílčím typům (onomatopoické, pocitové, kontaktové).

Gramatické charakteristiky jsou uváděny diferencovaně podle slovních druhů. U substantiv je např. číslo určováno u pluralií tantum u nich se uvádí údaj pouze mn. č. (viz např. u hesla brýle, gajdy aj.). U substantiv s neúplně vyvinutou opozicí singulár – plurál, v jejichž paradigmatu převažují buď singulárové, nebo naopak plurálové tvary, bylo třeba rozhodnout o tom, zda bude lemma zapsáno v singuláru či plurálu; podle toho je pak u příslušného významu uveden buď údaj zprav. mn. č. (v takovém případě se i lemma v podheslí uvádí v plurálu – viz např. u hesla lup II lupy: zprav. mn. č.; buben: 4. význam bubny: mn. č.), nebo naopak zprav. jedn. č., pouze jedn. č. atd.

V některých heslech je vyplněna Poznámka ke gramatice (u substantiv viz např. 2. význam u hesla kopeček). U zájmen (na rozdíl od ostatních slovních druhů) jsou zde uváděny souhrnné gramatické informace umístěné v SSJČ před prvním významem (a platící tedy pro celé heslo), protože gramatický popis je u některých zájmen v SSJČ velmi podrobný a je užitečné jej využít (viz např. já II, můj II). Pokud má zájmenné lemma v nominativu dva a více heteronymních tvarů, jsou registrovány v položce Paradigma. Jiné morfologické údaje jsme zatím neuváděli12) .

V Hesláři se z gramatických údajů zobrazuje v samostatném sloupci pouze rod.

Propojování hesel: V relevantních případech jsou hesla propojena mezi sebou pomocí tzv. Seznamů, které umožňují hypertextové odkazy (prokliky), a tudíž i snadné přechody mezi hesly, otevírání více hesel najednou na ploše obrazovky a jejich paralelní prohlížení. Tímto způsobem – pomocí hypertextových odkazů umístěných v jednotlivých seznamech – jsme zachycovali nejrůznější systémové vztahy, např. synonymii (viz např. u hesel lehká droga a měkká droga) či antonymii (viz např. hesla optimista a pesimista), ale i vztah mezi jednoslovnými a víceslovnými hesly – frazémy či souslovími a jejich komponenty (např. u hesla hrát první housle a housle; černý kašel a kašel aj.), stejně tak jako vztahy mezi apelativy a proprii (Adam a adam, Ančka a ančka), mezi zkratkami a jejich plnými názvy zpracovanými jako samostatná hesla (Co a kobalt) apod.13)

Slovotvorné vztahy jsou naznačeny hypertextovým propojením základových slov a slov od nich odvozených, viz např. abeceda + abecední + abecedně; autor + autorka + autorský + autorsky; housle + houslista + houslistka + houslový + houslově.

Vztah mezi jednoslovnými a víceslovnými hesly je naznačen i na obrazovce Heslář: je-li některé jednoslovné heslo zároveň komponentem víceslovné lexikální jednotky (VLJ), pak je daná VLJ v Hesláři uvedena nejen abecedně, ale též připojena k danému komponentu pomocí rozklikávacího křížku (k rozbalení připojeného seznamu VLJ slouží v Hesláři tlačítko Rozbalit/sbalit) – viz např. u hesel housle: připojeno první housle a hrát první housle; abeceda: připojeno Lormova (doteková) abeceda a Morseova abeceda.


POZNÁMKY:


1   Hesla se otevírají dvojitým kliknutím na příslušný řádek tabulky.

2   Vyhledávat lze podle zadaných atributů a jejich kombinací: podle jednotlivých písmen abecedy, řetězce znaků, zakončení; podle typu hesla, slovního druhu, definice, některých vyplněných polí, podle negativních filtrů atd. V demoverzi funkce pokročilého vyhledávání není aktivní.

3   Na velkém objemu variantnosti zachycené v LDB Pralex podle SSJČ, dalších slovníků a dnešního stavu zachyceného v korpusu mají podíl jednak – u pravopisných variant – všechny změny pravopisu, které v češtině proběhly od počátku vydávání SSJČ a které všechny výkladové slovníky pochopitelně reflektují, až po úpravy provedené v posledním vydání PČP (1993), jednak i fakt, že se v korpusu občas vyskytují i grafické podoby, které buď dnešní kodifikaci neodpovídají, nebo – např. u slovotvorných variant (odchovankyně / odchovanka) – s ní nesouvisejí. Zachycení variability jazyka bývá zdůrazňováno i při tvorbě jazykového korpusu (Čermák 1995).

4   Ojediněle se stává, že se u polysémního hesla variantnost netýká všech významů stejně. srov. např. smůla a smola.

5   Předpokládáme, že díky tomuto samostatnému uvádění různých variantních podob bude snazší vybrat pro slovníkové zpracování ty podoby, které jsou dnes ještě živé a frekventované, anebo kodifikované.

6   S oporou o Internetovou jazykovou příručku (IJP).

7   Římská číslice není pevnou součástí lemmatu, ale uvádí se v samostatném poli, aby bylo možné všechna homonyma vyhledat jako soubor.

8   K ověřování zpracovávaných lexikálních jednotek v uvedených slovnících používáme jejich elektronickou podobu přístupnou v rámci slovníkového prohlížeče DEBDict (Dictionary Editor and Browser), případně na CD-ROM z nakladatelství LEDA.
Hesla, která byla dostatečně doložena už v korpusu SYN2000 a zároveň měla výklad v SSJČ, označujeme údajem „fsc+ssjc“; další hesla doplněná do hesláře LDB Pralex podle SSJČ a v korpusu doložená označujeme „ssjc+syn“; hesla zařazená do hesláře podle SSJČ a v korpusu nedoložená jsou označena jen „ssjc“.

9   U hesel, u nichž je uvedeno „fsc“, se uvádějí statistické údaje, které máme k dispozici podle elektronické verze FSČ – EFES.

10 Homonyma puk II a puk V nejsou doložena.

11 Deiktické výrazy jsou širší skupinou než zájmena (patří k nim např. také zájmenná příslovce) a kvantifikátory nelze ztotožňovat s číslovkami; některé kvantifikátory k číslovkám nepatří (hodně, dost) a naopak některé číslovky neplní funkci kvantifikační (číslovky řadové).

12 Vycházeli jsme z toho, že prostřednictvím DEBDictu lze pracovat přímo s morfologickým analyzátorem AJKA, a tudíž není nutno tyto údaje vyplňovat u všech hesel již nyní; podrobné poučení může uživatel nalézt i v Internetové jazykové příručce ÚJČ.

13 Další příklady propojování hesel jsou uvedeny výše u variant a homonym.