DEB: Demoverze lexikální databáze Pralex

Pro instalaci aplikace potřebujete prohlížeč Mozilla Firefox. Instalovat demoverzi. Demoverze se ve Firefoxu spustí z nabídky Nástroje -> Lexikální databáze, pro přihlášení použijte jméno i heslo demo.

Demoverze je ukázkou zpracování jednotlivých slovních druhů a typů hesel v lexikální databázi (LDB) Pralex. Jde o podrobně strukturovanou a specializovanou databázi slov, slovních tvarů a slovních spojení, která vznikala v lexikografickém oddělení ÚJČ AV ČR, v. v. i., v letech 2005–2011. Základní zpracování databázových položek vycházelo z požadavků výzkumného záměru Vytvoření databáze lexikální zásoby českého jazyka počátku 21. století. Zadavatelem tohoto projektu a vedoucím výzkumného záměru byl doc. RNDr. K. Oliva, Dr.

Naším základním úkolem bylo zejména shromáždění a roztřídění jazykového materiálu (dokládajícího dnešní úzus) a vybudování materiálové základny pro nový výkladový slovník, nikoli kompletní přepracování všech hesel včetně vyhodnocení současné lexikální normy. Jednotlivé položky databáze mají sloužit jako materiálový základ pro vypracování příslušných slovníkových hesel a představují tak východisko pro nový komplexní popis slovní zásoby současné češtiny. Položky databáze pracovně nazýváme hesla, i když mají jinou podobu než v tradičním výkladovém slovníku a neobsahují všechny údaje, které se ve slovnících uvádějí.

Při naplňování databáze jsme postupovali podle jednotlivých slovních druhů, souběžně s nimi probíhalo i zpracování vybraných víceslovných lexikálních jednotek (sousloví a frazémů), zkratek a značek a některých tříd vlastních jmen. Základní zpracování databázových položek bylo zaměřeno především na významovou strukturu (členění na významy) a popis oblasti významového užití lexikálních jednotek. S ohledem na množství zpracovávaného lexikálního materiálu a na zvolený způsob podrobného dokládání spojitelnosti lexikálních jednotek (i kvůli napjaté časové normě) nebylo možné se zabývat vyhodnocením všech aspektů významu, protože LDB Pralex je výlučně popisná, nikoli normativní (kodifikační). Stylové hodnocení hesel jsme řešili systémově pouze u některých typů lexikálních jednotek, např. u územně příznakových hesel, expresivitu jsme vyhodnocovali u zdrobnělin, ke komunikační nebo oborové charakteristice lze nalézt různé komentáře v poznámce autora. Otázku jazykové normy jsme také neřešili systematicky (spisovností a nespisovností jsme se zabývali např. u variant a u územně příznakových hesel). Nelze proto očekávat, že LDB Pralex splní všechny funkce připisované výkladovému slovníku.

V současné fázi zpracování reprezentuje LDB Pralex obrovský objem jazykového materiálu utříděného k jednotlivým významům a lexikograficky popsaného; je určena především pro lexikografii (jednojazyčnou i překladovou), resp. pro další vědecké účely, nemůže však být zpřístupněna široké veřejnosti (běžným uživatelům češtiny) předtím, než bude vytěžena pro plánované slovníkové výstupy. LDB obsahuje též velké množství zpracovatelských poznámek a komentářů; celek pokládáme za přípravnou fázi budoucího výkladového slovníku.

Pro demoverzi byla vybrána buď hesla, která představují typický příklad zpracování daného slovního druhu, nebo naopak určitý typ hesel, na který jsme se zaměřili podrobněji, protože má nějaká specifika.

Jádrem práce lexikografického týmu ÚJČ AV ČR, v. v. i., bylo z hlediska materiálových (textových) zdrojů vytěžování obsáhlých materiálových souborů – tří jazykových korpusů vytvořených v elektronické podobě v ÚČNK (SYN2000, SYN2005 a SYN2006PUB) a shromážděných v korpusu SYN (který všechny tři uvedené korpusy zahrnuje – od roku 2011 s názvem ORIG_SYN), a to jak pro potřeby budoucího výkladového slovníku, tak pro další výzkum současného stavu české slovní zásoby a její dynamiky, ale také pro aplikace češtiny v informačních technologiích. Proto jsme se zaměřili především na zachycení a vyhodnocení dnešní spojitelnosti (kolokability), která u každého heslového slova představuje úhrn kontextů potřebných pro vymezení významů a významových odstínů.

Z hlediska referenčních (slovníkových) zdrojů jsme při konkrétním zpracování jednotlivých položek databáze (hesel) nejvíce pracovali se Slovníkem spisovného jazyka českého (SSJČ), dále pak se Slovníkem spisovné češtiny pro školu a veřejnost (SSČ) a Velkým slovníkem cizích slov (VSCS), resp. Novým akademickým slovníkem cizích slov (NASCS), v relevantních případech i se slovníky speciálními: Co v slovnících nenajdete (CSN), Nová slova v češtině. Slovník neologizmů 1 a 2 (SN 1, SN 2), Slovník české frazeologie a idiomatiky (SČFI). Při práci s výkladovými definicemi jsme se (zejména u adjektiv) opírali též o hesla zpracovaná v Slovníku súčasného slovenského jazyka (SSSJ). Pro zkratky a zkratková slova byly dále použity příručky Zkratky, značky, akronymy (Kos, Z., 1983) a Slovník zkratek (Encyklopedický dům, 1994).

Heslář LDB Pralex byl budován postupně a je vymezen především ve vztahu k SSJČ; dále jsme pracovali též s Frekvenčním slovníkem češtiny (FSČ) a s různými dílčími soubory, na jejichž základě byl heslář systematicky doplňován (např. u zkratek, vlastních jmen a adjektiv od nich odvozených aj.). Nyní by mělo doplňování hesláře pokračovat směrem k novější slovní zásobě, abychom vytěžili i další zdroje, které máme k dispozici v elektronické podobě.

Více:

ZÁKLADNÍ ZPRACOVÁNÍ HESEL V LDB PRALEX

1. Údaje platné pro celé heslo

Obrazovka Heslář

Lemma a jeho varianty

Homonyma

Statistické údaje

Slovnědruhová charakteristika

Gramatické charakteristiky

Propojování hesel

2. Významová struktura hesla (členění na významy)

Zpracování jednotlivých významů

Výklad významu

Významové odstíny a přenášení významu

3. Příkladová část hesla (Exemplifikace)