Korpusi i gjuhës shqipe (2011–2016)

Vini re! Korpusi tashmë gjendet në platformën e re!

Të dashur përdorues!

Kemi kënaqësi t’ju prezantojmë versionin e ri të Korpusit Nacional të Gjuhës Shqipe bazuar në platformën tsakorpus, i cili ndodhet në: http://albanian.web-corpora.net/. Në të ardhmen, versioni i ri do të zhvillohet dhe plotësohet në mënyrë aktive, ndërsa versioni i vjetër i publikuar në këtë uebfaqe, nuk do të zhvillohet më. Ne ju sugjerojmë të përdorni versionin e ri dhe të na informoni për gabimet e mundshme në të.

Në këtë website gjendet Korpusi Nacional i Gjuhës Shqipe, i cili po përmban rreth 20 000 000 përdorime fjalësh. Veprat letrare dhe tekstet publicistike janë furnizuar me një sistem përdorues-miqësor të anotimit morfologjik i cili del si grumbulli i shënimeve të atribuara te fjalëformat e veçanta. Në të ardhmën planifikohet vënia e tipeve të tjera të anotimit në Korpusin.

Korpusi dedikohet për ata që kanë interes për çeshtje të ndryshme të lidhura me gjuhën shqipe dhe mund t’u japë informatën gjuhëtarëve profesionale dhe të gjithëve që interesohen për shqipen dhe historinë e saj për shkak të llojit të punës ose thjeshtë nga kurioziteti. Një Korpus reprezentativ me anotimin e përshtatshëm ju lejon të përpunoni sasi të mëdha të materialit gjuhësor të furnizuar me përkthimin ose me ndonjë informatë tjetër lingvistike. Materiali i mbledhur në Korpusin mund të përdoret në studime shkencore për leksikun dhe gramatikën, ashtu edhe për gjurmime në fushën e ndryshimeve që ka pësuar gjuha shqipe gjatë shekujve.

Ju vëmë në dijeni se për momentin Korpusi Nacional i Gjuhës Shqipe është në përpunim e sipër. Baza tekstuale dhe fjalori gramatikor po zgjerohen së bashku me zhvillimin e anotimit morfologjik të teksteve. Në të ardhmen kemi ndër mend të fillojmë me përpunimin dhe eliminimin e rasteve të ambiguitetit në analizën morfologjike në Korpusin. Krijuesit e Korpusit do të marrin në shqyrtim çështje të tilla si përpunimi i nënkorpusit të teksteve gojore, plotësimi i bazës tekstuale me tekstet dialektore dhe me tekstet e shkruara gjatë periudhave të ndryshme të historisë së gjuhës shqipe, etj.

Për Korpusin tonë ne kemi adaptuar sistemin e kërkimit të Korpusit Nacional të Armenishtes Lindore (EANC). Në përpunimin e Korpusit marrin pjesë gjuhëtarët nga Sankt-Petërburgu: Maria Morozova, Marina Domosileckaja, Aleksandër Rusakov, Ekaterina Bernackaja, Anastasia Sidko, Anna Konovalenko. Maksim Makarcev (Moskva), Darja Alekseeva (Sankt-Petërburg), Varvara Diveeva (Sankt-Petërburg) dhe Qerim Ondozi (Prishtinë) morën pjesë në zgjedhjen e teksteve për Korpusin. Sistemin e analizës morfologjike UniParser e ka përpunuar Timofej Arkhangelskij (Moskva). Mikhail Daniel (Moskva), i cili merr pjesë në një varg projektesh në fushën e krijimit të Korpuseve gjuhësore, ua jep krijuesve të Korpusit ndihmën e përhershme konsultative. Krijuesit falënderojnë shtëpitë botuese “Onufri” dhe “OM” për ndihmën e tyre në grumbullimin e teksteve për Korpusin.

Korpusi Nacional i Gjuhës Shqipe është krijuar me mbështetjen financiare të Programit për kërkimet fundamentale “Corpus linguistics” të miratuar nga Presidiumi i Akademisë së Shkencave të Rusisë.