YaratishKollejlar va universitetlar

Korpus Tilshunoslik nima?

Faqat oldin bir necha o'n yillar til tadqiqotlar avtomatlashtirish, olimlar faqat orzu edi. ish, eng muhimi, katta ehtimollik "beparvo" xatolar bor, u talabalar, bir qator jalb qo'l bilan amalga, va - barcha bu uzoq, uzoq vaqt oldi.

kompyuter texnologiyalari rivojlanishi tezroq kattaligi tartibi bo'yicha tadqiqotlar o'tkazish mumkin bo'lib, bugungi kunda bilan til o'rganish eng istiqbolli yo'nalishlaridan biri bo'lgan korpus tilshunoslik hisoblanadi. Uning asosiy xususiyati maxsus tarzda yagona ma'lumotlar bazasiga kirib matn axborot, ma'lumotlar katta hajmdagi foydalanish hisoblanadi va belgilangan tanani chaqirdi.

Bugungi kunda leksik birliklar milliardlab o'nlab millionlab yoyilgan turli til materiallari asosida turli maqsadlarda yaratilgan ko'plab binolar bor. Bu yo'nalish istiqbolli deb e'tirof va dastur va tadqiqot maqsadlari sari muhim taraqqiyot ko'rsatadi etiladi. Mutaxassislar, bir yo'li yoki tabiiy tili bilan boshqa diling, u kamida bir asosiy darajada matnlar tanasi bilan tanishish tavsiya etiladi.

Korpus tilshunoslik tarixi

bu munosabatni shakllantirish o'tgan asrning 60-yillarida Jigarrang tan da Amerika Qo'shma Shtatlari yaratish bilan bog'liq. yig'ish so'z shakllarini 1 million matnlari ichiga oladi, va bugungi kunda bu hajmi tanasi butunlay raqobatbardosh bo'ladi. Bu kompyuter texnologiyalarini rivojlantirish sur'atlar, shuningdek, yangi tadqiqot resurslari uchun o'sib borayotgan talablariga tufayli bo'ladi.

Korpus tilshunoslik to'liq va mustaqil intizom kirib paydo 90 yilda, matnlar bir yig'ish chiqilgan va tillarni o'nlab uchun belgilangan. Bu davrda u, masalan, Britaniya Milliy korpus 100 million ma'lumoti, yaratilgan.

tilshunoslik, bu sohada rivojlanishi bilan, matn hajmi ko'proq va ko'proq bormoqda (va lug'at birliklarining milliardlab etib), va tartibi, yana turli aylanib bormoqda. Bugungi kunda Internet kosmik yozilgan jasadi topilgan va tili, xorijiy tillarni biladigan, va o'quv-yo'naltirilgan badiiy yoki ilmiy adabiyotlar, shuningdek, ko'plab boshqa turlari, og'zaki bo'lishi mumkin.

uy-joy nima

tana tilshunoslik tana turlari bir necha sabablarga ko'ra taqdim qilinishi mumkin. Intuitiv, tasnifi uchun asos (rus, nemis) matn tilini (tijorat ochiq manba, yopiq,) kirish tartibi, manba materiallar (fantastik, hujjatli, ilmiy, jurnalistika) tarziga bo'lishi mumkin.

Qiziqarli yo'l og'zaki tilining materiallari ishlab chiqaradi. Bunday so'z qasddan qayd respondentlarning uchun sun'iy muhitini yaratish va natijada moddiy "o'z-o'zidan" deb atash mumkin emas, chunki, zamonaviy korpus tilshunoslik boshqa yo'l oldi. A ko'ngilli bir vositasi bilan jihozlangan, va kun davomida u ishtirok etayotgan barcha suhbatlar, bir rekord ishlab chiqarilmoqda. Odamlar atrofida, albatta, kundalik suhbat davomida ilm-fan rivojiga hissa bilish mumkin emas.

Keyinchalik ma'lumotlar bazasida saqlanadi rekord qabul va bosma matn nusxa turi bilan birga etiladi. Shunday qilib, bir og'iz kundalik nutq uy-joy yaratish uchun zarur mumkin belgilarini bo'ladi.

ariza

Iloji tilining foydalanish, va, ehtimol binolar matnlar foydalanish. Usullari bo'lishi mumkin tilshunoslik tanasi qo'llash:

  • kalit aniqlash dasturini yaratish, keng, o'z navbatida, saylovchilar va mijozlar ijobiy va salbiy hissiyot kuzatib uchun siyosat va biznes ishlatiladi.
  • lug'atlar va tarjimon ulanish axborot tizimi o'z faoliyatini yaxshilash uchun.
  • Til birligi, yaqin kelajakda o'zgarishlar, uning rivojlanishi va bashorat tarixi aql hissa tadqiqot vazifalarni turli.
  • , Morfologik sintaktik, semantik va boshqa xususiyatlari asosida axborot-qidiruv tizimini ishlab chiqish.
  • turli til tizimlari va boshqalar optimallashtirish.

binolar foydalanish

shunga o'xshash resurs tipik qidiruvi bilan interfeysi va axborot bazasini qo'ng'iroq qilish uchun so'z bir so'z yoki kombinatsiyasini kiritish uchun, foydalanuvchi talab qiladi. Biridan aniq so'rovlar deyarli har qanday til mezonlar bo'yicha Matnlarni ma'lumot topish imkonini beradi rivojlangan versiyasini foydalanishingiz mumkin hosil qiladi.

Qidiruv bazasi bo'lishi mumkin:

  • so'z qismlari bir guruh a'zolik;
  • grammatik xususiyatlari;
  • semantik;
  • uslubiy va hissiy rang.

Bundan tashqari, "ichida" Old va tushum kelishigi holda ism keyin keladi birlik mavjud tarang, birinchi shaxs, ham fe'lning hamma sozlarni topish, masalan, so'z bir ketma-ketlikda qidirish mezonlarini birlashtirish mumkin. Bunday oddiy bir vazifa hal bir foydalanuvchi bir necha soniya davom etadi va belgilangan sohalarda faqat bir qancha sichqonchani bosishni talab qiladi.

yaratish jarayoni

Qidiruv o'zi barcha subcorpus amalga oshirilishi mumkin va bir maxsus, tanlagan muayyan maqsadga erishishda ehtiyojlariga qarab:

  1. birinchi qadam ishi uchun asos bo'lgan matnlar aniqlash uchun. Amaliy maqsadlar uchun, tez-tez jurnalistik, yangiliklar hikoyalar, onlayn izoh ishlatiladi. tadqiqot loyiha paketi turdagi turli foydalanish hisoblanadi, lekin matnli ba'zi umumiy erga ko'ra tanlangan bo'lishi kerak.
  2. old munosabat tutilishi matnlar natijasida yig'ish, matn bibliografik va qo'shimcha-lingvistik ta'rifi tomonidan tayyorlangan, har qanday bo'lsa, xatolar tuzatish bor.
  3. Barcha non-Matnlarni ma'lumot bartaraf bormi: grafik, rasm, jadvallar tozalaydi.
  4. qayta ishlash uchun, odatda, nutq bo'ladi ma'lumoti, bir ajratish hisoblanadi.
  5. Nihoyat, u elementlarning olingan, morfologik sintaksisi va boshqa belgilar ko'p sonli oshiriladi.

Ba'zi hollarda, semantik sifatlarida, so'z, grammatik qismini belgilangan va har qaysi elementlari, bir necha unda tarqatilgan bilan sintaktik tuzilishi tomonidan amalga oshirilgan barcha bitimlar natijasi.

binolarni yaratish qiyinchiliklar

Bu tana uchun birgalikda so'z yoki jumla majmuini qo'yish uchun etarli emas tushunish uchun muhim ahamiyatga ega. Bir tomondan, matnlar bir yig'ish, ya'ni muvozanatli bo'lishi ma'lum nisbatlarda matnlar turli xil ifodalaydi kerak. Boshqa kuni - panjaralari mazmuni maxsus tarzda intervalda bo'lishi kerak.

birinchi muammo shartnoma tomonidan hal qilinadi: Misol uchun, yig'ish adabiy matnlar 60%, hujjatli 20% o'z ichiga oladi, ma'lum bir foiz mukammal retsept muvozanatli tanasi bugun mavjud emas so'zlashadigan tilda, qonun, ilmiy asarlar va boshqalar yozma vakilligini berilgan ...

kontent tartibi haqida, ikkinchi savol, qiyin hal. U erda maxsus dasturlar va avtomatik matnlarni belgilash uchun ishlatiladigan algoritm, lekin ular uzilishlar sabab bo'lishi mumkin, mukammal natija beradi va qo'lda qayta ishlash talab qilmaydi. Bu muammo bilan bog'liq imkoniyatlar va muammolar korpus tilshunoslik bir qog'oz V. P. Zaharova batafsil tasvirlanadi.

Matn belgilarini biz quyida sanab necha darajada amalga oshiriladi.

morfologik tagging

maktabdan, biz rus tilida, nutqida turli qismlari bor, deb eslayman, va ularning har biri o'z xususiyatiga ega. Misol uchun, fe'l qiyalik turkum va vaqt hech qanday ot bor. ikkilanmasdan bir ona ot va tuslamoq harakatlar susayadi, lekin 100 million jasadini belgilash uchun. ishlamaydi qo'l mehnatidan belgidan oshmasligi. u o'rgatgan kerak, bu uchun barcha zarur operatsiyalar, shu bilan birga, kompyuter amalga mumkin.

Morfologik tagging, kompyuter muayyan grammatik xususiyatlarga ega bo'lgan so'z, ma'lum bir qismi sifatida har bir so'zni "tushunish" kerak. Rossiya (va har qanday boshqa til) muntazam qoidalar bir qator faoliyat boshlab, u algoritmlarni bir qator avtomobil sarmoya, morfologik tahlil qilish uchun avtomatik tartibini qurish mumkin. Biroq, qoida, shuningdek, turli murakkablashtiruvchi omillar istisnolar bor. Natijada, bugungi kunda sof kompyuter tahlili ideal bo'lib, va hatto 4% xato 4 mln bir qiymat beradi. qo'llanma rework talab 100 million. birliklar badanida so'zlar.

Mukammal kitob muammoni Zaharova V. P. "Prezident tansoqchilari Tilshunoslik" ta'riflaydi.

sintaktik annotatsiya

Ajratishda yoki ajralish - bir gapda so'zlarning munosabatlarni belgilaydi tartibini. algoritmlar majmuini foydalanib mavzu, taqqoslash, qo'shimchalar, so'z bir necha navbat matnni aniqlash mumkin. Bosh ketma-ketlikdagi, va qaysi so'zlar topish - qaram, biz samarali matn ma'lumot, mohiyati va qidiruv iltimosiga javoban, bizni qiziqtirgan faqat ma'lumot berish mashinasini o'rgatish.

Aytgancha, zamonaviy qidirish mexanizmlarini kabi tegishli so'rovlardan javoban xos raqamlarini o'rniga uzoq matnlarni berish uchun foydalanishi yoki "qancha kaloriya bir olma", "Sankt-Peterburgga Moskvadan masofa." Biroq, yoki boshqa asosiy yozuvning "Prezident tansoqchilari Tilshunoslik kirish" maslahat qilish zarurati tasvirlangan jarayoni ham asoslarini tushunish.

semantik formatlash

so'zning semantik - Sodda, ma'nosi, deb. uning semantik toifalar va kichik majmui tegishli aks bir so'z Attribution teglar semantik tahlil, keng qo'llaniladigan yondashuv. Bunday axborot algoritmlar matn ohangini, avtomatik umumlashtirish va korpus tilshunoslik boshqa vazifalar usullarini tahlil optimallashtirish uchun qimmatlidir.

juda keng semantik bilan bir mavhum so'zni ifodalovchi daraxtning "root", bir qator bor. daraxt tugunlari filiali tashkil etiladi, deb, yana va yana o'ziga xos leksik unsurlar o'z ichiga olgan. Misol uchun, so'z "jonzot", "inson" va "hayvon" kabi tushunchalar bilan bog'liq bo'lishi mumkin. sinflar va hayvonlarning turlari bo'yicha - birinchi so'z turli kasblar, qarindoshlik jihatidan, millati va sekundiga ichiga Bo'limiga davom etadi.

axborot-qidiruv tizimlari foydalanish

Korpus tilshunoslik foydalanish yo'nalishlari faoliyati turli sohalarini qamrab oladi. Joy binolari lug'atlar tayyorlash va tuzatish uchun ishlatiladi, avtomatlashtirilgan tarjima tizimlari, faktlarni olishda tushuntirish ohangini va boshqa matn ishlash aniqlash yaratish.

Bundan tashqari, bunday resurslarni faol jahon tillari va umuman til faoliyat mexanizmlarini o'rganish ishlatiladi. oldindan tayyorlab axborot katta hajmi uchun Access rivojlantirish tillarni tendentsiyalari tez va tomonlama o'rganish osonlashtiradi va barqaror shakllantirish neologisms nutq tezligi o'zgarishi leksik birliklar va boshqalar qadrlaydi.

ma'lumotlar bunday katta hajmdagi bilan ishlash avtomatlashtirish talab yildan boshlab, bugungi kunda kompyuter va korpus tilshunoslik o'rtasida yaqin o'zaro mavjud.

Rossiya Milliy Korpus

Bu voqea (qisqartirilgan NKRYA) vazifalarni turli uchun resurs foydalanish imkonini beradigan subcorpus bir qator o'z ichiga oladi.

ma'lumotlar bazasida materiallari NKRYA bo'linadi:

  • ichki va tashqi, ham ommaviy axborot vositalari 90 va 2000 yilda nashrlarga;
  • nutq yozib olish;
  • aktsentologicheski matnlarni belgilangan (masalan, stress belgilari);
  • sheva nutq;
  • she'riyati;
  • sintaktik va boshqa belgilar bilan materiallari.

axborot tizimi, shuningdek, ingliz, nemis, frantsuz va boshqa ko'plab tillar (va aksincha) kirib rus asarlar parallel tarjima bilan Subcorpus o'z ichiga oladi.

Bundan tashqari, ma'lumotlar bazasida uning rivojlanish turli davrlarida rus tilida yozilgan so'zga vakili tarixiy matnlar bir qismi, bor. Rus tili egallashi xorijiy fuqarolar uchun foydali bo'lishi mumkin o'quv organi, ham mavjud.

Rossiya Milliy korpus 400 million leksik birliklar o'z ichiga oladi, va oldinda Evropa organlari tillarni muhim qismi ko'p jihatdan.

istiqbollari

bu munosabatni tan foydasiga Fact xorijiy, shuningdek, Rossiya universitetlarida laboratoriya korpus tilshunoslik istiqbolli mavjudligi hisoblanadi. Bu axborot va qidiruv resurslari doirasida foydalanish va tadqiqot bilan yuqori texnologiyalar, savol-javob tizimini sohasida muayyan joylarda ishlab chiqish talab, lekin yuqorida muhokama qilingan.

foydalanuvchilar kundalik yilda resursni bu turini ishlatish uchun ko'proq va ko'proq yo'llari, chunki korpus tilshunoslik yanada rivojlantirish, texnik va kompyuter kuchaytirish, izlab va ma'lumotlarni qayta ishlash jarayonlarini optimallashtirish, yangi algoritmlar, yana operativ xotira amalga oshirish nuqtai nazaridan, va iste'molchiga ko'lamli, barcha darajadagi taxmin qilingan hayot va ish.

xulosa

kosmik koinotning orqali sayohat va robotlar odamlar uchun hamma ishni qaerda 2017 yilda o'tgan asrning o'rtalarida, uzoq kelajakni tuyulardi. Aslida, ilm-fan "oq dog'lar» va bezovta asrlar davomida insoniyat savollarga javob umidsiz urinishlar amalga oshirish bilan to'la bo'ladi. til faoliyat Savollar bu erda faxriy a o'rin va kabinet va hisoblash tilshunoslik ularga javob uchun bizga yordam berishi mumkin.

Buyuk ma'lumotlar guruhlar qayta ishlash deyarli real vaqtda so'zlarning shakllanishini kuzatish uchun maxsus til xususiyatlari rivojlanishini bashorat, ilgari borish qiyin, naqsh aniqlash mumkin.

amaliy darajada, global qo'ralar davlat kayfiyatni baholash uchun potentsial vositasi sifatida, masalan, ko'rish mumkin - Internet real foydalanuvchilar tomonidan yaratilgan bir doimiy yangilanib kundalik asos turli matnlar bo'ladi: Fikr va sharhlar va maqolalar va so'z boshqa ko'plab shakllari, bu.

Bundan tashqari, organlari bilan ishlash haqida ma'lumot olish jalb qilingan shu apparat, rivojlanishiga hissa, biz xizmat "Google" yoki "Yandeks", mashina tarjimasi, elektron lug'atlar bilan tanish.

Biz ishonch bilan korpus tilshunoslik faqat birinchi qadamlarni qiladi, deyish mumkin, va yaqin kelajakda gullash bo'ladi.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 uz.birmiss.com. Theme powered by WordPress.