WangunanAkademi jeung universitas

Naon Corpus Linguistik?

Ngan sababaraha dekade kaliwat pikeun ngajadikeun otomatis panalungtikan linguistik, ilmuwan ukur bisa impian tina. karya ieu dipigawé ku leungeun, éta metot angka nu gede ngarupakeun mahasiswa, aya hiji penting likelihood "ngurangan" kasalahan, sarta paling importantly - kabeh ieu nyandak lila, lila.

Kalawan ngembangkeun teknologi komputer geus jadi mungkin keur ngalaksanakeun panalungtikan dina urutan gedena PPN gancang, sarta kiwari salah sahiji arah paling ngajangjikeun dina pangajaran basa Sunda téh linguistik korpus. fitur utamina nya éta ngagunakeun jumlahna ageung informasi téks, informasi kana databés, dina cara husus tur disebut awak dicirian.

Pikeun titimangsa, aya loba wangunan dijieun kalawan maksud nu béda dina dasar rupa bahan linguistik Manjang ti jutaan ka puluhan milyar unit léksikal. arah ieu dipikawanoh salaku ngajangjikeun sarta mendemonstrasikan kamajuan signifikan arah tujuan aplikasi tur panalungtikan. Para ahli, hiji cara atanapi kaayaan sejen kalawan basa alam, mangka dianjurkeun meunang acquainted jeung awak teks sahanteuna dina hiji tingkat dasar.

Sajarah korpus linguistik

Wangunan trend ieu alatan kreasi Amérika Serikat dina awakna Brown dina mimiti 60-ies abad panungtungan. koleksi ngawengku teks sadaya 1 juta bentuk kecap, sarta kiwari awak ukuranana kieu bakal jadi sagemblengna uncompetitive. Ieu sakitu legana alatan Pace tina ngembangkeun teknologi komputer, kitu ogé tungtutan tumuwuh pikeun sumber anyar panalungtikan.

Dina 90an linguistik korpus mecenghul kana disiplin lengkep sareng bebas, kumpulan naskah geus digambar up na ditandaan keur puluhan basa. Dina mangsa ieu eta dijieun, contona, Britania Nasional Corpus 100 juta tokens.

Kalawan ngembangkeun aréa ieu linguistik, jilid téks anu jadi beuki loba (jeung ngahontal milyaran unit kamus), sarta perenah nu ieu jadi beuki rupa-rupa. Pikeun tanggal, rohangan internét bisa kapanggih carcasses ditulis tur diucapkeun basa, multibasa, sarta literatur artistik atawa akademik learning-berorientasi, kitu ogé rupa spésiés lianna.

Naon perumahan

jenis badan dina linguistik awak bisa jadi disadiakeun pikeun sababaraha alesan. Intuisi, jadi dadasar pikeun klasifikasi can aya basa téks (Rusia, Jerman), mode aksés (open source, ditutup, komérsial), genre tina bahan sumber (fiksi, dokumenter, akademik, journalism).

Cara metot dibangkitkeun bahan tina basa lisan. Ti rekaman ngahaja ucapan sapertos ka nyieun hiji lingkungan buatan keur responden, sarta bahan anu dihasilkeun teu bisa disebut "spontan", linguistik korpus modern geus Isro cara séjén. A volunteer anu dilengkepan mikropon hiji, sarta salila poé dihasilkeun rékaman sadaya paguneman, nu eta ngiring. Jalma di sabudeureun, tangtu, teu nyaho yén dina kursus paguneman sapopoé nyumbang ka ngembangkeun elmu.

Engké narima rékaman disimpen dina database jeung nu dipirig ku dicitak tipe transcript téks. Ku kituna, janten kamungkinan aksara diperlukeun pikeun nyieun hiji perumahan ucapan sapopoé lisan.

aplikasi

Dimana wae mungkin pamakéan basa, jeung sugan pamakéan wangunan naskah. Métode pikeun nerapkeun Hull dina linguistik bisa jadi:

  • Nyieun program nangtukeun konci éta, ieu loba dipaké dina politik jeung bisnis pikeun ngalacak réspon positif jeung negatif pamilih tur konsumén visinil.
  • Sambungan Sistim émbaran ka kamus jeung panarjamah pikeun ngaronjatkeun kinerja maranéhanana.
  • A-rupa pancén panalungtikan anu nyumbang kana pamahaman unit basa, sajarah perkembangannya jeung prediksi parobahan dina mangsa nu bakal datang.
  • Ngembangkeun sistem dimeunangkeun informasi dumasar kana morfologis, sintaksis, semantik tur lianna fitur.
  • Optimasi sistem linguistik béda jeung nu lianna.

Pamakéan nandakeun wangunan

panganteur sumberdaya sarupa ku search engine has, sarta nyarankeun pamaké ngasupkeun kecap atawa gabungan kecap anu milari dasar informasi. Eta ngabentuk query pasti tiasa make versi ditingkatkeun, anu ngamungkinkeun pikeun manggihan informasi tékstual on ampir wae kriteria linguistik.

base pilarian bisa jadi:

  • kaanggotaan sahiji grup tangtu bagéan biantara;
  • fitur gramatikal;
  • semantik;
  • gaya jeung emosional ngawarnaan.

Anjeun oge bisa ngagabungkeun kriteria pilarian pikeun runtuyan kecap, contona, pikeun manggihan sakabeh kajadian anu lumangsungna di verba dina jaman kiwari tense, jalma kahiji tunggal, nu asalna sanggeus kecap pangantét "dina" jeung nomina dina hal akusatip. Solusi ka tugas basajan sapertos nyokot pamaké sababaraha detik sarta merlukeun ukur sababaraha clicks mouse dina widang dieusian.

Prosés nyieun

Teang sorangan bisa dilumangsungkeun dina sagala subcorpus na salah husus dipilih, gumantung kana kabutuhan dina achieving tujuan husus:

  1. Lengkah kahiji nya éta nangtukeun mana naskah ngawangun dadasar pikeun hal éta. Pikeun kaperluan praktis, mangka remen dipake jurnalistik, carita warta, komentar online. Proyek panalungtikan nya éta ngagunakeun rupa-rupa jenis pakét, tapi téks kudu dipilih nurutkeun sababaraha taneuh umum.
  2. kempelan anu dihasilkeun naskah subjected mun pretreatment, aya koreksi kasalahan, upami sagala, disiapkeun ku pedaran bibliographic na tambahan-linguistik téks.
  3. Geus ngaleungitkeun sagala informasi non-tékstual: Leungitkeun dina grafik, gambar, tabel.
  4. Mangrupa alokasi tokens nu ilaharna biantara, pikeun ngolah salajengna.
  5. Tungtungna, éta dibawa morfologis, sintaksis jeung markings lianna ditangtukeun pluralitas elemen.

Hasil sadaya transaksi dijieun ku struktur sintaksis jeung disebarkeun therein a pluralitas elemen, nu masing-masing ieu dicirikeun bagian tina biantara, gramatikal tur, dina sababaraha kasus, atribut semantik.

Kasusah dina nyieun wangunan

Kadé ngartos yen teu cukup pikeun nyimpen babarengan susunan kecap atawa kalimat keur awak. Di hiji sisi, kumpulan naskah kedah saimbang, nyaeta, ngagambarkeun tipena béda naskah dina babandingan nu tangtu. Dina sejenna - eusi dipager kudu dipisah dina cara husus.

Masalah kahiji direngsekeun ku hiji perjangjian: contona, dina kempelan nu ngawengku 60% tina naskah sastra, 20% tina documentaries, perséntase tangtu dirumuskeun ngagambarkeun tulisan dina basa lisan, panerapan, karya ilmiah, jsb resep sampurna saimbang awakna kiwari teu aya ...

Patarosan kadua, ngeunaan tata perenah eusi, ngajawab nangtang. Aya program husus sarta algoritma dipaké pikeun otomatis nyirian naskah, tapi maranéhna teu masihan hasil sampurna, bisa ngabalukarkeun disruptions sarta merlukeun rework manual. Kasempetan jeung tantangan dina kaayaan masalah ieu digambarkeun di jéntré dina kertas V. P. Zaharova linguistik korpus.

aksara téks anu dilaksanakeun dina sababaraha tingkatan, nu urang daptar di handap ieu.

tagging morfologis

Ti sakola, urang inget yen dina basa Rusia, aya bagian nu sejen ucapan, jeung masing-masingna boga ciri sorangan. Contona, kecap pagawéan boga sabaraha kategori inclination jeung waktu di mana aya barang. a spiker asli tanpa ragu declines nomina jeung kecap gawe conjugate, tapi mun ditandaan awak 100 juta. tokens kuli manual moal jalan. Sagala operasi diperlukeun tiasa ngaéksekusi komputer kasebut, pikeun ieu eta perlu diajar.

Morfologis tagging, komputer kudu "ngartos" tiap kecap salaku bagian nu tangtu ucapan ngabogaan fitur gramatikal tangtu. Ti Rusia (jeung sagala basa séjén) ngoperasikeun sababaraha aturan nu biasa, kasebut nyaéta dimungkinkeun pikeun ngawangun hiji prosedur otomatis pikeun analisis morfologis, investasi dina mobil pikeun Jumlah algoritma. Sanajan kitu, aya pengecualian kana aturan, kitu ogé rupa-rupa faktor complicating. Hasilna, analisis komputer net dinten téh tebih ti idéal, komo 4% kasalahan ngahasilkeun hiji nilai 4 mln. Kecap dina awak 100 juta. Unit, merlukeun rework manual.

buku lengkep ngajelaskeun masalah Zaharova V. P. "Corpus Linguistik".

annotation sintaksis

FITML atanapi FITML - prosedur nu nangtukeun hubungan kecap dina kalimah a. Ngagunakeun susunan algoritma nyaéta dimungkinkeun pikeun nangtukeun teks subjék, prédikat, tambahan, sababaraha robah warna ka warna biantara. Panggihan mana kecap nu sekuen utama, tur anu - gumantung kami éféktif can pati informasi tina téks na ngajar mesin pikeun ngaluarkeun di respon ka pamundut pilarian mung informasi metot urang.

Ku jalan kitu, mesin pencari modern ngagunakeun ieu masihan kaluar nomer husus tinimbang naskah lengthy di respon kana queries relevan kayaning "sabaraha kalori dina apal" atawa "jarak ti Moscow ka St. Petersburg". Najan kitu, nepi ka ngarti malah dasar tina prosés digambarkeun ku kedah konsultasi ka "Perkenalan ka Corpus Linguistik" atanapi tutorial dasar lianna.

aksara semantis

The semantik kecap - nyaéta, dina istilah basajan, hartina. pendekatan lega lumaku kana hasil analisis semantik tina hiji tag Kecap attribution, reflecting na milik susunan kategori semantis na subkategori. Inpo sapertos anu berharga pikeun optimalisasi algoritma nganalisis nada téks, summarization otomatis jeung métode tugas sejen tina linguistik korpus.

Aya sababaraha "root" tangkal, ngalambangkeun hiji kecap abstrak ku semantik pisan lega. Salaku cabang tempat ngumpulna tangkal kabentuk, ngandung beuki loba husus elemen léksikal. Contona, kecap "mahluk" bisa jadi pakait jeung konsep sapertos "manusa" na "sato". Kecap munggaran bakal neruskeun Cabang kaluar kana profesi beda, istilah kakulawargaan, kabangsaan, sarta kadua - di kelas sarta jenis sato.

Pamakéan sistem dimeunangkeun informasi

Area pamakéan linguistik korpus nutupan sawah sagala rupa aktivitas. Housings digunakeun pikeun persiapan sarta koreksi ngeunaan kamus, nyieun sistem tarjamah otomatis, annotating, retrieving fakta, nangtukeun nada jeung ngolah téks lianna.

Sajaba ti éta, sumber sapertos aktip dipake dina pangajaran basa dunya sarta mekanisme sahiji fungsi basa sacara umum. Aksés ka jilid badag inpormasi pre-disusun facilitates ulikan gancang tur komprehensif tina tren tina basa ngembangkeun, sarta robah formasi neologisms stabil speed ucapan peunteun unit leksikal jeung sajabana.

Kusabab karya kalawan jumlahna ageung sapertos data merlukeun automation, kiwari aya interaksi nutup antara komputer tur korpus linguistik.

Rusia Nasional Corpus

hal ieu (disingkat NKRYA) ngawengku sababaraha subcorpus, sahingga pamakéan sumberdaya pikeun rupa-rupa pancén.

Bahan dina database dibagi NKRYA:

  • mun publikasi di 90an jeung 2000 media ', duanana domestik jeung luar nagri;
  • ngarekam ucapan;
  • aktsentologicheski ditandaan teks (i.e., anu tanda stres);
  • ucapan dialék;
  • pantun;
  • Bahan jeung sintaksis jeung lianna markings.

Sistem informasi ogé ngawengku Subcorpus kalawan tarjamahan paralel karya ti Rusia kana basa Inggris, Jerman, Perancis sarta loba basa sejen (sabalikna).

Ogé dina database aya hiji bagian naskah sajarah, ngalambangkeun ucapan ditulis dina Rusia dina perioda béda perkembangannya. Aya ogé awak latihan, nu tiasa mangpaat kanggo warga asing di mastering bahasa Rusia.

Rusia Nasional Corpus ngandung 400 juta unit leksikal, sarta ku sababaraha cara dihareupeun bagian signifikan tina basa awak Éropa.

prospek

Kanyataan di ni'mat pangakuan trend ieu ketersediaan ngajangjikeun laboratorium linguistik korpus di paguron luhur Rusia, kitu ogé asing. Kalawan ngagunakeun panalungtikan dina kerangka informasi sarta pilarian ieu sumber diperlukeun ngembangkeun wilayah tangtu dina widang téknologi luhur, sistem sual-ngawalon, tapi geus dibahas di luhur.

ngembangkeun Salajengna ngeunaan korpus linguistik diprediksi pisan tingkatan, mimitian ti teknis na dina watesan palaksanaan algoritma anyar nu ngaoptimalkeun prosés néangan jeung ngolah informasi, empowering komputer, leuwih RAM, sarta ka konsumen, sabab pamaké téh beuki loba cara ngagunakeun tipe ieu sumberdaya di poéan maranéhna hirup jeung karya.

dina kacindekan

Dina pertengahan abad panungtungan dina 2017 seemed hareup jauh, dimana spaceships ngarambat ngaliwatan alam semesta jeung robot ngalakukeun sagala pakasaban pikeun jalma. Kanyataanna, sains nyaeta replete kalawan "spot bodas" jeung nyieun usaha nekat ngajawab patarosan tina umat manusa pikeun abad disturbing. Patarosan fungsi tina basa didieu nempatan tempat ngahargaan, jeung kabinét jeung komputasi linguistik bisa mantuan kami pikeun ngajawab éta.

Ngolah susunan data badag bisa ngadeteksi pola, saméméhna inaccessible, ngaduga ngembangkeun fitur basa husus lagu formasi kecap ampir nyata waktu.

Dina tingkat praktis, éta enclosures global bisa ditempo, contona, salaku alat potensial pikeun assess wanda umum - Internet mangrupakeun terus diropéa poean dadasar rupa naskah dijieun ku pamaké nyata: ieu koméntar sarta ulasan, sarta artikel, sarta loba bentuk sejen dina ucapan.

Sajaba ti éta, gawé bareng awak nyumbang ka ngembangkeun hardware sarua, nu aub dina dimeunangkeun informasi, kami teu wawuh jeung jasa "Google" atawa "Yandex", tarjamahan mesin, kamus éléktronik.

Urang confidently tiasa ngeceskeun yen korpus linguistik ngajadikeun ngan léngkah munggaran, sarta dina mangsa nu bakal datang bakal flourish.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 su.birmiss.com. Theme powered by WordPress.