Kas yra natūralios kalbos apdorojimas?

Paskutinį kartą atnaujinta 2019 m. Rugpjūčio 7 d

Natūralios kalbos apdorojimas arba trumpai NLP yra plačiai apibrėžiamas kaip automatinis natūralios kalbos, kaip kalbos ir teksto, manipuliavimas programine įranga.

Natūralios kalbos apdorojimo tyrimas vyko daugiau nei 50 metų ir išaugo iš kalbotyros srities, kylant kompiuteriams.

Šiame įraše sužinosite, kas yra natūralus kalbos apdorojimas ir kodėl jis toks svarbus.

Perskaitę šį įrašą sužinosite:

  • Kas yra natūrali kalba ir kuo ji skiriasi nuo kitų tipų duomenų.
  • Dėl to darbas su natūralia kalba yra toks sudėtingas.
  • Iš kur atsirado NLP sritis ir kaip ją apibrėžia šiuolaikiniai praktikai.

Pradėkite savo projektą su savo nauja knyga „Gilus mokymasis natūraliai kalbai apdoroti“, įskaitant nuoseklios pamokos ir „Python“ šaltinio kodas visų pavyzdžių failai.

Pradėkime.

Kas yra natūralios kalbos apdorojimas?

Kas yra natūralios kalbos apdorojimas?
Pedriko nuotrauka, kai kurios teisės saugomos.

Natūrali kalba

Natūrali kalba reiškia tai, kaip mes, žmonės, bendraujame vieni su kitais.

Būtent, kalba ir tekstas.

Mus supa tekstas.

Pagalvokite, kiek teksto matote kiekvieną dieną:

  • Ženklai
  • Meniu
  • El
  • trumpoji žinutė
  • Internetiniai puslapiai
  • ir dar daugiau …

Sąrašas yra begalinis.

Dabar pagalvokite apie kalbą.

Mes galime kalbėti tarpusavyje, kaip rūšis, daugiau nei rašome. Gali būti net lengviau išmokti kalbėti nei rašyti.

Balsas ir tekstas yra tai, kaip mes bendraujame tarpusavyje.

Atsižvelgdami į tokio tipo duomenų svarbą, turime turėti metodus, kaip suprasti ir pagrįsti natūralią kalbą, kaip ir kitų tipų duomenis.

Reikia pagalbos dėl „Deep Learning for Text Data“?

Dabar eikite į nemokamą mano 7 dienų el. Pašto avarijos kursą (su kodu).

Spustelėkite, kad prisiregistruotumėte, taip pat gaukite nemokamą PDF Ebook kurso versiją.

Pradėkite NEMOKAMUS avarijos kursus dabar

Natūralios kalbos iššūkis

Darbas su natūralios kalbos duomenimis nėra išspręstas.

Jis buvo tiriamas pusę amžiaus, ir tai tikrai sunku.

Vaiko, kuris turi praleisti daugelį metų, mokydamasis kalbos, požiūriu yra sunku … sunku suaugusiam kalbos besimokančiajam, sunku mokslininkui, bandančiam modeliuoti svarbius reiškinius, ir inžinieriui, kuris bando sukurti sistemas, kurios nagrinėja natūralios kalbos įvestį ar išvestį. Šios užduotys yra tokios sunkios, kad Turingas pagrįstai galėtų sklandžiai kalbėtis natūralia kalba apie savo intelekto testo pagrindą.

– 248 puslapis, Matematinė kalbotyra, 2010 m.

Natūrali kalba visų pirma yra sunki, nes ji netvarkinga. Yra nedaug taisyklių.

Ir vis dėlto dažniausiai galime lengvai suprasti vienas kitą.

Žmonių kalba yra labai dviprasmiška … Ji taip pat nuolat keičiasi ir vystosi. Žmonės puikiai moka kalbą ir supranta kalbą bei geba išreikšti, suvokti ir interpretuoti labai įmantrias ir niuansuotas prasmes. Tuo pačiu metu, nors mes, žmonės, esame puikūs kalbos vartotojai, mes taip pat labai prastai suprantame ir apibūdiname kalbą reglamentuojančias taisykles.

– 1 puslapis, Neuroninių tinklų metodai natūraliai kalbai apdoroti, 2017 m.

Nuo kalbotyros iki natūralios kalbos apdorojimo

Kalbotyra

Lingvistika yra mokslinis kalbos tyrimas, įskaitant gramatiką, semantiką ir fonetiką.

Klasikinėje kalbotyroje buvo kuriamos ir vertinamos kalbos taisyklės. Didelė pažanga padaryta formalų sintaksės ir semantikos metodų srityje, tačiau dažniausiai įdomios natūralios kalbos supratimo problemos priešinasi švariems matematiniams formalizmams.

Apskritai kalbininkas yra tas, kuris studijuoja kalbą, tačiau galbūt šnekamiau save apibrėžiantis kalbininkas gali būti labiau orientuotas į lauke buvimą.

Matematika yra mokslo įrankis. Matematikai, dirbantys su natūralia kalba, savo tyrimą gali vadinti matematine lingvistika, daugiausia dėmesio skirdami atskirų matematinių formalizmų ir teorijos naudojimui natūraliai kalbai (pvz., Oficialios kalbos ir automatų teorija).

Kompiuterinė kalbotyra

Kompiuterinė lingvistika yra šiuolaikinis kalbotyros tyrimas naudojant kompiuterijos mokslo priemones. Vakarykštė lingvistika gali būti šiandieninė skaičiavimo kalbininkė, nes skaičiavimo įrankių naudojimas ir mąstymas aplenkė daugumą studijų sričių.

Kompiuterinė lingvistika yra kompiuterinių sistemų, skirtų natūraliai kalbai suprasti ir generuoti, tyrimas. … Viena natūralių skaičiavimo kalbotyros funkcijų būtų teorinių kalbininkų siūlomų gramatikų testavimas.

– 4-5 psl., Kompiuterinė kalbotyra: įvadas, 1986 m.

Dideli duomenys ir greiti kompiuteriai reiškia, kad rašant ir vykdant programinę įrangą iš didelių teksto duomenų rinkinių galima atrasti naujų ir skirtingų dalykų.

Dešimtajame dešimtmetyje statistiniai metodai ir statistinis mašininis mokymasis pradėjo ir galiausiai pakeitė klasikinius „iš viršaus į apačią“ taisyklėmis pagrįstus požiūrius į kalbą, visų pirma dėl jų geresnių rezultatų, greičio ir tvirtumo. Dabar šioje srityje dominuoja statistinis požiūris į natūralios kalbos studijas; jis gali apibrėžti lauką.

Duomenų kaupimo metodai natūraliai kalbai apdoroti dabar tapo tokie populiarūs, kad juos reikia laikyti pagrindiniais skaičiavimo kalbotyros metodais. … Neabejotinai prie šios raidos prisideda padidėjęs turimų elektroniniu būdu saugomų duomenų, kuriems galima taikyti šiuos metodus, kiekis; Kitas veiksnys gali būti tam tikras nepasitenkinimas požiūriais, kurie remiasi išimtinai rankų darbo taisyklėmis dėl jų pastebimo trapumo.

– 358 psl., Oksfordo kompiuterinės lingvistikos vadovas, 2005 m.

Statistinis požiūris į natūralią kalbą neapsiriboja statistika vien per se, bet ir su pažangiais išvadų metodais, tokiais kaip tie, kurie naudojami taikant mašininį mokymąsi.

… norint suprasti natūralią kalbą reikia daug žinių apie morfologiją, sintaksę, semantiką ir pragmatiką, taip pat bendrų žinių apie pasaulį. Visų šių žinių įgijimas ir užkodavimas yra viena iš pagrindinių kliūčių kuriant efektyvias ir patikimas kalbų sistemas. Kaip ir statistiniai metodai … mašininio mokymosi metodai atmeta pažadą automatiškai gauti šias žinias iš komentuojamų ar nepastebėtų kalbos korpusų.

– 377 psl., Oksfordo kompiuterinės lingvistikos vadovas, 2005 m.

Statistinis natūralios kalbos apdorojimas

Kompiuterinė lingvistika taip pat tapo žinoma natūralios kalbos proceso (NLP) pavadinimu, kad atspindėtų labiau inžinieriais pagrįstą ar empirinį statistinių metodų požiūrį.

Statistinis lauko dominavimas taip pat dažnai lemia tai, kad NLP apibūdinamas kaip statistinis natūralios kalbos apdorojimas, galbūt siekiant jį atitolinti nuo klasikinių skaičiavimo kalbotyros metodų.

Manau, kad kompiuterinė lingvistika turi ir mokslinę, ir inžinerinę pusę. Inžinerinė kompiuterinės lingvistikos pusė, dažnai vadinama natūralios kalbos apdorojimu (NLP), daugiausia susijusi su skaičiavimo įrankių kūrimu, kurie naudingi kalbai, pvz., Mašininis vertimas, apibendrinimas, atsakymas į klausimus ir kt. Kaip ir bet kuri inžinerijos disciplina, natūrali kalba apdorojimas remiasi įvairiomis skirtingomis mokslo šakomis.

– Kaip statistinė revoliucija keičia (skaičiavimo) kalbotyrą, 2009 m.

Lingvistika yra didelė studijų tema, ir nors statistinis požiūris į NLP kai kuriose srityse pasirodė labai sėkmingas, klasikiniai „iš viršaus į apačią“ metodai vis dar turi erdvės ir naudos.

Apytiksliai tariant, statistinė NLP tikimybes sieja su alternatyvomis, su kuriomis susiduriama analizuojant ištarimą ar tekstą, ir priima labiausiai tikėtiną rezultatą kaip teisingą. … Nenuostabu, kad žodžiai, kurie įvardija reiškinius, kurie yra glaudžiai susiję pasaulyje, arba mūsų suvokimas apie jį, dažnai pasitaiko arti vienas kito, todėl aiškūs faktai apie pasaulį atsispindi šiek tiek neryškesniuose faktuose apie tekstus. Šiuo požiūriu yra daug vietos diskusijoms.

– xix puslapis, Oksfordo skaičiavimo lingvistikos vadovas, 2005 m.

Natūralios kalbos apdorojimas

Kaip mašininio mokymosi praktikai, norintys dirbti su teksto duomenimis, mums rūpi natūralios kalbos apdorojimo srities įrankiai ir metodai.

Ankstesniame skyriuje matėme kelią nuo kalbotyros iki NLP. Pažvelkime į tai, kaip šiuolaikiniai tyrėjai ir praktikai apibrėžia NLP.

Bene viename iš plačiau šios srities tyrinėtojų parašytų vadovėlių jie temą vadina „kalbotyra, Leidžiantis aptarti tiek klasikinę kalbotyrą, tiek šiuolaikinius statistikos metodus.

Kalbotyros tikslas yra sugebėti apibūdinti ir paaiškinti daugybę kalbinių stebėjimų, kurie sukasi aplink mus, pokalbiuose, raštuose ir kitose žiniasklaidos priemonėse. Dalis yra susijusi su kognityviniu dydžiu, kaip žmonės įgyja, kuria ir supranta kalbą, dalis yra susijusi su kalbinių pasakymų ir pasaulio santykio supratimu, dalis – su kalbinių struktūrų supratimu, kuri kalba bendrauja.

– 3 puslapis, Natūralios kalbos statistinio apdorojimo pagrindai, 1999 m.

Jie toliau sutelkia dėmesį į išvadas, naudodami statistinius metodus natūraliai kalbai apdoroti.

Statistikos NLP tikslas – padaryti statistinę išvadą natūralios kalbos srityje. Statistinę išvadą paprastai sudaro kai kurių duomenų (sugeneruotų pagal nežinomą tikimybių pasiskirstymą) paėmimas ir tam tikras išvadas apie šį skirstinį.

– 191 puslapis, Natūralios kalbos statistinio apdorojimo pagrindai, 1999 m.

Savo taikomojo natūralios kalbos apdorojimo tekste autoriai ir bendraautoriai prie populiarios NLP NLTK Python bibliotekos apibūdina šią sritį plačiai kaip kompiuterių naudojimą dirbant su natūralios kalbos duomenimis.

Mes imsimės natūralios kalbos apdorojimo – arba trumpai NLP – plačiąja prasme, kad apimtų bet kokio pobūdžio kompiuterinį manipuliavimą natūralia kalba. Vienu kraštutiniu atveju, norint palyginti skirtingus rašymo stilius, gali būti taip paprasta, kaip skaičiuoti žodžių dažnumą. Kitame kraštutinume NLP apima „išsamų“ žmonių išsakytų žodžių supratimą, bent jau tiek, kad galėtų į juos atsakyti naudingai.

– „ix“ puslapis, natūralios kalbos apdorojimas naudojant „Python“, 2009 m.

Statistinė NLP pasuko kitu kampu ir dabar daug dėmesio skiria giluminio mokymosi neuroninių tinklų naudojimui, kad būtų galima daryti išvadą apie konkrečias užduotis ir sukurti patikimas „nuo galo iki galo“ sistemas.

Viename iš pirmųjų šiai kylančiai temai skirtų vadovėlių Yoavas Goldbergas glaustai apibrėžia NLP kaip automatinius metodus, kurie natūralią kalbą laiko įvestimi arba gamina natūralią kalbą.

Natūralios kalbos apdorojimas (NLP) yra bendras terminas, nurodantis automatinį kompiuterinį žmonių kalbų apdorojimą. Tai apima ir algoritmus, į kuriuos įvestas žmogaus sukurtas tekstas, ir algoritmus, gaminančius natūraliai atrodantį tekstą kaip išvestį.

– xvii puslapis, Neuroninių tinklų metodai natūraliai kalbai apdoroti, 2017 m.

Gilus mokymasis natūraliai kalbai apdoroti

Gilios mokymosi technikos rodo daugybę pažadų užginčyti natūralios kalbos apdorojimo problemas. Sužinokite daugiau čia:

Norėdami sužinoti, kaip giluminiai neuroniniai tinklai gali būti naudojami natūraliai kalbai, žr.

Papildoma literatūra

Šiame skyriuje pateikiama daugiau šaltinių šia tema, jei ieškote giliau.

Knygos

Vikipedija

Santrauka

Šiame įraše atradote, kas yra natūralus kalbos apdorojimas, kodėl jis toks svarbus.

Tiksliau, išmokote:

  • Kas yra natūrali kalba ir kuo ji skiriasi nuo kitų tipų duomenų.
  • Dėl to darbas su natūralia kalba yra toks sudėtingas.
  • Iš kur atsirado NLP sritis ir kaip ją apibrėžia šiuolaikiniai praktikai.

Ar turite kokių nors klausimų?
Užduokite savo klausimus toliau pateiktose pastabose, ir aš padarysiu viską, kad atsakyčiau.

Sukurkite teksto duomenų giluminio mokymosi modelius jau šiandien!

Gilus mokymasis natūraliai kalbai apdoroti

Sukurkite savo teksto modelius per kelias minutes

… tik su keliomis pitono kodo eilutėmis

Sužinokite, kaip mano naujojoje el. Knygoje:
Gilus mokymasis natūraliai kalbai apdoroti

Tai suteikia savarankiško mokymo pamokos tokiomis temomis kaip:
Žodžių krepšys, žodžių įdėjimas, kalbos modeliai, antraščių generavimas, teksto vertimas ir daug daugiau…

Pagaliau gilinkitės į natūralios kalbos apdorojimo projektus

Praleiskite akademikus. Tiesiog rezultatai.

Žiūrėkite, kas yra viduje

Parašykite komentarą

El. pašto adresas nebus skelbiamas. Būtini laukeliai pažymėti *

Previous post Rusijoje įvyko paslaptingas sprogimas. Kas iš tikrųjų nutiko? – Užsienio politika
Next post Kas yra žiedinis poliarizacinis filtras (CPL) ir kaip jį naudoti