日韩有码亚洲专区|国产探花在线播放|亚洲色图双飞成人|不卡 二区 视频|东京热av网一区|玖玖视频在线播放|AV人人爽人人片|安全无毒成人网站|久久高清免费视频|人人人人人超碰在线

概率語(yǔ)言

前言:本站為你精心整理了概率語(yǔ)言范文,希望能為你的創(chuàng)作提供參考價(jià)值,我們的客服老師可以幫助你提供個(gè)性化的參考范文,歡迎咨詢。

概率語(yǔ)言

一、語(yǔ)言事實(shí)與語(yǔ)言理論

20世紀(jì)中葉以來(lái),生成轉(zhuǎn)換語(yǔ)法突破原來(lái)結(jié)構(gòu)主義和行為主義的藩籬,掀起了語(yǔ)言學(xué)界的軒然大波,出現(xiàn)了眾多語(yǔ)言理論異彩紛呈的局面。在語(yǔ)言學(xué)爭(zhēng)論中,各種語(yǔ)言學(xué)派都列舉語(yǔ)言事實(shí)作為其理論的支撐點(diǎn)。從現(xiàn)代語(yǔ)言學(xué)的傳統(tǒng)來(lái)看,從描寫(xiě)主義、歷史主義到結(jié)構(gòu)主義,從語(yǔ)言習(xí)得、語(yǔ)言教學(xué)到語(yǔ)文改革,都注重收集語(yǔ)言數(shù)據(jù),提倡經(jīng)驗(yàn)主義。Chomsky(1957,1961)的理性主義則主張語(yǔ)言學(xué)家的任務(wù)是描寫(xiě)人的語(yǔ)言能力,外部語(yǔ)料(例如語(yǔ)料庫(kù))無(wú)法解釋語(yǔ)言能力。理性主義所根據(jù)的語(yǔ)言事實(shí)是語(yǔ)言學(xué)家本身的母語(yǔ)知識(shí)(直覺(jué)、天性),由此可推導(dǎo)出UG(linguisticuniversals,語(yǔ)言共同性、語(yǔ)言共項(xiàng))。Chomsky主要針對(duì)20世紀(jì)中葉以前以經(jīng)驗(yàn)主義為基礎(chǔ)的語(yǔ)法研究(例如Fries依賴美國(guó)政府非正式通訊檔案來(lái)編寫(xiě)AmericanEnglishGrammar,1940),不無(wú)道理。但理性主義研究方法提出以來(lái),語(yǔ)言理論層出不窮,而我們?cè)诔撩杂诶碚摰慕忉寱r(shí),卻往往忽略了一個(gè)出發(fā)點(diǎn):語(yǔ)言理論雖可解釋語(yǔ)言事實(shí),但語(yǔ)言事實(shí)本身并非語(yǔ)言理論的產(chǎn)物。語(yǔ)言事實(shí)和語(yǔ)言理論究竟誰(shuí)是第一性的?如果我們承認(rèn)語(yǔ)言事實(shí)是第一性的,那么根據(jù)哪些語(yǔ)言事實(shí)來(lái)提升語(yǔ)言理論?是語(yǔ)言研究者憑本人直覺(jué)所提供的語(yǔ)言事實(shí),還是大多數(shù)語(yǔ)言使用者所提供的語(yǔ)言事實(shí)?鄭錦全在談到美國(guó)語(yǔ)言學(xué)研究現(xiàn)狀時(shí)指出:“目前美國(guó)語(yǔ)言學(xué)界存在一個(gè)問(wèn)題:理論泛濫,而缺少充分的語(yǔ)言材料,不夠扎實(shí)”(張鳳芝等2002:77)。

語(yǔ)言學(xué)中理性主義的基石之一是語(yǔ)言能力/運(yùn)用的兩分法,自Saussure提出“語(yǔ)言”和“言語(yǔ)”的區(qū)別以來(lái),贊成此說(shuō)者不少。Chomsky強(qiáng)化了它們的區(qū)別,將之看成是涇渭分明。對(duì)此,不同的語(yǔ)言學(xué)家從不同的角度提出了相反的看法。從語(yǔ)篇研究的角度持相反意見(jiàn)的語(yǔ)言學(xué)家有:Pike,Hjelmslev,Firth,Halliday,vanDijk&Kintsch,Hartmann等人(見(jiàn)Beaugrande1991)。社會(huì)語(yǔ)言學(xué)家(如Hymes1972)、功能語(yǔ)法學(xué)派(如Hallidayl973)、應(yīng)用語(yǔ)言學(xué)家(如Widdowsonl984)、心理語(yǔ)言學(xué)家和語(yǔ)用學(xué)家更是毫不諱言,指出語(yǔ)言運(yùn)用才是他們研究的對(duì)象。語(yǔ)用學(xué)家Mey(1993:5)指出,“語(yǔ)用學(xué)的恰當(dāng)領(lǐng)域是Chomsky所說(shuō)的語(yǔ)言運(yùn)用”。心理語(yǔ)言學(xué)家Aitchison(1998:183-184)雖廣泛地介紹了Chomsky的觀點(diǎn),卻也覺(jué)得把語(yǔ)言能力和語(yǔ)言運(yùn)用截然分開(kāi)難以接受,認(rèn)為“心理語(yǔ)言學(xué)家對(duì)語(yǔ)言運(yùn)用和語(yǔ)言知識(shí)同樣感興趣;兩者密切相關(guān),任何人只注意其中一個(gè)因素,而忽略另一個(gè)因素,是很奇怪的”。

內(nèi)省式的語(yǔ)言研究方法也受到不少人的質(zhì)疑。在語(yǔ)音學(xué)研究中,人們只能依賴自然觀察的數(shù)據(jù)。語(yǔ)言習(xí)得研究難以采用內(nèi)省式判斷,研究者本人的語(yǔ)言直覺(jué)代替不了兒童的語(yǔ)言直覺(jué)(McEnery&Wilson1996)。Chomsky(1964)自己也認(rèn)為反對(duì)觀察語(yǔ)言運(yùn)用的看法并不適用于研究語(yǔ)言習(xí)得。內(nèi)省式判斷對(duì)自然觀察方法的指責(zé)是言過(guò)其實(shí)。自然觀察的數(shù)據(jù)的好處是有案可查、有目共睹,可以驗(yàn)證;而內(nèi)省式的判斷則是個(gè)人的行為,往往沒(méi)有太大把握,容易陷入循環(huán)論證的怪圈。這實(shí)際上是科學(xué)研究中經(jīng)常出現(xiàn)的客觀知識(shí)和主觀知識(shí)問(wèn)題:是自然現(xiàn)象還是人為現(xiàn)象?是公眾的觀察還是個(gè)人的臆斷?至于當(dāng)初Chomsky對(duì)語(yǔ)料庫(kù)的任意性偏態(tài)的指責(zé),也不見(jiàn)得公允。Oakes(1998)指出,如果我們使用對(duì)數(shù)正態(tài)分布(lognormaldistribution)的辦法來(lái)描述語(yǔ)料分布,偏態(tài)就不會(huì)出現(xiàn)。值得注意的是Alien&Seidenberg(1999)的研究,他們認(rèn)為,在整個(gè)生成語(yǔ)法歷史中一直沒(méi)有弄清楚語(yǔ)言能力和語(yǔ)言運(yùn)用的關(guān)系,其實(shí)兩者不能截然分開(kāi),他們使用了連接主義網(wǎng)絡(luò)模型的方法來(lái)模擬語(yǔ)法性判斷,說(shuō)明語(yǔ)言運(yùn)用也可以產(chǎn)生語(yǔ)言能力。

應(yīng)該說(shuō),生成語(yǔ)法學(xué)家致力于考察語(yǔ)言能力的同時(shí),作為相反傾向的、主張尊重客觀語(yǔ)言事實(shí)的經(jīng)驗(yàn)主義傳統(tǒng)并沒(méi)有中斷,而且在理論、方法論上也有很大進(jìn)步。數(shù)據(jù)的基本特征是頻數(shù)(frequency),表現(xiàn)為概率關(guān)系,這就導(dǎo)致以概率為基礎(chǔ)的語(yǔ)言研究的蓬勃發(fā)展。Halliday(1991)認(rèn)為,語(yǔ)言系統(tǒng)的概率是固有的。當(dāng)然觀察頻數(shù)僅是一種手段,不是目的。其目的應(yīng)該是觀察問(wèn)題和回答問(wèn)題,從定量向定性發(fā)展(Aartsl999)。概率語(yǔ)言學(xué)、計(jì)算語(yǔ)言學(xué)、語(yǔ)料庫(kù)語(yǔ)言學(xué)、心理語(yǔ)言學(xué)都是以頻數(shù)和概率為基礎(chǔ)的,它們體現(xiàn)了尊重語(yǔ)言事實(shí)的歷史傳統(tǒng)的重現(xiàn)光彩。

二、概率語(yǔ)言學(xué)的提出

語(yǔ)言研究的概率方法(ProbabilisticApproach)由此出現(xiàn)。2001年美國(guó)語(yǔ)言學(xué)會(huì)首先在華盛頓召開(kāi)了第一次語(yǔ)言學(xué)概率理論專題討論會(huì),其結(jié)果見(jiàn)Bob等(2003)的《概率語(yǔ)言學(xué)》。該書(shū)Jurafsky(2003)一文指出:“各式各樣的證據(jù)表明語(yǔ)言是概率性的。概率在語(yǔ)言理解和產(chǎn)生方面,對(duì)意義提取、分解和生成起作用。概率在學(xué)習(xí)方面,對(duì)切分和概括起作用。概率在語(yǔ)音學(xué)和形態(tài)學(xué)方面,對(duì)可接受性判斷和替換性起作用。概率在句法學(xué)和語(yǔ)義學(xué)方面,對(duì)范疇梯度化、句法合格與否的判斷和解釋起作用。概率在建立語(yǔ)言變化和差異模型中更起到關(guān)鍵作用?!爆F(xiàn)代語(yǔ)言學(xué)的基石是所謂“范疇主義的準(zhǔn)則”(maximofcategoricity)。語(yǔ)言是一些定義清晰的、離散的范疇,數(shù)量不起什么作用。雖然真正的語(yǔ)言有很多變數(shù)、有梯度,但它僅是語(yǔ)言運(yùn)用的產(chǎn)物。但是概率語(yǔ)言學(xué)的主張者認(rèn)為,越來(lái)越多的證據(jù)表明,語(yǔ)言判斷顯示出連續(xù)統(tǒng)的特性,是一種明顯的梯度行為。2003年在Atlanta召開(kāi)的第二次概率語(yǔ)言學(xué)討論會(huì),深入討論了怎樣把概率語(yǔ)言學(xué)和當(dāng)前語(yǔ)言學(xué)潮流結(jié)合起來(lái)。會(huì)議認(rèn)為概率語(yǔ)言學(xué)和生成語(yǔ)言學(xué)似乎是對(duì)立的,其實(shí)也并行不悖:生成語(yǔ)言學(xué)的目的是獲得語(yǔ)言現(xiàn)象分布的最終結(jié)果,而概率語(yǔ)言學(xué)則考慮較少為人探索的、有梯度的中間地帶。只注意連續(xù)統(tǒng)的兩端,會(huì)使一半語(yǔ)言現(xiàn)象得不到探索和解釋。兩者結(jié)合起來(lái)可以讓語(yǔ)言學(xué)家去探索數(shù)據(jù)中那些不易為人覺(jué)察的、沒(méi)有得到解釋的微妙的型式,使語(yǔ)言學(xué)界超越那些顯而易見(jiàn)的現(xiàn)象。“中間地帶論”只是概率語(yǔ)言學(xué)的一種想法,生成語(yǔ)法學(xué)者是否也這樣想,那是另一回事。

計(jì)算語(yǔ)言學(xué)、語(yǔ)料庫(kù)語(yǔ)言學(xué)、統(tǒng)計(jì)語(yǔ)言學(xué)也把頻數(shù)作為它們研究的出發(fā)點(diǎn)。它們更直截了當(dāng)?shù)靥岢龊屠硇灾髁x相對(duì)立的經(jīng)驗(yàn)主義,Sampson(2000)稱之為經(jīng)驗(yàn)語(yǔ)言學(xué)(empiricallinguistics)。Manning&Schutze(1999)認(rèn)為,從1960到1985之間,理性主義完全統(tǒng)治了語(yǔ)言學(xué)、心理學(xué)、人工智能和自然語(yǔ)言處理,但是原來(lái)在1920-1960年間盛行過(guò)的經(jīng)驗(yàn)主義傳統(tǒng)在1970-1989年之間有所復(fù)蘇。經(jīng)驗(yàn)主義也認(rèn)為人的大腦生來(lái)就有認(rèn)知能力,不過(guò)并沒(méi)有理性主義所說(shuō)的與語(yǔ)言組件有關(guān)的原則和程序。經(jīng)驗(yàn)主義從信息論的角度出發(fā),不贊成范疇化的原則,把語(yǔ)言現(xiàn)象分為合語(yǔ)法和不合語(yǔ)法。Colorlessgreenideassleepfuriously雖然合乎語(yǔ)法,但實(shí)際上沒(méi)有人那樣說(shuō)。還不如把語(yǔ)言事件的出現(xiàn)看成是概率性的行為,如把句子分為“經(jīng)常出現(xiàn)”和“不經(jīng)常出現(xiàn)”。所以一個(gè)學(xué)英語(yǔ)的學(xué)生寫(xiě)下這樣的句子:Inadditiontothis,sheinsistedthatwomenwereregardedasadifferentexistencefrommanunfairly./Ihaveanacheinthehead.即算是合語(yǔ)法,操本族語(yǔ)者也聽(tīng)得懂,但卻覺(jué)得他們自己不會(huì)這樣說(shuō)。Manning&Schutze(1999)認(rèn)為,語(yǔ)言的非范疇化現(xiàn)象在語(yǔ)言變化中尤為明顯。英語(yǔ)中的while曾經(jīng)用作名詞,表示“時(shí)間”(如takeawhile),但后來(lái)卻變?yōu)橐龑?dǎo)從句的補(bǔ)足語(yǔ)(Whileyouwereout...)。我們沒(méi)有什么理由說(shuō)它在1742年前是名詞,以后則變?yōu)檠a(bǔ)足語(yǔ)。這是因?yàn)樗氖褂妙l數(shù)在不同的語(yǔ)言環(huán)境中有變化。從本質(zhì)上看,認(rèn)知和作為它的一部分的語(yǔ)言都是概率現(xiàn)象,概率論應(yīng)是解釋語(yǔ)言的理論核心。認(rèn)知之所以是概率性現(xiàn)象,是因?yàn)槭澜绯錆M了不確切性和不完整的信息。Chomsky(1957)反對(duì)根據(jù)語(yǔ)料庫(kù)的話語(yǔ)來(lái)計(jì)算句子的概率,認(rèn)為這樣一來(lái),合語(yǔ)法和不合語(yǔ)法的句子的概率都會(huì)很低,難以解釋語(yǔ)言的能產(chǎn)性。Manning&Schutze(1999)認(rèn)為這種看法只是針對(duì)那些對(duì)概率表征有偏見(jiàn)的人而言的。以tall(高)的認(rèn)知表征而言,當(dāng)我們看到一個(gè)堂堂七尺的男子漢,又第一次看到這樣的高度時(shí),我們才會(huì)叫他“高個(gè)子”,而不會(huì)把他看成非范疇化的男子。如果又看到一個(gè)只有四尺的男子,我們絕不會(huì)叫他為“高個(gè)子”。所以概率論的模型很容易表征這種規(guī)律性,而對(duì)未經(jīng)檢驗(yàn)的句子做出判斷。它不會(huì)把未經(jīng)判斷的句子都看成一樣。

三、語(yǔ)料庫(kù)語(yǔ)言學(xué)的興起

Svartvik(1996)指出,語(yǔ)料庫(kù)正在成為主流,它不但提供了一種研究方法,而且提供了一種新的哲學(xué)思維方式,就像Leech(1992)所說(shuō)的,“它是一種‘芝麻開(kāi)門’,導(dǎo)致關(guān)于語(yǔ)言的新思維方式”。Sampson(2001)認(rèn)為,由于語(yǔ)言運(yùn)用存在一些別的因素而排斥它,也違反科學(xué)常理。例如加速使物體下落部分地受引力規(guī)律所控制,但其他的外部因素(例如空氣阻力、氣流運(yùn)動(dòng))也會(huì)發(fā)生干擾。一個(gè)研究引力規(guī)律的物理學(xué)家不會(huì)因?yàn)橛辛诉@些外部因素,而放棄觀察數(shù)據(jù)。他無(wú)非是把這些因素分離開(kāi)來(lái)。Sampson(1992)指出,采用內(nèi)省式方法想出來(lái)的句子和語(yǔ)料庫(kù)所收集的句子相距甚遠(yuǎn),不但是語(yǔ)料,就是內(nèi)省式判斷也存在任意性偏態(tài)。Chomsky認(rèn)為有些句子不見(jiàn)于語(yǔ)料庫(kù),這實(shí)際上說(shuō)明一個(gè)饒有趣味而又十分重要的問(wèn)題:頻數(shù)問(wèn)題。人類并不太清楚某些詞語(yǔ)或結(jié)構(gòu)的頻數(shù)是多少,用內(nèi)省式方法更不能了解以頻數(shù)為基礎(chǔ)的數(shù)據(jù)。例如They''''rejusttryingtoscorebrowniepointswithpoliticians./Thebossispleased-that''''sanotherbrowniepoint.這兩句話中有一句是來(lái)自真實(shí)的語(yǔ)料庫(kù),是哪一句呢??jī)?nèi)省式判斷會(huì)產(chǎn)生意見(jiàn)紛紜,通過(guò)語(yǔ)料庫(kù)檢索可了解到browniepoints的頻數(shù)是76,而browniepoint的頻數(shù)只有6??梢?jiàn)用作復(fù)數(shù)的情況多得多。

從計(jì)算語(yǔ)言學(xué)的角度看,作為以規(guī)則為基礎(chǔ)的人工智能派的對(duì)立面的概率派在20世紀(jì)80年代出現(xiàn)。Sampson(1987)指出,概率方法的特點(diǎn)有三:1)使用依賴語(yǔ)言統(tǒng)計(jì)特性的分析技術(shù),而不是使用絕對(duì)的邏輯規(guī)則;2)焦點(diǎn)放在不受限制的語(yǔ)篇中的真實(shí)材料,而不是一些語(yǔ)言學(xué)家自己發(fā)明的例子;3)和這兩點(diǎn)有關(guān)的是,由于算法需要而采用的對(duì)付真實(shí)的、而不是事先選擇好的材料的統(tǒng)計(jì)學(xué)是強(qiáng)有力的。當(dāng)時(shí)提出這種方法的是少數(shù)派,主要原因是受到生成轉(zhuǎn)換語(yǔ)法的影響。概率方法在對(duì)語(yǔ)料庫(kù)進(jìn)行語(yǔ)法標(biāo)注上取得了重大進(jìn)展。Brown語(yǔ)料庫(kù)問(wèn)世后,Green與Rubin編制了以規(guī)則為基礎(chǔ)的標(biāo)注程序TAGGIT,準(zhǔn)確率只有77-78%。英國(guó)Lancaster大學(xué)Garside(1987)等人用概率的方法根據(jù)LOB語(yǔ)料庫(kù)所提供的133×133個(gè)標(biāo)注過(guò)渡矩陣而編制的CLAW程序,標(biāo)注的準(zhǔn)確率達(dá)96-97%。CLAW不斷更新,它的第四版吸收了以規(guī)則為基礎(chǔ)的標(biāo)注程序的優(yōu)點(diǎn),用來(lái)處理一億詞的BNC,其錯(cuò)誤率是:1.15%,歧義率是3.75%。在高科技(計(jì)算機(jī)的普及,大硬盤、高內(nèi)存的出現(xiàn),掃描儀和光盤技術(shù)的發(fā)展)的推動(dòng)下,語(yǔ)料的收集數(shù)量以一日千里之勢(shì)增加,現(xiàn)在的語(yǔ)料庫(kù)實(shí)際上已是機(jī)讀語(yǔ)料庫(kù)。20世紀(jì)60年代出現(xiàn)的Brown和LOB語(yǔ)料庫(kù)只有100萬(wàn)詞,而現(xiàn)在的LGSWE(LongmanSpokenandWrittenEnglishCorpus)已達(dá)4000萬(wàn)詞,BNC(BritishNationalCorpus)已達(dá)1億詞(而且提供光盤版給人研究),而COBUILD語(yǔ)料庫(kù)(BankofEnglish)則接近4億詞。Biber等人(1999)根據(jù)LGSWE而編著的LongmanGrammarofSpokenandWrittenEnglish,洋洋灑灑達(dá)1000多頁(yè),對(duì)各種英語(yǔ)使用現(xiàn)象的描寫(xiě)大都附以語(yǔ)料庫(kù)的統(tǒng)計(jì)資料,令人耳目一新。由15個(gè)國(guó)家和地區(qū)的語(yǔ)料庫(kù)專家聯(lián)合開(kāi)發(fā)的國(guó)際英語(yǔ)語(yǔ)料庫(kù)(InternationalCorpusofEnglish,簡(jiǎn)稱ICE),按照統(tǒng)一部署收集各個(gè)國(guó)家和地區(qū)的英語(yǔ)語(yǔ)料各100萬(wàn)詞,亦接近完成。語(yǔ)料庫(kù)語(yǔ)言學(xué)首先在歐洲興起,而北美因?yàn)槭艿缴烧Z(yǔ)法的影響,相對(duì)滯后,但后來(lái)也發(fā)展神速。Simpson&Swales(2001)指出:“美國(guó)具有迎頭趕上的能量,已經(jīng)得到很好的證實(shí),就等于我們所見(jiàn)到的空間競(jìng)賽中后蘇聯(lián)人造衛(wèi)星時(shí)代和最近10年的美國(guó)汽車工業(yè)一樣?!泵绹?guó)賓州大學(xué)的語(yǔ)言數(shù)據(jù)聯(lián)合體(LinguisticDataConsortium)長(zhǎng)期致力于收集和散布各種語(yǔ)料;由心理學(xué)家MacWhinney主持的CHILDES專門收集說(shuō)各種語(yǔ)言的兒童語(yǔ)料;密歇根大學(xué)開(kāi)發(fā)的MICASE(MichiganCorpusofAcademicSpokenEnglish)專門收集大學(xué)生英語(yǔ)口語(yǔ)語(yǔ)料;美國(guó)考試服務(wù)公司的T2K-SWAL語(yǔ)料庫(kù)(TOEFL2000SpokenandWrittenAcademicLanguageCorpus)則是專門研究大學(xué)英語(yǔ)語(yǔ)體,保證TOEFL考試所測(cè)試的英語(yǔ)符合到美國(guó)大學(xué)就讀的學(xué)生的需要。對(duì)英語(yǔ)的使用者和學(xué)習(xí)者來(lái)說(shuō),他們關(guān)心的不是理論語(yǔ)言學(xué)家坐在扶手椅上(Fillmore語(yǔ))想出來(lái)的母語(yǔ)語(yǔ)言能力(哪些句子是可能的?哪些句子是不可能的?),而是哪些語(yǔ)言現(xiàn)象使用得較為普遍?哪些不那么普遍或較為不普遍?

隨著大型語(yǔ)料庫(kù)的出現(xiàn),在以語(yǔ)料庫(kù)為基礎(chǔ)的方法(corpus-basedapproach)之外,又出現(xiàn)丁受語(yǔ)料庫(kù)驅(qū)動(dòng)的方法(corpus-drivenapproach)。Tognini-Bonelli(2001)指出,以語(yǔ)料庫(kù)為基礎(chǔ)的方法是使用語(yǔ)料庫(kù)的證據(jù)來(lái)解釋、檢驗(yàn)或說(shuō)明語(yǔ)言理論或做語(yǔ)言描述。這些理論或描述是大型語(yǔ)料庫(kù)出現(xiàn)前已經(jīng)存在的,但是語(yǔ)言事實(shí)不夠充分,語(yǔ)料庫(kù)提供了收集大量、可靠數(shù)據(jù)的手段。Bob的自然語(yǔ)言處理研究、Quirk等人的《當(dāng)代英語(yǔ)綜合語(yǔ)法》、Halliday的功能語(yǔ)法學(xué)派都是使用這種方法。受語(yǔ)料庫(kù)驅(qū)動(dòng)的方法則不限于使用語(yǔ)料庫(kù)來(lái)選擇例證以支持某一種理論的陳述,而著眼于整個(gè)語(yǔ)料庫(kù)的完整性,根據(jù)語(yǔ)料庫(kù)所提供的證據(jù)來(lái)全面地描寫(xiě)語(yǔ)言。所以理論的陳述和語(yǔ)料庫(kù)所提供的證據(jù)應(yīng)該是一致的,它應(yīng)該直接反映語(yǔ)料庫(kù)的證據(jù),根據(jù)頻數(shù)分布和反復(fù)出現(xiàn)的型式來(lái)系統(tǒng)地導(dǎo)出語(yǔ)言范疇。作為這種方法的體現(xiàn)的是Sinclair1987以來(lái)所從事的COBUILD工程(包括CollinsCobuildDictionary和一系列叢書(shū)),Hunston&Francis(2000)的《型式語(yǔ)法》是體現(xiàn)這種方法的一本代表作。

四、心理語(yǔ)言學(xué)的突破

在20世紀(jì)50年代,受信息論影響,語(yǔ)言學(xué)和心理語(yǔ)言學(xué)的許多研究都使用了統(tǒng)計(jì)和概率的方法。但是60-80年代,這種方法銷聲匿跡了。到了90年代這種方法有了很大復(fù)蘇,根據(jù)Jurafsky(2003)的統(tǒng)計(jì),在2000年國(guó)際計(jì)算語(yǔ)言學(xué)協(xié)會(huì)年會(huì)上,有77%的論文都采用了語(yǔ)言和學(xué)習(xí)概率模型。關(guān)于語(yǔ)言理解,可從三個(gè)方面看概率的作用:(1)從心理詞匯或語(yǔ)法的角度看,語(yǔ)言結(jié)構(gòu)的提取是一種概率性行為:最有可能被提取的結(jié)構(gòu)提取時(shí)間最短,花的力氣最少。(2)解決歧義??赡苄栽酱蟮慕忉屧綍?huì)被選中。概率在解決歧義時(shí)起了核心作用。(3)解決語(yǔ)言理解的加工難度。一些加工難度較大的句子都是概率很低的句子。同樣的道理也適合于解釋語(yǔ)言產(chǎn)生:概率高的句子被提取得快,如有多個(gè)被選的結(jié)構(gòu),概率就會(huì)起作用。在研究學(xué)習(xí)方面,語(yǔ)言學(xué)習(xí)結(jié)構(gòu)的模型也是以概率和信息理論的模型為基礎(chǔ)。概率論對(duì)心理語(yǔ)言學(xué)的最基本的啟發(fā)是使用證據(jù)推導(dǎo)的結(jié)構(gòu)模型:它提供了一種很容易理解的算法(例如貝葉斯(Bayes)模型),對(duì)證據(jù)進(jìn)行組合和加權(quán),在語(yǔ)言理解時(shí)選擇最佳的解釋,在語(yǔ)言產(chǎn)生時(shí)選擇最佳結(jié)果。概率模型在心理語(yǔ)言學(xué)方面的應(yīng)用廣及語(yǔ)音、形態(tài)、詞匯、句法、語(yǔ)篇處理等方面。

頻數(shù)在語(yǔ)言理解和語(yǔ)言產(chǎn)生中都起到關(guān)鍵的作用,但是頻數(shù)必須和詞語(yǔ)或句法結(jié)構(gòu)有某種關(guān)系,才能發(fā)揮作用。高頻詞辨認(rèn)時(shí)間比低頻詞短、需要較少的感覺(jué)輸入、受鄰近詞的干擾也少。高頻詞的產(chǎn)生時(shí)間也短些,而低頻詞容易導(dǎo)致語(yǔ)音失誤。在解決形態(tài)、句法和語(yǔ)義的歧義時(shí),人們傾向于使用頻率更高的詞類、形態(tài)結(jié)構(gòu)和語(yǔ)義。但是這種詞匯語(yǔ)義/句法范疇的效應(yīng)似乎并沒(méi)有延伸到語(yǔ)言產(chǎn)生。復(fù)合詞結(jié)構(gòu)的頻率在語(yǔ)言理解和語(yǔ)言產(chǎn)生中都有作用。常用的詞組或成語(yǔ)提取得更快,在解決歧義時(shí)也用得更多。各種條件概率在語(yǔ)言理解和語(yǔ)言產(chǎn)生中都起作用。對(duì)具有不只一個(gè)句法次范疇的動(dòng)詞來(lái)說(shuō),最常用的次范疇框架最易于被用來(lái)解決歧義。對(duì)具有一種詞類的單詞來(lái)說(shuō),最常用的詞類最容易被用作解決歧義。競(jìng)爭(zhēng)模型(TheCompetitionModel,MacWhinneyetal.1984;MacWhinney&Bates1989;MacWhinney,2001)是第一個(gè)處理句子的概率模型,它把語(yǔ)言習(xí)得看成是一個(gè)構(gòu)建性的、受數(shù)據(jù)驅(qū)動(dòng)的過(guò)程。這個(gè)過(guò)程并不依賴語(yǔ)言結(jié)構(gòu)的共項(xiàng),而是依賴認(rèn)知過(guò)程的共項(xiàng)。這個(gè)模型強(qiáng)調(diào)詞匯功能主義(句法型式受詞項(xiàng)控制),把“形式”層面(表層形式、句子結(jié)構(gòu)、韻律形式等)映射到“功能”(意義、意圖)。因?yàn)檩斎胧瞧缌x的、有噪音的,句子處理器就必須以概率的方式依賴詞語(yǔ)所提供的各種表層提示(cues)。提示效度(cuevalidity)把提示的概念形式化,而提示效度又可以理解為提示可用性(cueavailability)和提示信度(cuereliability)的結(jié)合。從學(xué)習(xí)者的角度看,語(yǔ)言發(fā)展主要是學(xué)習(xí)和轉(zhuǎn)移在起作用。

以概率為基礎(chǔ)的心理語(yǔ)言學(xué)不限于提出某種語(yǔ)言處理模型,還想進(jìn)一步解決一些長(zhǎng)期以來(lái)爭(zhēng)論不休的理論(例如語(yǔ)言是否天生?)問(wèn)題。這就是涌現(xiàn)論(emergentism)的提出。Bates等人(1998)認(rèn)為這個(gè)問(wèn)題可以得到解決,有三個(gè)原因:首先是理論物理學(xué)的非線形動(dòng)力學(xué)的發(fā)展使我們認(rèn)識(shí)到,按照一個(gè)維度所發(fā)生的少量變化可以導(dǎo)致復(fù)雜的非連續(xù)性的結(jié)果;其次是我們可能通過(guò)神經(jīng)網(wǎng)絡(luò)的模擬技術(shù)來(lái)解釋一些簡(jiǎn)單的輸入怎樣導(dǎo)致復(fù)雜解決方案的產(chǎn)生;其三是發(fā)展神經(jīng)生物學(xué)的突破,“今天神經(jīng)生物學(xué)的成果對(duì)昨天的天生主義是壞消息,因?yàn)檫@些成果強(qiáng)調(diào)了皮層專門化的特別靈活的、依賴于活動(dòng)的性質(zhì),并且支持對(duì)高級(jí)認(rèn)知功能的發(fā)展的涌現(xiàn)主義解釋”。涌現(xiàn)主義可以用來(lái)解釋諸多語(yǔ)言現(xiàn)象,包括語(yǔ)音形式、形態(tài)變化、詞匯結(jié)構(gòu)、語(yǔ)言歷史變化、皮欽語(yǔ)化(pidginization)和二語(yǔ)習(xí)得,而且可以作形式化處理,例如連接主義網(wǎng)絡(luò)模型、動(dòng)力學(xué)系統(tǒng)論、貝葉斯模型、優(yōu)選論,等等,它們都是以概率為基礎(chǔ)的。

以概率為基礎(chǔ)的語(yǔ)言處理模型在心理語(yǔ)言學(xué)中取得了統(tǒng)治的地位,競(jìng)爭(zhēng)模型外,還有以制約為基礎(chǔ)的模型(Constraint-basedModels)、理性模型(RationalModels)、馬爾可夫詞匯范疇優(yōu)先模型(MarkovModelsofLexicalPreference)、不考慮上下文隨機(jī)語(yǔ)法(StochasticContext-freeGrammar)、貝葉斯信念網(wǎng)絡(luò)(BayesianBeliefsNetworks)、語(yǔ)言產(chǎn)生概率模型(ProbabilisticModelingofProduction)等等,限于篇幅,在此不再贅述。

五、對(duì)我國(guó)語(yǔ)言學(xué)界的啟發(fā)

上面著重介紹了以概率為基礎(chǔ)的語(yǔ)言研究方法,絲毫沒(méi)有意思把它說(shuō)成為一種主流的、唯一的研究方法,而只是想說(shuō)明語(yǔ)言研究方法豐姿多采,必須結(jié)合我們自己的實(shí)際鼎新革故,吸收人家的先進(jìn)東西,走我們自己的道路。

1.理論語(yǔ)言學(xué)是我們的弱項(xiàng),而生成轉(zhuǎn)換語(yǔ)法以及其他語(yǔ)言理論模型在西方仍在不斷發(fā)展。借鑒它們的理論和方法建立一套確實(shí)能夠說(shuō)明漢語(yǔ)的語(yǔ)言理論,是我國(guó)語(yǔ)言學(xué)家面臨的一大挑戰(zhàn)。我們的目標(biāo)不限于考察漢語(yǔ)有些什么參數(shù)設(shè)置,還要進(jìn)一步通過(guò)漢語(yǔ)來(lái)探討UG。

2.漢語(yǔ)語(yǔ)言學(xué)有其自身的傳統(tǒng),從小學(xué)(文字、音韻、訓(xùn)詁)到現(xiàn)代漢語(yǔ)研究都注重收集語(yǔ)言數(shù)據(jù)。胡樸安(1983)早在1937年就提出,“訓(xùn)詁學(xué)方法之新趨勢(shì),惟有甲骨文金文之考證與統(tǒng)計(jì)學(xué)之推測(cè),二法而已”。他有感于“瑞典人柯羅倔論著左傳真?zhèn)慰迹奂锤弑緷h(Karlgren),《左傳真?zhèn)慰肌窞殛戀┤缱g,新月書(shū)店出版]用統(tǒng)計(jì)方法統(tǒng)計(jì)左傳、論語(yǔ)、孟子中的助字,為考據(jù)學(xué)者辟一新門徑”。他也統(tǒng)計(jì)了《論語(yǔ)》中的“君子”的頻數(shù)(約六十有余),然后區(qū)分出孔子對(duì)君子之界說(shuō)。胡樸安后,又有多少我國(guó)訓(xùn)詁學(xué)家使用了概率方法,筆者忝屬外行,不敢妄言。但概率方法在某個(gè)意義上不僅是一種方法,而且是一種思想。事物的出現(xiàn)(包括語(yǔ)言的使用)都是一種概率行為,但是我們立論求證時(shí)卻往往忽略這種特性,只注意收集有利于自己觀點(diǎn)的正面證據(jù),而把負(fù)面的證據(jù)置之不顧。在我國(guó)開(kāi)展語(yǔ)言學(xué)研究,概率方法值得重視。

3.實(shí)施以概率為基礎(chǔ)的語(yǔ)言研究方法的一個(gè)基礎(chǔ)工程是收集和建設(shè)語(yǔ)料庫(kù)。這項(xiàng)工程已受到整個(gè)華語(yǔ)世界的重視,但力量分散,各自為政,甚至重復(fù)勞動(dòng)?,F(xiàn)在要考慮的是:(1)我國(guó)大陸、臺(tái)灣、港澳地區(qū)都在組織人力建設(shè)現(xiàn)代漢語(yǔ)的語(yǔ)料庫(kù),應(yīng)該強(qiáng)調(diào)統(tǒng)一力量,加強(qiáng)協(xié)作,像ICE那樣制訂統(tǒng)一的抽樣方案、注釋格式、文本格式,甚至編制統(tǒng)一的、兼容簡(jiǎn)繁體的檢索工具乃至語(yǔ)料庫(kù)工具,便于大家使用。(2)語(yǔ)料的收集和入庫(kù)雖然牽涉大量人力物力,語(yǔ)料本身卻是公共財(cái)富,應(yīng)該向公眾開(kāi)放,如提供在線檢索或語(yǔ)料光盤。(3)古漢語(yǔ)語(yǔ)料庫(kù)的建立也應(yīng)提到議事日程。我國(guó)許多經(jīng)典著作和辭書(shū)都應(yīng)電子化,便于檢索。(4)漢語(yǔ)信息化和電子化的“攔路虎”是斷詞問(wèn)題,大家都有不同的方案和處理方法,應(yīng)集中力量,共謀良策。斷詞問(wèn)題解決不了,語(yǔ)料就無(wú)從進(jìn)行索引??煞窨紤]以“字”為單位,通過(guò)搭配字檢索來(lái)解決詞的問(wèn)題?(5)統(tǒng)一和分散,齊頭并進(jìn)。既要考慮編制大型的語(yǔ)料庫(kù),也要考慮編制各種專業(yè)化的語(yǔ)料庫(kù)。(6)建立語(yǔ)料庫(kù)雖是一項(xiàng)基礎(chǔ)研究,但其根本目的是對(duì)語(yǔ)言使用(包括漢語(yǔ)以及其他民族語(yǔ)言)進(jìn)行客觀的概率研究,因此必須大力訓(xùn)練掌握這種研究方法的人員。

4.在漢語(yǔ)心理語(yǔ)言學(xué)方面,雖有一些零碎研究(如對(duì)母語(yǔ)習(xí)得、二語(yǔ)習(xí)得),但我國(guó)還處在創(chuàng)始階段,任重道遠(yuǎn)。針對(duì)漢語(yǔ)使用而開(kāi)展認(rèn)知心理模型的研究還比較少,關(guān)鍵問(wèn)題是漢語(yǔ)研究和認(rèn)知心理學(xué)研究的結(jié)合問(wèn)題。在西方有過(guò)兩次結(jié)合:首先是語(yǔ)言學(xué)家和心理學(xué)家的結(jié)合,如1951年在美國(guó)Cornell大學(xué)召開(kāi)的暑期研討班、美國(guó)社會(huì)科學(xué)院的語(yǔ)言學(xué)和心理學(xué)委員會(huì)1953年在Indiana大學(xué)召開(kāi)的學(xué)術(shù)討論會(huì),訂出了所謂“心理語(yǔ)言學(xué)憲章”;其次是上世紀(jì)70年代以來(lái)心理語(yǔ)言學(xué)和認(rèn)知心理學(xué)的合流(桂詩(shī)春2000)。這使語(yǔ)言學(xué)通過(guò)心理語(yǔ)言學(xué)的媒介成為認(rèn)知科學(xué)的一個(gè)重要組成部分。

5.以概率為基礎(chǔ)的方法在二語(yǔ)習(xí)得研究中的影響更大,牽涉面更多,實(shí)用意義更大,是一個(gè)很重要的領(lǐng)域。筆者將另作專文討論。

【參考文獻(xiàn)】

1Aarts,B.2000.Corpuslinguistics,Chomskyandfuzzytreefragments[A].InC.Mair&M.Hundt(eds.).CorpusLinguisticsandLinguisticTheory[C].Amsterdam:Rodopi.

2Aitchison,J.1998.TheArticulateMammals:AnIntroductiontoPsycholinguistics[M].London:Routledge.

3Alien.J&Seidenberg.1999.Theemergenceofgrammaticalityinconnectionistnetworks[A].InB.MacWhinney(ed.).TheEmergenceofLanguage[C].NJ:LawrenceErlbaumAssociates,Inc.,Publishers

4Bates,E.,J.Elman,M.Johnson,A.Karmiloff-Smith,D.Parisi&K.Plunkett.1989.Innatenessandemergentism[A].InW.Bechtel&G.Graham(eds.).AComponiontoCognitiveScience[C].Oxford:BasilBlackwell.

5Beaugrande,R.1991.LinguisticTheory:TheDiscourseofFundamentalWorks[M].London:Longman.

6Bob,R.,J.Hays&S.Jannedy.2003.ProbabilisticLinguistics[M].Cambridge,Mass:MITPress.

7Chomsky,N.1957.SyntacticStructures[M].TheHague:Mouton&Co.

8Halliday,M.A.K.1973.ExplorationsintheFunctionofLanguage[M].London:Arnold.

9Halliday,M.A.K.1991.Corpusstudiesandprobabilisticgrammar[A].InK.Aijmeretal.(eds.).EnglishCorpusLinguistics[C].London:Longman

10Hymes,D.1972.Oncommunicativecompetence[A].InJ.B.Prideetal(eds.).Sociolinguistics[C].Harmondsworth:PenguinBooksLtd.

11Jurafsky,D.2003.Probabilisticmodelinginpsycholin-guistics:Linguisticcomprehensionandproduction[A].InR.Bobetal.(eds.).2003.

12LeechG.N.1992.Corporaandtheoriesoflinguisticperformance[A].InJ.Svartvik(ed).DirectionsinCorpusLinguistics.ProceedingsofNobelSymposium82,Stockholm,4-8August,1991[C].MoutondeGruyter,BerlinandNewYork.

13MacWhinney,B.,E.Bates&R.Kliegl.1984.CuevalidityandsentenceinterpretationinEnglish,German,andItalian[J].JournalofVerbalLearningandVerbalBehavior23.127-150.

14MacWhinney,B.&E.Bates.1989.TheCross-linguisticStudyofSentenceProcessing[M].Cambridge:CambridgeUniversityPress.

15MacWhinney,B.2001.TheCompetitionmodel:Theinput,thecontextandthebrain[A].InP.Robinson(ed.).CognitionandSecondLanguageAcquisition[C].Cambridge:CambridgeUniversityPress.

16Manning,C.&H.Schutze.1999.StatisticalNaturalLanguageProcessing[M].

17McEnery,T.&A.Wilson.1996.CorpusLinguistics[M].Edinburgh:EdinburghUniversityPress.

18Mey,J.1993.Pragmatics:AnIntroduction[M].Oxford:BlackwellPublishersLtd.

19Oakes,M.1998.StatisticsforCorpusLinguistics[M].Edinburgh:EdinburghUniversityPress.

20Sampson,G.1987.Probabilisticmodelsofanalysis[A].InR.Garsideetal.(eds.).TheComputationalAnalysisofEnglish[C].London:Longman.16-29.

21Sampson,G.1992.Probabilisticparsing[A].InSvartvik(ed.).DirectionsinCorpusLinguistics:ProceedingsofNobelSymposium82[C].Berlin:MoutonGruyter.

22Sampson,G.2001.EmpiricalLinguistics[M].London:Continuum.

23Simpson,R.&J.Swales.2001.Introduction:NorthAmericanperspectivesoncorpuslinguisticsatthemillennium[A].InR.Simpson&J.Swales(eds.).CorpusLinguisticsinNorthAmerica[C].Michigan:TheUniversityofMichiganPress.

24Svartvik,J.1996.Corporaarebecomingmainstream[A].InJ.Thomas&M.Short(eds.).UsingCorporaforLanguageResearch[C].London:Longman.

25Tognini-Bonelli,E.2001.CorpusLinguisticsatWork[M].Amsterdam:JohnBenjaminsPublishingCo.

26Widdowson,petenceandcapacityinlanguagelearning[A].InH.Widdowson(ed.).ExplorationsinAppliedLinguistics2[C].Oxford:OUP.

27桂詩(shī)春,2000,《新編心理語(yǔ)言學(xué)》[M]。上海:上海外語(yǔ)教育出版社。

28胡樸安,1983,《中國(guó)訓(xùn)詁學(xué)史》[M]。北京:中國(guó)書(shū)店(根據(jù)商務(wù)印書(shū)館1937年版影?。?/p>

29張風(fēng)芝等,2002,語(yǔ)言學(xué)科建設(shè)高級(jí)專家座談會(huì)綜述[J],《暨南大學(xué)華文學(xué)院學(xué)報(bào)》第4期。