📖 ZKIZ Archives


翻譯

之前看到Cherry談及blog文被讀者用Google translate整篇翻譯,池某也開始留意一下流量來源是否有這種“怪事”。當然,心裡是不抱什麼期待的。畢竟,程式賭馬、統計賭波,甚至量化投資等等,本來就是鬼佬的玩意,正常人都會看原汁原味的外文文章或英譯中版本,看中譯英版本完全沒有必要。意外的是,“怪事”還是零零星星地發生了,其中在流量來源出現得最多的是這篇:


乍看之下池某也搞不清楚這是哪篇文章,就算睇埋內文,也想不起哪篇blog文是用“四個星期日”開頭的。根據發表日期翻查,才發現被譯作“Small production works”的其實是“小製作 大工程”。而內文的“four Sunday”,則是機器翻譯將“四個星期日以繼夜”分詞錯誤所致。

機器翻譯是否可靠,是個見仁見智的問題。若只以模糊正確為目標,再加上自己的猜想作補救,會較容易接受。有國際版的翻譯員就曾對池某說,Google translate太強大了,英譯中連中國過去的外交政策叫“韜光養晦”也能準確譯出,如果其他錯誤率再降低一些,國際版翻譯員都要失業了。

若把要求提高一些,則不難發現機器翻譯仍有很多未能克服的盲點,除了上述提及的分詞問題,古文、古詩詞(例如那個經典的“松下問童子”的例子)、缺乏上文下理的抽象語句,或者地方的方言俗語等等,機器翻譯都拙於應付。

大概兩三年前,池某公司新來的翻譯員處理一篇鬼佬文章時,練精學懶偷偷用Google translate做來,以為可以“過骨”,結果把內文描述朱鎔基就任總理時當時的美國財長Lawrence Summers仆去北京“kiss Zhu's ring”,直譯成“親吻朱的戒指”,她那不學無術的主管還以為執到寶,學人玩Gimmick直接用這句來起題,氣得池某沒留下半句解釋就把她們的勞動成果刪到垃圾桶。

機器翻譯、語言識別等語言處理問題,早在上世紀八十年代在美國就有富有成果的研究,理論上無論是美式俗語還是英式俗語都應能準確掌握,沒理由經過幾十年發展仍犯這種“低級錯誤”。實際上,機器處理語言的語法規則確實是經歷了幾十年而無顯著突破。因為機器並不能真正“學習”語言,只是根據統計語言模型(Statistical Language Models)來處理語言問題。

所謂統計語言模型,簡單地說,就是利用conditional probability,計算一個文字序列構成某個有意義句子的可能性。咦?聽起來似曾相識,像池某這樣的小賭徒,把文字序列的詞語換成贏馬因素,不就變成可以計算頭馬的可能性嗎?同樣道理,換成股票的升跌因素,應該也能計算股票升跌的可能性。

現實確是這樣的。機器處理語言之所以經歷了幾十年而無突破,原因之一應是上世紀八九十年代在這個領域研究處於領先地位的猛人忽然集體消失了。他們哪裡去了?正正就是把相關理論和技術應用到股票投資,集體轉戰華爾街,還個個賺到盤滿鉢滿。

下回再談。
PermaLink: https://articles.zkiz.com/?id=246653

Next Page

ZKIZ Archives @ 2019