中國評論月刊網絡版

您的位置：首頁 ->> 焦點新聞【大中小】【打印】

【第1頁第2頁第3頁第4頁第5頁第6頁】
“傷不起”成年度十大熱詞 “吊絲”落選
http://www.CRNTT.com 2012-07-06 13:42:37

　　中評社北京7月6日訊／《2011年中國語言生活狀況報告》最近發布，傷不起、虎媽、淘寶體和另外7個詞，被宣布為“十大新詞語”，十二五開局、喬布斯、利比亞局勢等則是“十大流行語”……（詳見鏈接）

　　許多人好奇，這兩個“十大”到底是怎麼“選拔”的？該不是一幫人圍一桌你一言我一語凑出來的吧？中國傳媒大學教授侯敏對此回應：怎麼可能？這可是歷經監測、過濾、篩選、釋義等一整套程序，從每年10億字的語料中像沙里淘金那般“提煉”出來的。

從幾萬條中挑幾百個

　　侯敏教授有著另一個頭銜：國家語言資源監測與研究中心有聲媒體語言分中心負責人。她介紹說，每年總量10億字的語料，取自平面媒體、有聲媒體和網絡媒體，並且逐年積累形成三大語料庫。

　　平面媒體語料庫每年新采集5億字，以15份國內報紙為樣本，收入1月1日至12月31日的所有文字；有聲媒體語料庫年采集1億字左右，以央視新聞聯播、央廣新聞與報紙摘要等廣播電視主流新聞欄目為樣本，將1月1日至12月31日的視頻與音頻素材全部轉換成文字；網絡媒體語料庫的年采集量約4億字，收納新浪、騰訊等網站新聞欄目的全年語料。

　　語料備齊，先要人工“淘洗”一番，查找補正漏字、缺字、亂碼等等，而後一股腦兒送進語言信息處理技術平台，平台上裝著全切分軟件、自動分詞軟件等。在電腦上輸入“我是學生”，立馬會被切分成我、是、學、生4個字與我、是、學生3個詞。

　　新詞語，當然要“新”。把2011年度的語料統統切分成詞語之後，需借助軟件把它們跟此前幾年的詞語作比對，去舊留新，剩下來的就構成了年度新詞語候選集——候選的詞語有多少？年均幾萬條。不過其中包含了大量人名、地名、機構名稱、數字表達式、時間表達式等，這些沒有語言學意義，不能算，得剔除。侯敏說，每年最終入圍的幾百個新詞語，就是從這幾萬條候選詞中遴選出來的。遴選完全由人工操作，選中的詞語還要逐條釋義，為此幾十名專家得集體工作兩個多月。這部分工作的成果，《2011年漢語新詞語》今年8月將正式出版。

　　相比新詞語，流行語的“選拔”簡單些。利用電腦軟件，統計出每個詞在365天中的生命周期長短、出現頻次高低等指標，然後對比前一年數據，使用頻率相仿的即刻淘汰，而一旦發現使用頻率“異峰突起”的，就留下。“迅速盛行、廣為傳播是流行語和其他詞語的最大區別；從新出現或較少使用到廣泛使用的間隔時間短，是流行語的顯著特征。”中國傳媒大學副教授滕永林說，流行語的人工篩選也相對輕鬆，候選集跟最後公布的流行語差別不太大。

【第1頁第2頁第3頁第4頁第5頁第6頁】