【 第1頁 第2頁 第3頁 第4頁 第5頁 第6頁 】 | |
“傷不起”成年度十大熱詞 “吊絲”落選 | |
http://www.CRNTT.com 2012-07-06 13:42:37 |
許多人好奇,這兩個“十大”到底是怎麼“選拔”的?該不是一幫人圍一桌你一言我一語凑出來的吧?中國傳媒大學教授侯敏對此回應:怎麼可能?這可是歷經監測、過濾、篩選、釋義等一整套程序,從每年10億字的語料中像沙里淘金那般“提煉”出來的。 從幾萬條中挑幾百個 侯敏教授有著另一個頭銜:國家語言資源監測與研究中心有聲媒體語言分中心負責人。她介紹說,每年總量10億字的語料,取自平面媒體、有聲媒體和網絡媒體,並且逐年積累形成三大語料庫。 平面媒體語料庫每年新采集5億字,以15份國內報紙為樣本,收入1月1日至12月31日的所有文字;有聲媒體語料庫年采集1億字左右,以央視新聞聯播、央廣新聞與報紙摘要等廣播電視主流新聞欄目為樣本,將1月1日至12月31日的視頻與音頻素材全部轉換成文字;網絡媒體語料庫的年采集量約4億字,收納新浪、騰訊等網站新聞欄目的全年語料。 語料備齊,先要人工“淘洗”一番,查找補正漏字、缺字、亂碼等等,而後一股腦兒送進語言信息處理技術平台,平台上裝著全切分軟件、自動分詞軟件等。在電腦上輸入“我是學生”,立馬會被切分成我、是、學、生4個字與我、是、學生3個詞。 新詞語,當然要“新”。把2011年度的語料統統切分成詞語之後,需借助軟件把它們跟此前幾年的詞語作比對,去舊留新,剩下來的就構成了年度新詞語候選集——候選的詞語有多少?年均幾萬條。不過其中包含了大量人名、地名、機構名稱、數字表達式、時間表達式等,這些沒有語言學意義,不能算,得剔除。侯敏說,每年最終入圍的幾百個新詞語,就是從這幾萬條候選詞中遴選出來的。遴選完全由人工操作,選中的詞語還要逐條釋義,為此幾十名專家得集體工作兩個多月。這部分工作的成果,《2011年漢語新詞語》今年8月將正式出版。 相比新詞語,流行語的“選拔”簡單些。利用電腦軟件,統計出每個詞在365天中的生命周期長短、出現頻次高低等指標,然後對比前一年數據,使用頻率相仿的即刻淘汰,而一旦發現使用頻率“異峰突起”的,就留下。“迅速盛行、廣為傳播是流行語和其他詞語的最大區別;從新出現或較少使用到廣泛使用的間隔時間短,是流行語的顯著特征。”中國傳媒大學副教授滕永林說,流行語的人工篩選也相對輕鬆,候選集跟最後公布的流行語差別不太大。 |
【 第1頁 第2頁 第3頁 第4頁 第5頁 第6頁 】 |