唐詩偏重空間,而宋詩偏重時間。敻絕的宇宙意識和無垠的空間,從《全唐詩》詞頻前五位中(不知、何處、萬里、千里、不見)可見一斑。日本漢學家吉川幸次郎曾提出,唐詩是凝視著人生貴重瞬間的燃燒,所注視的只是對象的頂點。而宋詩是時間性的,詩人視人生為漫長的持續。以語詞的統計來衡量這一觀點,唐詩排序最高的時間詞是“今日”(8),時空與情感凝注於此一點,而宋詩中居首的是“十年”(9),繼而是“今日”(12)與“百年”(20)。吉川將“燃燒與持續”的說法推進至意象選用的對比方面,夕陽是燃燒的景象,雨是持續的景象,於是有了“唐人寫夕陽宋人寫雨”的經典論斷。詞頻統計恰也驗證了這點,《全唐詩》詞頻居於前列的“落日”(55)、“日暮”(59)、“夕陽”(69),在宋詩中都排在九十位之後。
不同於信息爆炸的現代,傳世文獻中的經典文本邊界是相對清晰的,然而其體量對於專注於某一選題或領域的研究者依然難以全體掌握。基於大數據技術的古代文學經典文本分析,既著眼於經典文獻,又以海量的基礎文獻為基礎,希望在較短時間內用高效、全面的數據挖掘,來進行準確有效的文本分析。傳統古典學研究中的結論多通過個人有限閱讀過程中的觀察、思索、領悟等方式獲得,這類方式往往具備一定的主觀性乃至先驗色彩。大數據的匯聚和計算分析方法的運用,能夠使既出人意表又允執厥中的結論“自動湧現”。
利用大數據將以往被分裂和隔絕的事物重新連接,改變了我們對文獻、文本、知識的認識路徑和把握尺度。僅從字/詞頻統計這一大數據手段的微小切面入手,我們便已初步獲得了以一種新方式探測經史、語言學、文學等領域文獻的體驗。與用不同技術手段、不同結構化方式、不同顆粒度重構的集成式文獻知識庫相比,以上工作或許只是一份小嘗試。相信隨著統計數據的累積、叠加和映射,古籍和傳統文化研究一定能夠煥發出更多生機和活力。 |