【摘要】在這個信息高度膨脹并具有極高共享度的大數(shù)據(jù)時代,數(shù)據(jù)資源在學術研究中發(fā)揮著越來越重要的作用。新中國誕生之后,數(shù)據(jù)資源助力中國文史研究取得了豐碩的成果。但應該注意的是,數(shù)據(jù)資源帶來機遇的同時也帶來了挑戰(zhàn),面對結(jié)構(gòu)化的數(shù)據(jù)庫或知識庫,學界的思維方式與治學方法需要轉(zhuǎn)變。
【關鍵詞】大數(shù)據(jù)時代 文史研究 治學方法
【中圖分類號】G256 【文獻標識碼】A
在印刷術發(fā)明以前,書籍文獻彌足珍貴,人們獲取知識及其他信息的路徑除了人與人之間的口耳相傳,便只有閱讀文字。相比于人與人之間的傳授,閱讀已經(jīng)足以突破時間和空間的限制,讓人的學習方式更加自主便捷,獲取的知識也更加真實可信。然而,無論是天災還是人禍,都可能對書籍的保存和流通造成巨大損害,知識載體的損毀甚至可能直接帶來知識本身的消亡,有感于此,先賢常通過對古書的編輯來將大量的信息與知識整合在一起,這可以視作古人“數(shù)據(jù)庫”建設的初步嘗試。
劉向《別錄》敘述左氏學傳承云:“左丘明授曾申,申授吳起,起授其子期,期授楚人鐸椒,鐸椒作《抄撮》八卷,授虞卿作《抄撮》九卷;授荀卿;荀卿授張倉。”由此可見,“抄撮之學的立意,是為了在較短的時間間內(nèi),花費較少的精力,而得以對一部著作進行整體的簡要性把握。這一時期的此類著作采取何種體制,是完全忠實于原文還是有所發(fā)揮,今已無法考知,但這種刪繁節(jié)要,便于觀覽的編纂出發(fā)點,是非常值得重視的。”吳坰《五總志》:“唐李商隱為文,多檢閱書史,鱗次堆集左右,時謂為獺祭魚。”辛文房在《唐才子傳》也記載:“商隱工詩,為文瑰邁奇古,辭隱事難。及從楚學,儷偶長短,而繁縟過之。每屬綴,多檢閱書冊,左右鱗次,號‘獺祭魚’。”李商隱為詩為文,都以用典綿密著稱,而支撐他的如此不厭其煩的隱詞比事的獺祭行為,難免成了人們津津樂道的話題,從中我們不難覺察出一種取向,即對知識的占有量和剪裁程度是人們作詩作文內(nèi)容豐富與否的必要條件。秦觀也提到了自己在成年記憶力衰退之后,感慨檢索文獻之費時,故而不免依樣畫葫蘆。觀古可知,古人在建構(gòu)自己的知識體系的同時,就已經(jīng)有意識地對既有知識做減法(所謂“抄撮”之學),以便于記憶和檢索,又對其做加法(所謂“雜學”著述),借雜糅所學所見以屬詞比事??梢?,早在電子數(shù)據(jù)庫誕生以前,中國古代學者已經(jīng)有了類似的活動,其目的和功用,與現(xiàn)在并無二致。
數(shù)據(jù)資源助力新中國文史研究取得巨大成就
隨著信息時代的到來,文史研究可以利用的技術手段拓寬,材料獲取途徑的多樣性增強。數(shù)字網(wǎng)絡以及移動通信技術的不斷進步,使得學界得以應用計算機和互聯(lián)網(wǎng)對徽州文書以及甲骨文等原始文史研究材料進行更有效且有深度的辨析。20世紀50年代,語言學家邁克爾·文特里斯(Michael Ventis)成功地破譯了線形文字B。麻省理工學院和谷歌人工智能實驗室的研究人員提出的神經(jīng)網(wǎng)絡算法,實現(xiàn)了古希臘邁錫尼文明時期線形文字B的自動翻譯,把67.3%的線形文字B同源詞翻譯成了希臘語。人工智能、核技術和物理化學技術等前沿技術的應用,使得原始材料被更有效地甄別和解釋,從而拓寬了材料廣度,也促進了新材料的發(fā)現(xiàn)。除此之外,信息時代帶來的材料的重組、學科的交叉、信息文化的興起,也促進了新材料的發(fā)掘、分析及更新。隨著計算機硬件能力的不斷提升,加之數(shù)據(jù)資源的持續(xù)累積,以大數(shù)據(jù)為核心邏輯的智能應用革命開始逐步影響人類的日常生活。在大數(shù)據(jù)技術的幫助下,人們可以利用嶄新的視角來實時、多角度、全方位地掌握事物的發(fā)展規(guī)律,并更好地預測未來,進而為生產(chǎn)和社會活動提供海量而優(yōu)質(zhì)的決策。所以,信息文化的快速發(fā)展,使得整體文化環(huán)境發(fā)生轉(zhuǎn)變,新材料不斷出現(xiàn)、新材料整合速度不斷提高,客觀上促進了數(shù)據(jù)資源的累積,文史研究方法也因此發(fā)生變化。
黨的十一屆三中全會后,在解放思想、實事求是路線的引領下,文史學界不斷開拓創(chuàng)新,中國古代文史研究煥發(fā)出嶄新的生命力。隨著我國對外開放的深化,國家經(jīng)濟實力日益增強,中國古代文史研究取得了豐碩的成果,具體表現(xiàn)在學科構(gòu)建、人才培養(yǎng)、成果出版、國際交流等方面。中國古代文史研究不斷向全方位、多角度、深層次發(fā)展,我國文史工作者在科學系統(tǒng)地借鑒并融合古今中外優(yōu)秀研究理論和方法的基礎上,不斷整合完善現(xiàn)有資料,積極探索新的文獻和考古材料,許多海內(nèi)外罕見文獻因此得以整理并出版。以敦煌吐魯番文書、甲骨文、徽州文書、懸泉置簡帛以及眾多民間文書為代表的新出文獻,夯實了我國古代文史領域的研究基礎,豐富了研究內(nèi)容,拓寬了研究的深度和廣度。與此同時,文獻古籍的數(shù)字化也被提上日程,科研單位和各大高校紛紛上線數(shù)據(jù)庫項目,催生交叉學科研究方法,文史領域治學與數(shù)字化時代同步推進的趨勢日益明顯。
進入21世紀以來,我國文史研究者乘科學技術之東風,借助各類互聯(lián)網(wǎng)信息技術手段,植根于中國歷史實際,發(fā)現(xiàn)、整理和搶救了大量的文獻古籍資料,文獻和古籍的保護進程得以顯著加快,古籍利用和保護之間的矛盾也得到了妥善的解決。近年來,以敦煌文獻數(shù)字化和國際敦煌學、海外中華古籍合作保護以及“一帶一路”鄰國語言文字中漢字音的數(shù)字化整理等為代表的一批重點研究項目不斷推進,通過目錄匯編、圖像/音頻掃描、4D數(shù)據(jù)庫建設等工具手段,在全面保護存檔既有資料的同時,有效地提高了文獻內(nèi)容和考古內(nèi)容的質(zhì)量,為未來文史研究領域的廣度和深度提供了可靠的保障。這些成就,與新中國成立以來在文獻數(shù)據(jù)資料領域持續(xù)不懈的探索整理,以及信息技術和數(shù)字化手段的有效助力,是分不開的。
大數(shù)據(jù)時代為文史研究帶來的機遇與挑戰(zhàn)
大數(shù)據(jù)時代,數(shù)據(jù)在我們的日常生活與學術研究領域發(fā)揮著越來越重要的作用,傳統(tǒng)紙質(zhì)文獻越來越多地被數(shù)字化,各種形式的數(shù)據(jù)庫層出不窮。數(shù)據(jù)作為研究成果的同時,其研究基礎的地位也在不斷被強調(diào)。具體到人文學科的研究,數(shù)字文獻大致可以分成傳統(tǒng)文獻的數(shù)字影像和結(jié)構(gòu)化的數(shù)據(jù)庫。與數(shù)字文獻相比,傳統(tǒng)文獻具有天然的劣勢,除了傳播方式單一、傳播時間較長、保存?zhèn)鞑コ杀据^高等眾所周知的原因以外,我們必須注意到:“舊媒體將知識分割于不同的物理載體之中,比如說這本書的知識很難與另一本書的同類知識關聯(lián),這種檢索工具很難跟另一種檢索工具互通,而學術研究則要求盡可能地聯(lián)系各方知識,便于重新組合和運算。學者重組知識的能力越強,創(chuàng)造力也就越強。”大數(shù)據(jù)時代在減少文史研究所耗費的時間和物質(zhì)成本的同時,使得學者可以高效選取材料進行組合和分析,材料獲取效率增加。以往,學者為了查閱某一文獻資料可能需要跨越大半個中國,準備許多證明材料,而現(xiàn)在足不出戶便能查詢到自己需要的材料。前人遍檢群書而不得的內(nèi)容,我們可能只需用幾秒鐘就可以得到答案,不會利用電子文獻檢索的學者則成了名副其實的“今之古人”。這使得文史研究從側(cè)重獲取新材料轉(zhuǎn)變?yōu)閭?cè)重提出新問題,學術研究更具有效率性,為學科的深入探究提供了便利。
數(shù)據(jù)庫的廣泛使用,打破了學科之間的界線,拓寬了專門知識領域的邊界??鐚W科的知識鏈接,為新知識體系的出現(xiàn)架起橋梁,“國際數(shù)字人文機構(gòu)聯(lián)盟”和“數(shù)字人文中心網(wǎng)絡”這兩大人文研究數(shù)字聯(lián)盟的出現(xiàn),使人文科學和數(shù)字科學加深融合,例如促進了歷史學科從解釋性學科向求是性學科的轉(zhuǎn)變,實現(xiàn)了學科價值的擴展。進而可以說,數(shù)據(jù)庫的出現(xiàn)在不斷拓寬文史研究角度的同時也能影響其研究價值的擴展。同時“人文計算”、復雜網(wǎng)絡分析、大規(guī)模數(shù)據(jù)分析等研究方法的使用,雖然在一定程度上弱化了文史研究中的批判性與人文關懷,但卻在某種程度上革新了文史研究的方式,從而使研究更具科學性。
數(shù)字文獻的不足也是顯而易見的,從文獻的保存、閱讀和檢索來說,不同的數(shù)據(jù)庫必然會展示出不同文字的準確率和檢索的查全率、查準率,即使數(shù)據(jù)庫的制作者精益求精并不斷改進檢索技術,其文本的準確率已經(jīng)做到了與紙本文獻不相上下,我們依然無法避免在檢索“吳梅”時發(fā)現(xiàn)眾多“吳梅村”相關詞條的情況,簡而言之,數(shù)據(jù)庫在無意識檢索的層面可以速度驚人,卻依然無法代替人類進行有意識的搜索。
從這個角度看來,大數(shù)據(jù)時代,我們更要警惕的是“方法論”的錯位。前面已經(jīng)提到,前人也構(gòu)建過自己的“數(shù)據(jù)庫”,雖然和如今的數(shù)字文獻相比,它的規(guī)模無法同日而語,可恰恰是因為被人有意識地編纂,它的優(yōu)勢在于其內(nèi)在的系統(tǒng)性和相互之間的關聯(lián)性,“比如敦煌卷子中發(fā)現(xiàn)的很多小類書,像《孔子備問書》《隨身寶》《太公家教》及《兔園冊》等,它的包羅萬象和排列秩序,其實可以反映當時知識的定型和簡化”,這種系統(tǒng)性和關聯(lián)性交織在一起,構(gòu)成的內(nèi)在的自足性正是這一時期圖書的編纂者和閱讀者“共識性”知識體系的反映,在這種“共識性”的知識、思想背景之下,同時代或之后的學者分享、傳承彼此的知識與經(jīng)驗,他們對未知知識的檢索的出發(fā)點源自于對既有知識的理解和掌握。如果我們不具備對“已知”的熟悉,而卻偏偏執(zhí)著于“未知”的汪洋,所面對的,將是極其危險的處境。
即使我們盡最大所能規(guī)避以“未知”檢索“未知”的情況,卻依然無法忽視數(shù)據(jù)(數(shù)據(jù)庫)本身并不會說話的事實,面對同樣的數(shù)據(jù),對文獻的分析和使用也是因人而異的,這種“橫看成嶺側(cè)成峰”極有可能導致截然相反的結(jié)論。1980年,美國威斯康辛大學陳炳藻先生在《紅樓夢》討論會上發(fā)表《從詞匯統(tǒng)計論證紅樓夢的作者》一文,通過統(tǒng)計《紅樓夢》的詞頻,認定后四十回也出自曹氏,一時引起巨大反響,是繼高本漢之后首次全方位運用電子檢索和統(tǒng)計的手段對《紅樓夢》進行研究,然而不久之后,中國學者陳大康先生同樣用精密的統(tǒng)計方法得出與之相左的結(jié)論:《紅樓夢》后四十回含有曹雪芹少量殘稿,但并非是作者原作。由此可以看出,數(shù)據(jù)本身并不會說話,即使在大數(shù)據(jù)時代,單單靠先進的統(tǒng)計方法,并不是解決人文學科相關問題的“萬能鑰匙”。
大數(shù)據(jù)時代下文史研究的新路徑
飛速發(fā)展的互聯(lián)網(wǎng)信息技術,讓我國的文史研究呈現(xiàn)出若干新趨勢、新特點。國家的戰(zhàn)略性規(guī)劃,各級政府和相關單位的持續(xù)投入,以及優(yōu)秀學術人才的積極參與,都為我國文史文獻資源研究與建設的系統(tǒng)化、數(shù)字化、科學化打下了堅實的基礎。利用大數(shù)據(jù)技術研究中國古代文史,對其本身與相關領域的學科建設和學術發(fā)展,具有極其顯著的意義,這種意義尤其體現(xiàn)在研究范式與方法論的革新上。基于這樣的理解,筆者認為,大數(shù)據(jù)時代下的文史研究方法,可以在以下三個方面有所創(chuàng)新:
一是解決單憑人力難以徹底解決的疑難問題。如中國古代文學中的周邊國家意象與天朝朝貢體系以及中國古代對外交流關系的演化之間,是否存在聯(lián)系?對此類問題來說,數(shù)據(jù)庫是基礎,文本分析技術是核心,需要通過定量統(tǒng)計分析,進行作品的辨?zhèn)?、異文對照,解決修辭特色及風格題材的變遷等懸疑難決的問題。二是重新驗證已有成說的史論。例如明代以李夢陽、何景明為代表的前七子,其詩文創(chuàng)作中是否落實了“文必秦漢,詩必盛唐”的主張?在大數(shù)據(jù)技術的幫助下,我們可以利用共詞及語義分析、人物事件交雜等思路,嘗試全新分析和檢驗諸如社團流派、人物關系、情節(jié)演進、階段特征、歷史影響等已有成說的問題。三是超越印象和定量分析層面,科學梳理文史中存在的特征、規(guī)律、關聯(lián)性問題。例如白居易有詩近四千首,陸游有詩詞近萬首,它們的格局、題材、修辭、風格在不同歷史時期發(fā)生過哪些變化?通過對某作家或某一類作品的深度學習,發(fā)揮其關聯(lián)分析、文本比對等技術優(yōu)勢,挖掘到以往不曾注意到的跡象或線索,以期提高文學經(jīng)典研究的科學性和可靠性。
現(xiàn)階段的中國古代文史研究,在數(shù)據(jù)分析方面雖然已經(jīng)起步,但多局限于文獻數(shù)字化階段。主要用于數(shù)據(jù)內(nèi)容存放和管理的數(shù)據(jù)庫仍然占據(jù)主流,而能夠?qū)崿F(xiàn)分析統(tǒng)計的關系型文史數(shù)據(jù)庫仍然稀少。近些年,隨著《中華經(jīng)典古籍庫》等數(shù)字化文獻資源庫的推出,數(shù)據(jù)庫在文獻檢索功能方面已有較大的進步,但結(jié)構(gòu)化的實現(xiàn)統(tǒng)計分析和知識再生、運用數(shù)字人文的分析工具和技術方法來研究古代文史等功能,仍處在嘗試性階段,未成規(guī)模,影響也不大。如何建設更為豐富、完善的數(shù)據(jù)庫,如何使數(shù)據(jù)庫功能更加人性化與科學化,如何讓數(shù)據(jù)庫在文史研究中發(fā)揮更加重要的作用,仍是有待解決的問題。未來,文史研究學界只要與時俱進,解放思想,將文史資源的發(fā)掘、考證、研究置于科學技術進步和文化繁榮的背景之下,充分調(diào)動各方面資源,就能更好地保護、開發(fā)和利用我國的文史資源,使文史研究始終與國家同發(fā)展,同時代共進步。
(作者分別為上海師范大學人文學院博士研究生;南京大學文學院博士研究生)
【參考文獻】
①郭醒:《〈藝文類聚〉研究》,沈陽:遼海出版社,2010年。
②史睿:《數(shù)字人文研究的發(fā)展趨勢》,《文匯報》,2017年8月25日。
③葛兆光:《思想史的寫法——中國思想史導論》,上海:復旦大學出版社,2004年。
責編/周小梨 美編/楊玲玲
聲明:本文為人民論壇雜志社原創(chuàng)內(nèi)容,任何單位或個人轉(zhuǎn)載請回復本微信號獲得授權,轉(zhuǎn)載時務必標明來源及作者,否則追究法律責任。