習近平總書記指出:“當今世界,科技進步日新月異,互聯(lián)網(wǎng)、云計算、大數(shù)據(jù)等現(xiàn)代信息技術深刻改變著人類的思維、生產、生活、學習方式”。在新興數(shù)字技術的賦能下,古老的歷史學煥發(fā)出新的生機。如何把握數(shù)字技術對歷史研究的賦能作用?如何發(fā)揮好數(shù)字歷史研究方法的重要作用?如何正確認識和科學對待史料數(shù)字化?本期學術版圍繞這些問題進行探討。
——編者
助力歷史學繁榮發(fā)展
把握數(shù)字技術對歷史研究的賦能作用
王濤
習近平總書記指出:“重視歷史、研究歷史、借鑒歷史是中華民族5000多年文明史的一個優(yōu)良傳統(tǒng)。”作為一門古老的學問,歷史學生命力的延續(xù)源于自身的開放性。20世紀60年代,有歷史學家呼吁歷史學要與地理、生物等學科結成新同盟,展開跨學科研究,為歷史學帶來多樣性的發(fā)展。當今世界,科技進步日新月異,互聯(lián)網(wǎng)、云計算、大數(shù)據(jù)等數(shù)字技術深刻改變著人類的思維、生產、生活、學習方式。在數(shù)字技術不斷迭代的背景下,今天我國歷史研究工作者也在積極探索與數(shù)字技術融合的路徑,努力順勢而為、力爭乘勢而上,讓歷史研究更加多元化,進而推動歷史學繁榮發(fā)展。
數(shù)字技術賦能歷史學,涵蓋史料挖掘整理、歷史問題研究、研究成果發(fā)布傳播等各個環(huán)節(jié)。數(shù)字技術可以幫助歷史研究工作者收集、量化、解釋和分享歷史資料,揭示其中蘊含的信息。同時,當數(shù)字技術成為自身技能的組成部分,歷史研究工作者也會自覺從算法等技術角度看待歷史問題研究,如此一來,歷史研究的路徑就會得到拓展,歷史書寫的方式也越來越多樣。此外,數(shù)字技術還能用可視化等方式將歷史研究成果呈現(xiàn)出來。從這個意義上說,數(shù)字技術能給歷史學帶來新的研究視野和方法,讓歷史研究工作者具備了更多的思維模式。
歷史史料使用的廣度與深度得到拓展。歷史研究需要立足史料展開。在數(shù)字技術的賦能下,史料的范疇得到了拓展,史料的使用效率得到了提升。數(shù)字技術幫助歷史研究工作者深化了對史料的認識,史料不再局限于文本材料,而是出現(xiàn)多元化的趨勢,圖像、物質材料等在完成有效的數(shù)字化之后,都能夠進入歷史研究的視野。歷史研究工作者可以足不出戶使用各種類型數(shù)據(jù)庫,還能利用檢索技術快速定位獲取目標文獻。同時,一些此前無法獲取的史料,比如由于年代久遠或者因為外在因素(自然災害、人為破壞等)遭到損壞的史料,還有容易損壞的脆弱歷史文獻,都可以用機器學習的方式得到重建。再如有研究團隊利用透視掃描技術,結合機器學習算法,快速有效提取獲取書信等文獻內容,使其成為歷史研究的材料。人工智能還能幫助歷史研究工作者翻譯古代文字,包括甲骨文、西夏文、殘缺希臘語銘文等在內的古文字都在數(shù)字技術的協(xié)助下得到了一定程度的識別與釋讀,擴充了古代文獻的范疇。此外,之前由于數(shù)量太大無法得到有效使用的材料,也能在數(shù)字技術的協(xié)助下通過算法提煉出具有學術價值的信息。比如,歐洲中世紀的貴族家族留下的大量紋章素材,是研究近代早期歐洲文化與社會狀況的重要資料。但由于紋章材料過于龐雜,其形制與使用場景也不盡相同,研究難度極大。數(shù)字紋章項目使用機器學習以及語義網(wǎng)技術,實現(xiàn)了對紋章的自動描述與識別,使相關研究得以順利開展。
歷史研究方式得到改進。在得到數(shù)字技術賦能后,歷史學的開放性讓歷史研究工作者可以充分利用不同學科的理念和方法來推進歷史研究,比如可以利用進行空間分析的地理信息系統(tǒng)、社會學中的社會網(wǎng)絡分析方法、計算語言學的主題模型模塊等進行分析研究。這些跨學科的方法與歷史研究結合能夠發(fā)揮學術效能,甚至能獲得具有顛覆性的發(fā)現(xiàn)。比如,國內有學者利用數(shù)字技術確立了“數(shù)字概念史”的方法論,基于人機共讀,梳理了中國近代海量文獻中思想狀況的演變情況,追蹤“道”概念的變遷過程,得出了超越傳統(tǒng)認知的新發(fā)現(xiàn)。同時,在運用數(shù)字技術的情況下,歷史研究的工作流程有了更多合作需求。數(shù)字技術日新月異的發(fā)展意味著越來越多的數(shù)字技能需要被掌握,但歷史研究工作者不可能掌握所有數(shù)字技能,不同領域的學者進行合作研究就成為必然選擇。這不僅讓數(shù)字技術賦能下的歷史研究課題在形式上具有團體協(xié)作的必要,而且這種跨界融合的研究方式也在實質上拓展和深化了歷史研究。當下,大語言模型如何接入歷史研究之中是熱門議題。單純從人工智能的角度看,在方法論上使用機器學習的方法,已經說明人工智能可以與歷史研究緊密結合。國內已經有高校開發(fā)了基于中國古代文化典籍的大語言模型,能夠實現(xiàn)點校、實體提取、翻譯等功能,學術意義重大。當前的問題在于,歷史研究工作者如何評估人工智能大模型生成的文字內容,如何讓人工智能參與的歷史書寫具有更好的學術性并更好地遵循學術規(guī)范,如何與時俱進建立有效的同行評議機制。這些問題并不會阻礙歷史學家使用人工智能,但需要我們讓人工智能更加規(guī)范地扮演學術助理的角色,推動學術研究中人機協(xié)作穩(wěn)健發(fā)展。
歷史研究成果的發(fā)布傳播形式得到豐富。歷史研究工作從課題選擇開始,經歷漫長而艱辛的研究過程之后需要將成果發(fā)布出來,整個研究工作的流程才能形成完整的閉環(huán)。傳統(tǒng)的學術發(fā)表體系具有相對封閉的特性,從形式上看,論文、專著、報告等形式比較單一,能夠呈現(xiàn)的內容也十分有限,制約了研究成果社會效益的發(fā)揮;從效率上看,單一的出版媒介不利于歷史研究成果及時被學術圈外的大眾接受。數(shù)字技術讓學術成果的發(fā)布傳播擺脫傳統(tǒng)方式的束縛,讓歷史研究在內容上更加豐富、在受眾上更加多元。比如,敦煌研究院推出的“數(shù)字敦煌”項目,充分挖掘數(shù)字技術對知識傳播的作用,用數(shù)字技術對敦煌石窟、壁畫等文化遺產進行數(shù)字復原,既在形式上更加多樣,也讓敦煌文化研究成果的傳播更加有效??梢灶A見,數(shù)字技術的不斷進步,必將進一步拓展歷史研究成果的發(fā)布傳播渠道。
(作者為南京大學歷史學院教授)
提供新機遇、新視角、新工具
發(fā)揮好數(shù)字歷史研究方法的重要作用
王旭東
學術的發(fā)展離不開創(chuàng)新。習近平總書記在強調“使中國特色哲學社會科學真正屹立于世界學術之林”時指出,要“不斷推進知識創(chuàng)新、理論創(chuàng)新、方法創(chuàng)新”;在對我國廣大歷史研究工作者提出殷切期望時強調,要“著力提高研究水平和創(chuàng)新能力”。當前,信息革命的時代潮流浩蕩前行,有力推動人類社會向數(shù)字化、網(wǎng)絡化、智能化方向邁進。以大數(shù)據(jù)、云計算、人工智能等為代表的數(shù)字技術不僅深刻影響著人們的生產生活,也為哲學社會科學研究帶來了機遇和挑戰(zhàn)。近年來,數(shù)字史學、信息史學等蓬勃興起,充分表明數(shù)字技術為歷史研究提供了新機遇、新視角、新工具。其中,從方法論層面出現(xiàn)的數(shù)字歷史研究方法,即用數(shù)字技術收集、處理、分析和解釋歷史數(shù)據(jù),對廣大歷史研究工作者收集、提取、研究各類歷史資料具有變革性意義。
數(shù)字歷史研究方法,是一種將數(shù)字技術與歷史研究相結合的新興方法。它以數(shù)據(jù)驅動為基礎和前提,利用計算機技術和數(shù)字工具來收集、處理、分析和解釋歷史資料,對歷史事件提供趨勢性的定量或定性分析,使歷史研究更加準確、全面和深入,能夠助力歷史研究工作者開辟新領域、提出新問題,進而對歷史事件和歷史過程的復雜性提出新見解。具體而言,數(shù)字歷史研究方法包括以下幾個方面:一是數(shù)字化文獻建立,即將歷史文獻和檔案數(shù)字化,以便于存儲、檢索和分析;二是文本挖掘數(shù)字化,即利用自然語言處理和機器學習技術,對歷史文獻進行文本分析和語義解析,從中提取有關歷史事件、人物和主題的信息;三是研究分析數(shù)字化,即通過構建歷史人物、組織、事件等的網(wǎng)絡模型,分析它們之間的關系和影響,揭示歷史事件的復雜性和動態(tài)性;四是數(shù)據(jù)可視化,即利用圖表、地圖、知識圖譜等可視化方法,將歷史數(shù)據(jù)以直觀形式進行展示,幫助研究者理解和解釋歷史事件;等等。
當前,數(shù)字歷史研究方法正在迅速推廣和應用。許多國家和地區(qū)的學術機構和研究組織制定了數(shù)字歷史計劃,促進該領域的合作和交流。不少圖書館、檔案館和研究機構都建立了數(shù)字化歷史資源庫,并提供在線訪問和使用的平臺,為研究人員提供大量的歷史檔案和文獻資源。同時,一些數(shù)字化歷史工具和軟件也得到了廣泛應用,如嵌入式OCR技術(光學字符識別)、自然語言處理技術、數(shù)據(jù)可視化軟件、歷史地理信息系統(tǒng)平臺等,這些技術和工具助力歷史研究更加高效、精確和可視化。
面向未來,數(shù)字歷史研究方法必將隨其自身的發(fā)展以及與其他學科的不斷融合而發(fā)揮更大作用,進而為推動新時代歷史學繁榮發(fā)展作出貢獻。例如,人工智能的集成應用將發(fā)揮更大作用。機器學習和自然語言處理技術將提供更加智能的數(shù)據(jù)處理和分析能力,不僅可以幫助廣大歷史研究工作者自動完成文檔分類、轉錄等任務,還可以從大型數(shù)據(jù)集里生成假設,從而在海量歷史數(shù)據(jù)中探索出新的分析模式和研究路徑,由此獲得對歷史事件和歷史過程的新見解。又如,數(shù)據(jù)的多樣性、開放性和可獲取性將創(chuàng)造更多研究機會。未來,越來越多的歷史研究資料將以開放數(shù)據(jù)的形式提供,這將促進學術合作和跨學科研究,實現(xiàn)數(shù)據(jù)、方法等的共享,為個體研究者跨時空參與相關研究提供可能。此外,數(shù)字歷史教育也將進一步發(fā)展,從而吸引更多人通過在線課程和教學工具參與各類歷史研究。再如,創(chuàng)建交互式、可視化情景能力的提升將開辟更多研究平臺。隨著增強現(xiàn)實、虛擬現(xiàn)實等技術的升級和普及,重建歷史環(huán)境和景觀將變得相對容易,廣大歷史研究工作者和公眾能夠以前所未有的沉浸式方式與過去互動,增強歷史研究的沉浸式體驗。
在信息時代的數(shù)字化轉型中,數(shù)字歷史研究方法正在用新興技術改造古老的歷史學。需要明確的是,無論數(shù)字技術怎么發(fā)展,我們都要始終保持對歷史資料的尊重,避免過度數(shù)字化而忽視歷史事件的復雜性和多樣性。更重要的是,要時刻清醒地認識到,無論數(shù)字歷史研究方法發(fā)展到何種程度,它始終是一種技術工具性質的方法。在使用數(shù)字歷史研究方法時,作為研究主體的歷史研究工作者要始終堅持唯物史觀。唯有如此,才能科學有效地利用持續(xù)更新的先進技術手段,助力新時代中國歷史學繁榮發(fā)展。
(作者為中國社會科學院世界歷史研究所研究員)
堅持運用辯證唯物主義和歷史唯物主義
正確認識和科學對待史料數(shù)字化
董灝智
史料是歷史研究的基礎和前提。盡可能系統(tǒng)地搜集、整理、分析有關史料是歷史研究的基礎性工作。習近平總書記指出:“要堅持用唯物史觀來認識和記述歷史,把歷史結論建立在翔實準確的史料支撐和深入細致的研究分析的基礎之上。”關于史料的內涵,學術界比較認可梁啟超給出的定義:“史料者何?過去人類思想行事所留之痕跡,有證據(jù)傳留至今日者也。”時至今日,史料的分類越來越細,除了文獻史料、實物史料、口述史料等常規(guī)史料,還包括影像史料、音頻史料等,特別是數(shù)字技術的快速發(fā)展,不僅極大推動史料數(shù)字化構建,也在生成大量原生的或外延的數(shù)字化史料。比如,史料數(shù)據(jù)庫的建設為歷史研究工作者檢索、復制文獻史料提供了極大便利,人工智能技術等對古籍文字進行識別排序進而激活古籍生命力,等等。同時要看到,隨著史料數(shù)字化發(fā)展向縱深推進,在歷史研究中也產生了“技術萬能主義”等錯誤認識。因此,無論是面對史料數(shù)字化還是數(shù)字化史料,我們都要堅持辯證唯物主義和歷史唯物主義,真正讓數(shù)字技術推動歷史學向更為寬廣的領域發(fā)展。
在歷史學發(fā)展史上,始于20世紀初期的西方“史料革命”倡導擴大歷史研究范圍,由政治史擴展至社會史、經濟史、文化史、生態(tài)史等。在這一過程中,史料的范圍亦隨之擴大,不再局限于官方檔案和傳世歷史文獻,還包括書信、日記、碑刻、家譜、契約文書、賬本、回憶錄等。尤為重要的是,20世紀50年代計算機技術被引入歷史研究之中,使用計算機技術處理歷史數(shù)據(jù),把各種形式的文字史料轉化為數(shù)字信息并進行加工、處理、存儲,開啟了史料數(shù)字化的進程。史料數(shù)字化早期主要采用直接掃描的方式,將文獻史料逐頁傳輸至計算機內,存儲為圖像文件,不僅保存了史料的原貌,還使零散的史料集中起來。在此基礎上,計算機技術將文獻史料轉換成文本形式,建立了可以全文檢索的數(shù)據(jù)系統(tǒng),史料數(shù)據(jù)庫由此出現(xiàn),從技術層面進一步推動了“史料革命”。同時,互聯(lián)網(wǎng)技術的發(fā)展加快了數(shù)字化史料的傳輸速度、拓寬了史料的獲取渠道,促進各種“史料數(shù)據(jù)庫”的開發(fā)。就我國而言,史料數(shù)字化開啟于20世紀90年代,其發(fā)展脈絡與西方較為相似,也是采用先掃描、后文本化的形式將“二十四史”“十三經注疏”“諸子集成”“四庫全書”以及近代報紙、雜志等史料大規(guī)模地數(shù)據(jù)化、信息化,并利用網(wǎng)絡技術開發(fā)了各種類型的史料數(shù)據(jù)庫。在近30年的時間里,中國國家圖書館、高校和科研機構等先后建成了數(shù)以百計的全文檢索、高級檢索等多條件檢索的數(shù)據(jù)庫。以“中國基本古籍庫”和“全國報刊索引”為例,前者收錄了自先秦至民國時期的歷代文獻1萬多種,共計17萬卷,全文約17億字,數(shù)據(jù)量約330G,是中國最大的歷代典籍總匯;后者收錄的報刊數(shù)據(jù)可追溯至1833年,至今已累計收錄報刊5萬余種、文獻5000多萬篇,年更新數(shù)據(jù)量超過500萬條。此外,大量的國外史學數(shù)據(jù)庫引入國內,不僅促進了中國的世界史研究,更與國內史料數(shù)據(jù)庫建設共同推動了史料數(shù)字化進程。
史料數(shù)字化使史料呈現(xiàn)出幾何級數(shù)增長的趨勢,極大擴充了歷史研究工作者可以使用的史料規(guī)模,在多個方面對歷史研究產生了深遠影響。第一,無論是史料數(shù)字化,還是數(shù)字化史料,都能讓歷史研究工作者占有越來越廣泛和豐富的史料,有助于實現(xiàn)研究對象從“宏觀”向“微觀”擴展。歷史研究工作者利用數(shù)據(jù)庫中的海量文獻,既可以對政治史、軍事史、思想史等進行宏觀研究,也可以對經濟史、社會史、文化史等進行微觀研究,通過研究日記、書信、賬本等私人文獻,折射出大歷史背景下個人的生活與思考,進而理解歷史事件的復雜性,在一定程度上彌補了宏觀研究的不足。第二,史料數(shù)據(jù)庫改變傳統(tǒng)的歷史研究方式。史料數(shù)據(jù)庫將眾多史料融為一體,其中的全文檢索、高級檢索,為歷史研究工作者快捷查找史料提供了便利。數(shù)據(jù)庫使史料搜集方式從抄史料、做筆記等轉變?yōu)楸憬莼闹悄軝z索,在獲取史料的途徑、數(shù)量以及效率方面均得到了空前提高。第三,史料數(shù)字化進一步推動跨學科研究。比如,對歷史研究工作者而言,不但要掌握基本的數(shù)據(jù)挖掘、數(shù)據(jù)分析等方法,還要了解數(shù)字技術的最新動態(tài),從而實現(xiàn)歷史研究與數(shù)字技術緊密結合。此外,針對數(shù)字化史料的研究,還需要借助人類學、民族學、民俗學、人口學、統(tǒng)計學、生態(tài)學等學科的研究方法,通過對史料的定量、精準分析,得出相對客觀的結論,能夠促進歷史研究視角的多元化。
也要看到,史料數(shù)據(jù)庫在給歷史研究帶來極大便利的同時,其局限性也日益凸顯。史料數(shù)據(jù)庫只是歷史研究的輔助工具,并不是歷史研究的全部,檢索也無法代替閱讀和思考。若無扎實的史學基礎訓練和對整體歷史脈絡的把握,經由史料數(shù)據(jù)庫檢索得出的大多是不完整的信息,而僅僅依靠這些不完整的信息進行研究就會影響歷史研究的整體性、系統(tǒng)性。同時,雖然史料數(shù)據(jù)庫使用便捷,但如果歷史研究工作者沒有深入考察史料來源和真實性,便不能完全信任數(shù)據(jù)庫中的史料。特別是文書、賬本、日記、書信等私人史料或民間史料,若無相關史料的佐證,是不能視為權威的一手資料的。面向未來,廣大歷史研究工作者要加強史學訓練,扎實提高史學素養(yǎng)和問題意識,在研究中始終堅持辯證唯物主義和歷史唯物主義,秉持正確的史料觀念,科學合理利用包括史料數(shù)據(jù)庫、人工智能大模型技術等在內的各種數(shù)字技術。
(作者為東北師范大學歷史文化學院教授)