【摘要】在這個信息高度膨脹并具有極高共享度的大數(shù)據(jù)時代,數(shù)據(jù)資源在學(xué)術(shù)研究中發(fā)揮著越來越重要的作用。新中國誕生之后,數(shù)據(jù)資源助力中國文史研究取得了豐碩的成果。但應(yīng)該注意的是,數(shù)據(jù)資源帶來機(jī)遇的同時也帶來了挑戰(zhàn),面對結(jié)構(gòu)化的數(shù)據(jù)庫或知識庫,學(xué)界的思維方式與治學(xué)方法需要轉(zhuǎn)變。
【關(guān)鍵詞】大數(shù)據(jù)時代 文史研究 治學(xué)方法
【中圖分類號】G256 【文獻(xiàn)標(biāo)識碼】A
在印刷術(shù)發(fā)明以前,書籍文獻(xiàn)彌足珍貴,人們獲取知識及其他信息的路徑除了人與人之間的口耳相傳,便只有閱讀文字。相比于人與人之間的傳授,閱讀已經(jīng)足以突破時間和空間的限制,讓人的學(xué)習(xí)方式更加自主便捷,獲取的知識也更加真實(shí)可信。然而,無論是天災(zāi)還是人禍,都可能對書籍的保存和流通造成巨大損害,知識載體的損毀甚至可能直接帶來知識本身的消亡,有感于此,先賢常通過對古書的編輯來將大量的信息與知識整合在一起,這可以視作古人“數(shù)據(jù)庫”建設(shè)的初步嘗試。
劉向《別錄》敘述左氏學(xué)傳承云:“左丘明授曾申,申授吳起,起授其子期,期授楚人鐸椒,鐸椒作《抄撮》八卷,授虞卿作《抄撮》九卷;授荀卿;荀卿授張倉。”由此可見,“抄撮之學(xué)的立意,是為了在較短的時間間內(nèi),花費(fèi)較少的精力,而得以對一部著作進(jìn)行整體的簡要性把握。這一時期的此類著作采取何種體制,是完全忠實(shí)于原文還是有所發(fā)揮,今已無法考知,但這種刪繁節(jié)要,便于觀覽的編纂出發(fā)點(diǎn),是非常值得重視的。”吳坰《五總志》:“唐李商隱為文,多檢閱書史,鱗次堆集左右,時謂為獺祭魚。”辛文房在《唐才子傳》也記載:“商隱工詩,為文瑰邁奇古,辭隱事難。及從楚學(xué),儷偶長短,而繁縟過之。每屬綴,多檢閱書冊,左右鱗次,號‘獺祭魚’。”李商隱為詩為文,都以用典綿密著稱,而支撐他的如此不厭其煩的隱詞比事的獺祭行為,難免成了人們津津樂道的話題,從中我們不難覺察出一種取向,即對知識的占有量和剪裁程度是人們作詩作文內(nèi)容豐富與否的必要條件。秦觀也提到了自己在成年記憶力衰退之后,感慨檢索文獻(xiàn)之費(fèi)時,故而不免依樣畫葫蘆。觀古可知,古人在建構(gòu)自己的知識體系的同時,就已經(jīng)有意識地對既有知識做減法(所謂“抄撮”之學(xué)),以便于記憶和檢索,又對其做加法(所謂“雜學(xué)”著述),借雜糅所學(xué)所見以屬詞比事??梢姡缭陔娮訑?shù)據(jù)庫誕生以前,中國古代學(xué)者已經(jīng)有了類似的活動,其目的和功用,與現(xiàn)在并無二致。
數(shù)據(jù)資源助力新中國文史研究取得巨大成就
隨著信息時代的到來,文史研究可以利用的技術(shù)手段拓寬,材料獲取途徑的多樣性增強(qiáng)。數(shù)字網(wǎng)絡(luò)以及移動通信技術(shù)的不斷進(jìn)步,使得學(xué)界得以應(yīng)用計(jì)算機(jī)和互聯(lián)網(wǎng)對徽州文書以及甲骨文等原始文史研究材料進(jìn)行更有效且有深度的辨析。20世紀(jì)50年代,語言學(xué)家邁克爾·文特里斯(Michael Ventis)成功地破譯了線形文字B。麻省理工學(xué)院和谷歌人工智能實(shí)驗(yàn)室的研究人員提出的神經(jīng)網(wǎng)絡(luò)算法,實(shí)現(xiàn)了古希臘邁錫尼文明時期線形文字B的自動翻譯,把67.3%的線形文字B同源詞翻譯成了希臘語。人工智能、核技術(shù)和物理化學(xué)技術(shù)等前沿技術(shù)的應(yīng)用,使得原始材料被更有效地甄別和解釋,從而拓寬了材料廣度,也促進(jìn)了新材料的發(fā)現(xiàn)。除此之外,信息時代帶來的材料的重組、學(xué)科的交叉、信息文化的興起,也促進(jìn)了新材料的發(fā)掘、分析及更新。隨著計(jì)算機(jī)硬件能力的不斷提升,加之?dāng)?shù)據(jù)資源的持續(xù)累積,以大數(shù)據(jù)為核心邏輯的智能應(yīng)用革命開始逐步影響人類的日常生活。在大數(shù)據(jù)技術(shù)的幫助下,人們可以利用嶄新的視角來實(shí)時、多角度、全方位地掌握事物的發(fā)展規(guī)律,并更好地預(yù)測未來,進(jìn)而為生產(chǎn)和社會活動提供海量而優(yōu)質(zhì)的決策。所以,信息文化的快速發(fā)展,使得整體文化環(huán)境發(fā)生轉(zhuǎn)變,新材料不斷出現(xiàn)、新材料整合速度不斷提高,客觀上促進(jìn)了數(shù)據(jù)資源的累積,文史研究方法也因此發(fā)生變化。
黨的十一屆三中全會后,在解放思想、實(shí)事求是路線的引領(lǐng)下,文史學(xué)界不斷開拓創(chuàng)新,中國古代文史研究煥發(fā)出嶄新的生命力。隨著我國對外開放的深化,國家經(jīng)濟(jì)實(shí)力日益增強(qiáng),中國古代文史研究取得了豐碩的成果,具體表現(xiàn)在學(xué)科構(gòu)建、人才培養(yǎng)、成果出版、國際交流等方面。中國古代文史研究不斷向全方位、多角度、深層次發(fā)展,我國文史工作者在科學(xué)系統(tǒng)地借鑒并融合古今中外優(yōu)秀研究理論和方法的基礎(chǔ)上,不斷整合完善現(xiàn)有資料,積極探索新的文獻(xiàn)和考古材料,許多海內(nèi)外罕見文獻(xiàn)因此得以整理并出版。以敦煌吐魯番文書、甲骨文、徽州文書、懸泉置簡帛以及眾多民間文書為代表的新出文獻(xiàn),夯實(shí)了我國古代文史領(lǐng)域的研究基礎(chǔ),豐富了研究內(nèi)容,拓寬了研究的深度和廣度。與此同時,文獻(xiàn)古籍的數(shù)字化也被提上日程,科研單位和各大高校紛紛上線數(shù)據(jù)庫項(xiàng)目,催生交叉學(xué)科研究方法,文史領(lǐng)域治學(xué)與數(shù)字化時代同步推進(jìn)的趨勢日益明顯。
進(jìn)入21世紀(jì)以來,我國文史研究者乘科學(xué)技術(shù)之東風(fēng),借助各類互聯(lián)網(wǎng)信息技術(shù)手段,植根于中國歷史實(shí)際,發(fā)現(xiàn)、整理和搶救了大量的文獻(xiàn)古籍資料,文獻(xiàn)和古籍的保護(hù)進(jìn)程得以顯著加快,古籍利用和保護(hù)之間的矛盾也得到了妥善的解決。近年來,以敦煌文獻(xiàn)數(shù)字化和國際敦煌學(xué)、海外中華古籍合作保護(hù)以及“一帶一路”鄰國語言文字中漢字音的數(shù)字化整理等為代表的一批重點(diǎn)研究項(xiàng)目不斷推進(jìn),通過目錄匯編、圖像/音頻掃描、4D數(shù)據(jù)庫建設(shè)等工具手段,在全面保護(hù)存檔既有資料的同時,有效地提高了文獻(xiàn)內(nèi)容和考古內(nèi)容的質(zhì)量,為未來文史研究領(lǐng)域的廣度和深度提供了可靠的保障。這些成就,與新中國成立以來在文獻(xiàn)數(shù)據(jù)資料領(lǐng)域持續(xù)不懈的探索整理,以及信息技術(shù)和數(shù)字化手段的有效助力,是分不開的。
大數(shù)據(jù)時代為文史研究帶來的機(jī)遇與挑戰(zhàn)
大數(shù)據(jù)時代,數(shù)據(jù)在我們的日常生活與學(xué)術(shù)研究領(lǐng)域發(fā)揮著越來越重要的作用,傳統(tǒng)紙質(zhì)文獻(xiàn)越來越多地被數(shù)字化,各種形式的數(shù)據(jù)庫層出不窮。數(shù)據(jù)作為研究成果的同時,其研究基礎(chǔ)的地位也在不斷被強(qiáng)調(diào)。具體到人文學(xué)科的研究,數(shù)字文獻(xiàn)大致可以分成傳統(tǒng)文獻(xiàn)的數(shù)字影像和結(jié)構(gòu)化的數(shù)據(jù)庫。與數(shù)字文獻(xiàn)相比,傳統(tǒng)文獻(xiàn)具有天然的劣勢,除了傳播方式單一、傳播時間較長、保存?zhèn)鞑コ杀据^高等眾所周知的原因以外,我們必須注意到:“舊媒體將知識分割于不同的物理載體之中,比如說這本書的知識很難與另一本書的同類知識關(guān)聯(lián),這種檢索工具很難跟另一種檢索工具互通,而學(xué)術(shù)研究則要求盡可能地聯(lián)系各方知識,便于重新組合和運(yùn)算。學(xué)者重組知識的能力越強(qiáng),創(chuàng)造力也就越強(qiáng)。”大數(shù)據(jù)時代在減少文史研究所耗費(fèi)的時間和物質(zhì)成本的同時,使得學(xué)者可以高效選取材料進(jìn)行組合和分析,材料獲取效率增加。以往,學(xué)者為了查閱某一文獻(xiàn)資料可能需要跨越大半個中國,準(zhǔn)備許多證明材料,而現(xiàn)在足不出戶便能查詢到自己需要的材料。前人遍檢群書而不得的內(nèi)容,我們可能只需用幾秒鐘就可以得到答案,不會利用電子文獻(xiàn)檢索的學(xué)者則成了名副其實(shí)的“今之古人”。這使得文史研究從側(cè)重獲取新材料轉(zhuǎn)變?yōu)閭?cè)重提出新問題,學(xué)術(shù)研究更具有效率性,為學(xué)科的深入探究提供了便利。
數(shù)據(jù)庫的廣泛使用,打破了學(xué)科之間的界線,拓寬了專門知識領(lǐng)域的邊界。跨學(xué)科的知識鏈接,為新知識體系的出現(xiàn)架起橋梁,“國際數(shù)字人文機(jī)構(gòu)聯(lián)盟”和“數(shù)字人文中心網(wǎng)絡(luò)”這兩大人文研究數(shù)字聯(lián)盟的出現(xiàn),使人文科學(xué)和數(shù)字科學(xué)加深融合,例如促進(jìn)了歷史學(xué)科從解釋性學(xué)科向求是性學(xué)科的轉(zhuǎn)變,實(shí)現(xiàn)了學(xué)科價值的擴(kuò)展。進(jìn)而可以說,數(shù)據(jù)庫的出現(xiàn)在不斷拓寬文史研究角度的同時也能影響其研究價值的擴(kuò)展。同時“人文計(jì)算”、復(fù)雜網(wǎng)絡(luò)分析、大規(guī)模數(shù)據(jù)分析等研究方法的使用,雖然在一定程度上弱化了文史研究中的批判性與人文關(guān)懷,但卻在某種程度上革新了文史研究的方式,從而使研究更具科學(xué)性。
數(shù)字文獻(xiàn)的不足也是顯而易見的,從文獻(xiàn)的保存、閱讀和檢索來說,不同的數(shù)據(jù)庫必然會展示出不同文字的準(zhǔn)確率和檢索的查全率、查準(zhǔn)率,即使數(shù)據(jù)庫的制作者精益求精并不斷改進(jìn)檢索技術(shù),其文本的準(zhǔn)確率已經(jīng)做到了與紙本文獻(xiàn)不相上下,我們依然無法避免在檢索“吳梅”時發(fā)現(xiàn)眾多“吳梅村”相關(guān)詞條的情況,簡而言之,數(shù)據(jù)庫在無意識檢索的層面可以速度驚人,卻依然無法代替人類進(jìn)行有意識的搜索。
從這個角度看來,大數(shù)據(jù)時代,我們更要警惕的是“方法論”的錯位。前面已經(jīng)提到,前人也構(gòu)建過自己的“數(shù)據(jù)庫”,雖然和如今的數(shù)字文獻(xiàn)相比,它的規(guī)模無法同日而語,可恰恰是因?yàn)楸蝗擞幸庾R地編纂,它的優(yōu)勢在于其內(nèi)在的系統(tǒng)性和相互之間的關(guān)聯(lián)性,“比如敦煌卷子中發(fā)現(xiàn)的很多小類書,像《孔子備問書》《隨身寶》《太公家教》及《兔園冊》等,它的包羅萬象和排列秩序,其實(shí)可以反映當(dāng)時知識的定型和簡化”,這種系統(tǒng)性和關(guān)聯(lián)性交織在一起,構(gòu)成的內(nèi)在的自足性正是這一時期圖書的編纂者和閱讀者“共識性”知識體系的反映,在這種“共識性”的知識、思想背景之下,同時代或之后的學(xué)者分享、傳承彼此的知識與經(jīng)驗(yàn),他們對未知知識的檢索的出發(fā)點(diǎn)源自于對既有知識的理解和掌握。如果我們不具備對“已知”的熟悉,而卻偏偏執(zhí)著于“未知”的汪洋,所面對的,將是極其危險的處境。
即使我們盡最大所能規(guī)避以“未知”檢索“未知”的情況,卻依然無法忽視數(shù)據(jù)(數(shù)據(jù)庫)本身并不會說話的事實(shí),面對同樣的數(shù)據(jù),對文獻(xiàn)的分析和使用也是因人而異的,這種“橫看成嶺側(cè)成峰”極有可能導(dǎo)致截然相反的結(jié)論。1980年,美國威斯康辛大學(xué)陳炳藻先生在《紅樓夢》討論會上發(fā)表《從詞匯統(tǒng)計(jì)論證紅樓夢的作者》一文,通過統(tǒng)計(jì)《紅樓夢》的詞頻,認(rèn)定后四十回也出自曹氏,一時引起巨大反響,是繼高本漢之后首次全方位運(yùn)用電子檢索和統(tǒng)計(jì)的手段對《紅樓夢》進(jìn)行研究,然而不久之后,中國學(xué)者陳大康先生同樣用精密的統(tǒng)計(jì)方法得出與之相左的結(jié)論:《紅樓夢》后四十回含有曹雪芹少量殘稿,但并非是作者原作。由此可以看出,數(shù)據(jù)本身并不會說話,即使在大數(shù)據(jù)時代,單單靠先進(jìn)的統(tǒng)計(jì)方法,并不是解決人文學(xué)科相關(guān)問題的“萬能鑰匙”。
大數(shù)據(jù)時代下文史研究的新路徑
飛速發(fā)展的互聯(lián)網(wǎng)信息技術(shù),讓我國的文史研究呈現(xiàn)出若干新趨勢、新特點(diǎn)。國家的戰(zhàn)略性規(guī)劃,各級政府和相關(guān)單位的持續(xù)投入,以及優(yōu)秀學(xué)術(shù)人才的積極參與,都為我國文史文獻(xiàn)資源研究與建設(shè)的系統(tǒng)化、數(shù)字化、科學(xué)化打下了堅(jiān)實(shí)的基礎(chǔ)。利用大數(shù)據(jù)技術(shù)研究中國古代文史,對其本身與相關(guān)領(lǐng)域的學(xué)科建設(shè)和學(xué)術(shù)發(fā)展,具有極其顯著的意義,這種意義尤其體現(xiàn)在研究范式與方法論的革新上?;谶@樣的理解,筆者認(rèn)為,大數(shù)據(jù)時代下的文史研究方法,可以在以下三個方面有所創(chuàng)新:
一是解決單憑人力難以徹底解決的疑難問題。如中國古代文學(xué)中的周邊國家意象與天朝朝貢體系以及中國古代對外交流關(guān)系的演化之間,是否存在聯(lián)系?對此類問題來說,數(shù)據(jù)庫是基礎(chǔ),文本分析技術(shù)是核心,需要通過定量統(tǒng)計(jì)分析,進(jìn)行作品的辨?zhèn)?、異文對照,解決修辭特色及風(fēng)格題材的變遷等懸疑難決的問題。二是重新驗(yàn)證已有成說的史論。例如明代以李夢陽、何景明為代表的前七子,其詩文創(chuàng)作中是否落實(shí)了“文必秦漢,詩必盛唐”的主張?在大數(shù)據(jù)技術(shù)的幫助下,我們可以利用共詞及語義分析、人物事件交雜等思路,嘗試全新分析和檢驗(yàn)諸如社團(tuán)流派、人物關(guān)系、情節(jié)演進(jìn)、階段特征、歷史影響等已有成說的問題。三是超越印象和定量分析層面,科學(xué)梳理文史中存在的特征、規(guī)律、關(guān)聯(lián)性問題。例如白居易有詩近四千首,陸游有詩詞近萬首,它們的格局、題材、修辭、風(fēng)格在不同歷史時期發(fā)生過哪些變化?通過對某作家或某一類作品的深度學(xué)習(xí),發(fā)揮其關(guān)聯(lián)分析、文本比對等技術(shù)優(yōu)勢,挖掘到以往不曾注意到的跡象或線索,以期提高文學(xué)經(jīng)典研究的科學(xué)性和可靠性。
現(xiàn)階段的中國古代文史研究,在數(shù)據(jù)分析方面雖然已經(jīng)起步,但多局限于文獻(xiàn)數(shù)字化階段。主要用于數(shù)據(jù)內(nèi)容存放和管理的數(shù)據(jù)庫仍然占據(jù)主流,而能夠?qū)崿F(xiàn)分析統(tǒng)計(jì)的關(guān)系型文史數(shù)據(jù)庫仍然稀少。近些年,隨著《中華經(jīng)典古籍庫》等數(shù)字化文獻(xiàn)資源庫的推出,數(shù)據(jù)庫在文獻(xiàn)檢索功能方面已有較大的進(jìn)步,但結(jié)構(gòu)化的實(shí)現(xiàn)統(tǒng)計(jì)分析和知識再生、運(yùn)用數(shù)字人文的分析工具和技術(shù)方法來研究古代文史等功能,仍處在嘗試性階段,未成規(guī)模,影響也不大。如何建設(shè)更為豐富、完善的數(shù)據(jù)庫,如何使數(shù)據(jù)庫功能更加人性化與科學(xué)化,如何讓數(shù)據(jù)庫在文史研究中發(fā)揮更加重要的作用,仍是有待解決的問題。未來,文史研究學(xué)界只要與時俱進(jìn),解放思想,將文史資源的發(fā)掘、考證、研究置于科學(xué)技術(shù)進(jìn)步和文化繁榮的背景之下,充分調(diào)動各方面資源,就能更好地保護(hù)、開發(fā)和利用我國的文史資源,使文史研究始終與國家同發(fā)展,同時代共進(jìn)步。
(作者分別為上海師范大學(xué)人文學(xué)院博士研究生;南京大學(xué)文學(xué)院博士研究生)
【參考文獻(xiàn)】
①郭醒:《〈藝文類聚〉研究》,沈陽:遼海出版社,2010年。
②史睿:《數(shù)字人文研究的發(fā)展趨勢》,《文匯報》,2017年8月25日。
③葛兆光:《思想史的寫法——中國思想史導(dǎo)論》,上海:復(fù)旦大學(xué)出版社,2004年。
責(zé)編/周小梨 美編/楊玲玲
聲明:本文為人民論壇雜志社原創(chuàng)內(nèi)容,任何單位或個人轉(zhuǎn)載請回復(fù)本微信號獲得授權(quán),轉(zhuǎn)載時務(wù)必標(biāo)明來源及作者,否則追究法律責(zé)任。