摘 要:文章給出了非結(jié)構(gòu)化文本分析軟件的定義,并將其劃分為三種主要的類型: 基于詞典的非結(jié)構(gòu)化文本分析軟件、基于開發(fā)環(huán)境的非結(jié)構(gòu)化文本分析軟件以及基于注釋的非結(jié)構(gòu)化文本分析軟件。之后,文章選擇了兩款非結(jié)構(gòu)化文本分析軟件(KH Coder,Wordstat),從內(nèi)部特征和外部特征兩個角度對其進行了比較分析。其中,外部特征包括:兩款非結(jié)構(gòu)化文本分析軟件的費用、更新速度、運行環(huán)境、語言種類、客戶端方式以及用戶指南等6個方面;內(nèi)部特征包括兩款非結(jié)構(gòu)化文本分析軟件的主要功能、工作流程、數(shù)據(jù)格式、可視化功能的展現(xiàn)方式以及關(guān)系揭示等5個角度開展。分別指出兩款非結(jié)構(gòu)化文本分析軟件的優(yōu)勢與劣勢、非結(jié)構(gòu)化文本分析軟件的未來發(fā)展,以幫助用戶根據(jù)自身的需求選擇合適的非結(jié)構(gòu)化文本分析軟件。
關(guān)鍵詞:非結(jié)構(gòu)文本;可視化;軟件;比較研究
中圖分類號: G254.9 文獻標(biāo)識碼: A DOI: 10.11968/tsyqb.1003-6938.2015092
1 引言
非結(jié)構(gòu)化文本是指以文本(字符、數(shù)字、標(biāo)點、各種可打印的符號等)為數(shù)據(jù)形式的非結(jié)構(gòu)化數(shù)據(jù)[1]。非結(jié)構(gòu)化文本數(shù)據(jù)的典型代表是圖書館數(shù)據(jù)庫中的文檔,這些文檔可能包含結(jié)構(gòu)字段,如標(biāo)題、作者、出版日期、長度、分類等等,也可能包含大量非結(jié)構(gòu)化文本成分,如摘要和內(nèi)容[2]。當(dāng)前互聯(lián)網(wǎng)上也存在大量的非結(jié)構(gòu)化電子文本,如新聞、博客、電子郵件、政府文件、聊天記錄等[3]。人們應(yīng)該如何正確理解這些數(shù)據(jù)?目前普遍的方式是通過人工注釋語義信息實現(xiàn)對非結(jié)構(gòu)化文本進行分析。但是數(shù)據(jù)量的過于巨大使得這項任務(wù)不可能完全憑借人工方式來完成,迫切的需要借助于計算機的幫助來完成對大量非結(jié)構(gòu)化文本進行信息抽取和分析。在此情況下,非結(jié)構(gòu)化文本分析軟件就應(yīng)運而生了。非結(jié)構(gòu)化文本,主要是指類似于字符、標(biāo)點、各種可打印的符號等數(shù)據(jù)。比如,一篇文檔既可能包含結(jié)構(gòu)字段,如標(biāo)題、作者、出版日期、長度、分類等,也可能包含大量非結(jié)構(gòu)化文本成分,如摘要和正文內(nèi)容。而所謂非結(jié)構(gòu)化文本分析軟件,是指能夠?qū)Ψ墙Y(jié)構(gòu)化文本進行自動化分析,進而將文本中詞頻、詞性、詞間關(guān)系等特征以結(jié)構(gòu)化數(shù)據(jù)或者可視化方式呈現(xiàn)給用戶的計算機軟件。
早在20世紀50年代末,H.P.Luhn[4]就已經(jīng)在非結(jié)構(gòu)化文本分析領(lǐng)域進行了開創(chuàng)性的研究,提出了將詞頻統(tǒng)計思想用于文本的自動分類。之后,這一領(lǐng)域逐漸得到學(xué)者們的重視,出現(xiàn)了許多新的研究成果。如Maron M E[5]等人圍繞如何對非結(jié)構(gòu)化文本進行自動分類開展了研究與探討;Ghanem M[6]等人在經(jīng)過深入研究后,提出了適用于非結(jié)構(gòu)化文本的分析模型。除此之外,我國也有許多學(xué)者對這一問題加以關(guān)注,研究重點主要集中在文本特征抽取與文本中間表示、關(guān)聯(lián)規(guī)則抽取、語義關(guān)系挖掘、文本聚類與主題分析以及趨勢分析等領(lǐng)域。例如,李凡[7]等人曾于2001年對文本特征的抽取進行研究,提出了一種新的文本特征抽取方法;萬小軍[8]等人于2003年撰文試圖對文檔聚類方法k-means算法加以改進;而黃曉斌教授[9]等學(xué)者則試圖對互聯(lián)網(wǎng)文本內(nèi)容進行分析挖掘以達到對輿情信息的分析與預(yù)測。與此同時,由于對非結(jié)構(gòu)化文本分析的需求日益加大,許多支持非結(jié)構(gòu)化文本分析、功能日益完善的軟件也相繼出現(xiàn),數(shù)量多達數(shù)十個。因此,美國哈佛大學(xué)學(xué)者Lowe W[10]于2002年撰文對前述非結(jié)構(gòu)化文本分析軟件進行了詳細的分類與介紹,以期為用戶選用非結(jié)構(gòu)化文本分析軟件提供借鑒與幫助。然而,盡管有越來越多的學(xué)者將目光聚焦于非結(jié)構(gòu)化文本分析這一問題,也產(chǎn)生了豐碩的研究成果,但是應(yīng)該明確的是,現(xiàn)有研究大都從實現(xiàn)技術(shù)層面著手試圖對非結(jié)構(gòu)化文本分析技術(shù)加以改進,而從用戶角度出發(fā),將關(guān)注點集中在應(yīng)用層面的文章卻少之又少。鑒于此,本文試圖以兩款較為常用的非結(jié)構(gòu)化文本分析軟件――KH Coder和Wordstat為例,從內(nèi)外特征共11個方面對其數(shù)據(jù)格式、工作流程、主要功能等進行比較分析,以期為用戶選用并研究非結(jié)構(gòu)化文本分析軟件提供參考。 2 非結(jié)構(gòu)化文本分析軟件的主要類型
根據(jù)筆者對各類非結(jié)構(gòu)化文本分析軟件的調(diào)研,并且結(jié)合前人的研究成果[10],可初步將非結(jié)構(gòu)化文本分析軟件按照主要功能劃分為如下三個類型:基于詞典的非結(jié)構(gòu)化文本分析軟件、包含開發(fā)環(huán)境的非結(jié)構(gòu)化文本分析軟件以及包含注釋的非結(jié)構(gòu)化文本分析軟件。
2.1 基于詞典的非結(jié)構(gòu)化文本分析軟件
基于詞典的非結(jié)構(gòu)化文本分析軟件以詞典或詞表為基礎(chǔ),通過將文本中的單詞與詞典或詞表進行匹配來完成對文本的分析。其最終結(jié)果通常是對詞頻等特征的統(tǒng)計數(shù)據(jù),如CATPAC、Concordance等。
2.2. 包含開發(fā)環(huán)境的非結(jié)構(gòu)化文本分析軟件
包含開發(fā)環(huán)境的非結(jié)構(gòu)化文本分析軟件在對文本進行分析時,能夠自動生成對應(yīng)的詞典或詞表。其最終結(jié)果也是各類統(tǒng)計數(shù)據(jù),但是與基于詞典的非結(jié)構(gòu)化文本分析軟件相比,由于使用的詞典更具針對性,因此統(tǒng)計出的最終結(jié)果也更為精準(zhǔn),如Profiler Plus、DIMAP等。
2.3 包含注釋的非結(jié)構(gòu)化文本分析軟件
包含注釋的非結(jié)構(gòu)化文本分析軟件是三種非結(jié)構(gòu)化文本分析軟件中自動化程度最高的一種,其最終結(jié)果將以旁注、交叉參考以及筆記的形式呈現(xiàn),其形式好比一個研究人員對某篇論文做的讀書筆記一樣,如Atlas-ti、NUDIST等。
本文選擇了兩款第一種類型(基于詞典的非結(jié)構(gòu)化文本分析軟件)非結(jié)構(gòu)化文本分析軟件(KH Coder、Wordstat)進行比較分析。之所以選擇第一種類型的非結(jié)構(gòu)化文本分析軟件是由于:相對來講,第一種類型的非結(jié)構(gòu)化文本分析軟件的使用更為普遍;之所以選擇KH Coder和Wordstat來作為比較分析的具體對象,一是由于上述兩款軟件較為普及,二是由于上述兩款軟件均為開源軟件(Wordstat雖然非開源,但是有免費試用期)。
3 外在特征比較研究
本部分主要對上述兩款非結(jié)構(gòu)化文本分析軟件的外部特征,即兩款非結(jié)構(gòu)化文本分析軟件的基本概況進行比較,具體包括:軟件的費用、軟件的更新速度、軟件所支持的運行環(huán)境、軟件支持的語言種類、軟件運行的客戶端方式以及軟件是否配備有用戶指南等方面(見表1)。
3.1 軟件費用
費用問題將很大程度上影響用戶對軟件的選用。上述兩款非結(jié)構(gòu)化文本分析軟件中,KH Coder是完全免費的,用戶可以通過其官網(wǎng)自行下載。Wordstat則是非開源的,但是有30天的試用期,在30天內(nèi)用戶可以免費試用,超出試用期后,需要額外購買才能使用。可見,在軟件費用方面,KH Coder相對占有優(yōu)勢,但是由于Wordstat允許用戶有30天的試用期限,也能夠一定程度上滿足用戶需求。
3.2 更新速度
軟件更新越快就意味著軟件自身的功能越完善,因此,軟件的更新速度直接影響到用戶對軟件使用的滿意程度。總的來說,上述兩款非結(jié)構(gòu)化文本分析軟件都保持了良好的版本更新狀況。其中KHCoder的版本更新相對較快,最近一次更新是在2014年的4月17日。由此可見,上述兩款非結(jié)構(gòu)化文本分析軟件中,KH Coder在更新速度上相對占有優(yōu)勢。
3.3 運行環(huán)境
軟件所支持的運行環(huán)境越多樣,就意味著軟件的通用性越強,用戶使用時就可以不受物理條件的限制。上述兩款非結(jié)構(gòu)化文本分析軟件中,KH Coder只能在Windows或MAC OS X系列的環(huán)境下運行。Wordstat可以在全部的系統(tǒng)環(huán)境下運行,但是由于Wordstat只是一個功能模塊,因此必須在QDAMiner或者Simstat的基礎(chǔ)上才能運行。可見,雖然KH Coder支持的環(huán)境范圍較為狹小,但是不需要安裝額外的軟件,而Wordstat雖然可以支持全部的環(huán)境,但是需要額外安裝QDAMiner或者Simstat,二者各有利弊。
3.4 語言種類
非結(jié)構(gòu)化文本分析軟件支持語言種類的多少可以從一定程度上作為軟件功能是否強大的判斷標(biāo)準(zhǔn),支持的語言種類越多,其應(yīng)用范圍就越廣泛。上述兩款非結(jié)構(gòu)化文本分析軟件中,KH Coder可以支持日語、英語、法語、德語、意大利語、葡萄牙語和西班牙語共7種語言;Wordstat可以支持英語、法語、西班牙語以及荷蘭語共4種語言。由此可見,在所支持的語言種類方面,KH Coder占有明顯優(yōu)勢,基本涵蓋了較為通用的外文語種。值得注意的是,兩款非結(jié)構(gòu)化文本分析軟件都無法支持中文文本。
3.5 客戶端方式
客戶端方式是指用戶運行軟件時是可以將軟件下載到本地離線使用,還是需要登錄到軟件官網(wǎng)在線使用。相較而言,離線客戶端方式無須網(wǎng)絡(luò),在本地就可以進行操作,更加方便易行,在線使用則相對繁瑣不便。上述兩款非結(jié)構(gòu)化文本分析軟件中,二者都支持離線獨立客戶端的操作方式。
3.6 用戶指南
用戶指南可以降低用戶負擔(dān),使用戶在最快的時間內(nèi)迅速掌握軟件的使用方法,是影響用戶滿意度以及用戶是否選用軟件的重要因素之一。上述兩款非結(jié)構(gòu)化文本分析軟件都配有詳細的使用說明手冊,用戶完全可以通過閱讀手冊自學(xué)軟件的使用方法。在這一點上,二者相差不大。
4 內(nèi)在特征比較研究
本部分主要從主要功能、工作流程、所支持的數(shù)據(jù)格式、可視化功能中的展現(xiàn)方式以及關(guān)系揭示5個維度來對上述兩款非結(jié)構(gòu)化文本分析軟件進行比較分析。其中,工作流程主要是對兩款非結(jié)構(gòu)化文本分析軟件預(yù)處理階段的工作流程進行對比。這是因為,上述兩款非結(jié)構(gòu)化文本分析軟件所具有的功能各不相同,用戶根據(jù)不同需求選用不同的功能時,其整體的工作流程也會改變,是不具有可比性的。但是作為軟件能夠順利完成分析的基礎(chǔ),預(yù)處理環(huán)節(jié)是二者的必經(jīng)步驟。因此,本文主要選擇預(yù)處理功能為主要對象進行工作流程方面的分析。
4.1 主要功能 軟件的主要功能是評價軟件優(yōu)劣最重要的標(biāo)準(zhǔn)之一。通常情況下,非結(jié)構(gòu)化文本分析軟件的主要基本功能有:詞頻統(tǒng)計、詞性分析、上下文關(guān)鍵詞、檢索功能、相似度計算、自動分類、概念發(fā)現(xiàn)、主題詞生成、可視化以及預(yù)測功能等方面(見表2)。
比較可知,Wordstat支持除相似度計算功能之外的全部功能,而KH Coder支持除摘要生成功能之外的全部功能。因此,總體而言,在基本功能的覆蓋方面,二者不相上下。并且雖然上述兩款非結(jié)構(gòu)化文本分析軟件都無法支持全部的功能,但是卻形成了互補的態(tài)勢。因此用戶完全可以不局限在一款軟件中而將兩款軟件結(jié)合使用。此外,雖然上述兩款非結(jié)構(gòu)化文本分析軟件都具有預(yù)測功能,但是二者的側(cè)重點各有不同。Wordstat的預(yù)測功能主要是通過對文本中的單詞、語法特征等進行分析,進而推斷出文本所屬作者的性別;而KH Coder的預(yù)測功能則主要是將文本中的單詞分為積極、中性和消極三個維度,通過對單詞性質(zhì)的統(tǒng)計來預(yù)測文本的情感趨勢。
4.2 工作流程
本部分主要是對上述兩款非結(jié)構(gòu)化文本分析軟件的預(yù)處理過程進行比較分析(見表3)。通常情況下,基于詞典的非結(jié)構(gòu)化文本分析軟件的預(yù)處理流程為:停用詞處理、詞形還原、拼寫糾錯、詞句歸類、自動增刪詞表以及文本內(nèi)部表示。
在預(yù)處理的模式方面,Wordstat為用戶提供了多種數(shù)據(jù)預(yù)處理的模式,用戶完全可以根據(jù)自己的需要自定義數(shù)據(jù)預(yù)處理的類型。例如,用戶可以選擇Porter stemmer項去掉單詞的前綴和后綴,也可以選擇n-grams項將每個單詞劃分為若干個特征值。而KH Coder只支持單一的預(yù)處理模式,其預(yù)處理過程主要是對文本進行句子切分、切詞處理、詞性分析以及詞形還原。用戶無法根據(jù)自己的需求自定義預(yù)處理的模式。相較而言,Wordstat不僅提供的預(yù)處理功能更全面,用戶根據(jù)需求選擇特定的幾個預(yù)處理模式也更加節(jié)省時間?梢姡陬A(yù)處理方面,與KH Coder相比,Wordstat占有絕對優(yōu)勢。
在停用詞處理方面,兩款軟件都具有停用詞處理功能。其中,KH Coder的停用詞表來自Stanford POS Tagger。用戶在啟動KH Coder后,可以從KH Coder的下載包中將原本已有的Stanford POS Tagger拖拽到停用詞表中;Wordstat的停用詞表為自己編寫,但是兩款軟件所用的停用詞表相差不大,并且兩款軟件都支持用戶對停用詞表進行修改?梢,在停用詞處理方面,兩款軟件的差距不大。
在詞形還原方面,兩款非結(jié)構(gòu)化文本分析軟件都可以對文本中的單詞進行詞形還原。但是KH Coder的詞形還原處理僅限于去掉前后綴等較為淺顯的詞形還原,而不包括對單詞的時態(tài)進行轉(zhuǎn)換等功能。Wordstat的詞形還原功能則較為強大,包含對單詞時態(tài)的轉(zhuǎn)換?梢,在詞形還原方面,Wordstat的功能比KH Coder更為豐富。
在拼寫糾錯方面,KH Coder沒有此功能,而Wordstat則可以對拼寫錯誤的單詞進行糾錯?梢,在拼寫糾錯方面,Wordstat占有優(yōu)勢。
在詞句歸類方面,兩款軟件都會對文本進行歸類處理,即將一些詞義、語義相近的詞或句子歸類到同一個類別之下,以方便對文本的情感傾向進行預(yù)測。如,文本中出現(xiàn)的“好的”、“棒的”等詞語都會被歸類到“積極評價”這一個類目之下?梢,在詞句歸類方面,上述兩款軟件的差距不大。
在自動增刪詞表方面,Wordstat會根據(jù)文本中單詞出現(xiàn)的頻數(shù)自動增刪詞表中的單詞。對詞表中的單詞頻數(shù)進行統(tǒng)計后,Wordstat會將原本詞表中不存在但是文本中出現(xiàn)頻率高的詞增添到詞表中來,也會將原本此表中包含但是文本中出現(xiàn)頻數(shù)低的詞從詞表中刪除掉。同時,Wordstat還會刪除那些頻率過高,對分辨文本內(nèi)容不具貢獻的超高頻詞。最后,Wordstat將會對文本中對象之間的關(guān)系以可視化的方式呈現(xiàn)出來。而KH Coder則沒有此項功能?梢,在自動增刪詞表方面,Wordstat更占有優(yōu)勢。
在文本內(nèi)部表示方面,KH Coder會將預(yù)處理后的結(jié)果轉(zhuǎn)化為內(nèi)部表示的統(tǒng)一形式,并導(dǎo)入到后臺的MySQL數(shù)據(jù)庫中,以備之后的重復(fù)檢索和分析。Wordstat則沒有此項功能?梢,在文本內(nèi)部表示方面,KH Coder占有優(yōu)勢。
4.3 數(shù)據(jù)格式
軟件可以支持的數(shù)據(jù)格式的多少,是評價軟件兼容性的一條重要標(biāo)準(zhǔn)。軟件支持的數(shù)據(jù)格式越多,其使用范圍就越廣,通用性就越強。本文選擇了幾種最常見的數(shù)據(jù)格式用以檢驗上述兩款非結(jié)構(gòu)化文本分析軟件所支持的數(shù)據(jù)格式的類型(結(jié)果見表4)。
比較發(fā)現(xiàn),上述兩種非結(jié)構(gòu)化文本分析軟件中,Wordstat可以支持TXT文件、Word文件、Excel文件以及數(shù)據(jù)庫文件四種數(shù)據(jù)格式,在數(shù)據(jù)庫文件中,Wordstat可以處理的數(shù)據(jù)庫文件類型包括:Access文件、dBase文件以及 Paradox文件。KH Coder僅可以支持TXT文件一種數(shù)據(jù)類型,想要處理其他類型的文件,需將其轉(zhuǎn)化為TXT文件才可進行。可見,在所支持的數(shù)據(jù)格式類型方面,Wordstat更占優(yōu)勢,其通用性與兼容性都要遠遠勝于KH Coder。但是值得注意的是,上述兩款非結(jié)構(gòu)化文本分析軟件都不支持矢量表示的文件格式,如PDF文件等,也不支持網(wǎng)頁文件、圖片文件以及音視頻文件。因此,總的來說,上述兩款非結(jié)構(gòu)化文本分析軟件所支持的數(shù)據(jù)類型還十分有限。
4.4 展現(xiàn)方式
展現(xiàn)方式是對文本進行分析,以及對文本中的對象之間關(guān)系進行揭示的最終呈現(xiàn),對于軟件的可視化功能來講,具有至關(guān)重要的作用。常見的可視化展現(xiàn)方式包括:柱狀圖、餅狀圖、折線圖、網(wǎng)狀圖、散點圖、氣泡圖、概念地圖、熱圖、聚類分析樹狀圖等(見表5)。
比較發(fā)現(xiàn),Wordstat支持上述9種展現(xiàn)方式,并且對于散點圖和概念地圖來講,還支持2D和3D兩種方式。KH Coder僅支持柱狀圖、折線圖、網(wǎng)狀圖、第三點圖、氣泡圖以及聚類分析樹狀圖6種。并且,KH Coder所支持的散點圖僅限制在2D散點圖類型而不支持3D模式?梢,在展現(xiàn)方式方面,Wordstat基本支持所有的展現(xiàn)方式,相比更具有優(yōu)勢。 4.5 關(guān)系揭示
關(guān)系揭示是指對文本分析對象之間的關(guān)系進行展示。對于非結(jié)構(gòu)化文本來講,常見的對象之間的關(guān)系主要就是指詞間關(guān)系。通常情況下,常見的詞間關(guān)系包括:CO-Occurrence、Chi-square、Likelihood ratio、Student's F、Tau-a、Tau-b、Tau-c、symmetric Somers' D、asymmetric Somers' Dxy、Dxy、Gamma、Pearson's R以及Spearman's Rho等(見表6)。
比較發(fā)現(xiàn),在詞間關(guān)系的揭示方面Wordstat占有絕對優(yōu)勢。不僅能夠揭示關(guān)鍵詞之間的共現(xiàn)關(guān)系,還支持其他多種類型的關(guān)鍵詞之間的關(guān)系揭示。而KH Coder在詞間關(guān)系方面僅支持關(guān)鍵詞共現(xiàn)關(guān)系的揭示。但需要指出的是,KH Coder除了支持詞間關(guān)系的揭示之外,還支持關(guān)鍵詞與章節(jié)之間的關(guān)系。即KH Coder可以通過統(tǒng)計關(guān)鍵詞在不同章節(jié)中出現(xiàn)的頻次來幫助用戶判斷文本中哪些章節(jié)為核心章節(jié)。而Wordstat則不具有揭示關(guān)鍵詞與章節(jié)之間關(guān)系的功能。因此在關(guān)鍵詞與章節(jié)之間關(guān)系的揭示方面,KH Coder更占優(yōu)勢。
4.6 兩款非結(jié)構(gòu)化文本分析軟件的應(yīng)用對比分析
為進一步展示兩款非結(jié)構(gòu)化文本分析軟件之間的異同與特點,本文選用同一文本對上述兩款軟件的基本功能進行了進一步的比較,比較的功能包括詞頻統(tǒng)計、上下文關(guān)鍵詞、檢索功能以及預(yù)測功能。在待分析文本的選擇上,選擇了二者都支持的TXT格式,文本內(nèi)容為英文版小說《botchan》。筆者首先在預(yù)處理環(huán)節(jié)中對兩款軟件的停用詞表進行了修改,保證待分析文本所使用停用詞表的一致性。對比的結(jié)果顯示:
在詞頻統(tǒng)計方面,上述兩款軟件的統(tǒng)計結(jié)果基本一致,但有部分單詞的統(tǒng)計結(jié)果存在誤差。例如,對文本中“red”一詞進行頻數(shù)統(tǒng)計,KH Coder的統(tǒng)計結(jié)果為201次,而Wordstat的統(tǒng)計結(jié)果為204次。這可能是由于Wordstat的預(yù)處理環(huán)節(jié)無法處理帶有連詞符號的單詞,因而在遇到帶有連詞符號的單詞時,軟件默認其為兩個單詞,進而導(dǎo)致了某些單詞在頻數(shù)上的差異。并且,在呈現(xiàn)結(jié)果方面,KH Coder首先將單詞按照詞性進行了區(qū)分,進而統(tǒng)計單詞在每一種詞性下出現(xiàn)的頻次。仍以“red”一詞為例,KH Coder對其的統(tǒng)計結(jié)果顯示,其以名詞出現(xiàn)的頻數(shù)為175次,以形容詞出現(xiàn)的頻數(shù)為26次;而Wordstat的詞頻統(tǒng)計結(jié)果并不支持特定詞性下的頻數(shù)統(tǒng)計,而是對單詞按照頻數(shù)高低、單詞首字母等順序進行排序(見圖1)。
在上下文關(guān)鍵詞方面,兩款軟件的統(tǒng)計結(jié)果有較大差異。這主要體現(xiàn)為,KH Coder的查找結(jié)果中會涵蓋該單詞及該單詞其他所有形式,而Wordstat的返回結(jié)果中只包含該單詞。例如,在對單詞“room”進行查找時,KH Coder的返回結(jié)果中既有包含“room”的語句,也有包含“rooms”、“rooming”的語句,而Wordstat的返回結(jié)果中只有包含“room”的語句。在這一點上,兩款軟件是各有利弊的。對于想要一次性找全某一單詞全部形式的用戶來講,KH Coder無疑是一個很好的選擇,但是對于那些對所查找單詞的時態(tài)、單復(fù)數(shù)形式要求較高的用戶來講,Wordstat則更能滿足其需求(見圖2)。
在檢索功能方面,上述兩款非結(jié)構(gòu)化文本分析軟件都能實現(xiàn)對特定單詞的精確檢索與定位,因而在檢索方面兩款軟件差異不大。
在預(yù)測功能方面,Wordstat的預(yù)測功能主要是通過對文本中單詞、語法特征等進行分析,推斷出文本作者的性別。例如,選擇對“love”一詞進行分析,得出其作者是男性的概率為47.8%,是女性的概率為52.2%。而KH Coder的預(yù)測功能則利用提前設(shè)置好的詞表(詞表中的單詞分為積極、中性和消極三個維度)與文本中的單詞進行匹配,以此來預(yù)測文本的情感趨勢(見圖3,其中左圖為KH Coder,右圖為Wordstat)。
5 討論與結(jié)論
5.1 KH Coder和Wordstat的總體評價
對于KH Coder,其為開源軟件,打破用戶選用軟件時的經(jīng)費障礙;更新速度快速,基本滿足用戶的需求;支持日文、英文、法文、德文、意大利文、葡萄牙文和西班牙文共7種語言,基本涵蓋了較為通用的語種;功能強大,支持除相似度計算的全部功能;預(yù)處理環(huán)節(jié)中,可以將待處理文件轉(zhuǎn)化為內(nèi)部表示文本以備重復(fù)調(diào)用,節(jié)省時間和精力。但是,KH Coder的預(yù)處理部分僅包含停用詞處理等幾項步驟,并且不支持自定義預(yù)處理,模式較為單一;僅支持TXT一種數(shù)據(jù)格式,其他的常見數(shù)據(jù)格式,如Word、Excel等都不予支持,使用范圍較窄;僅支持樹狀圖、散點圖等較為基礎(chǔ)的幾種可視化展現(xiàn)方式,其他的圖形(如熱圖等)都不予支持,并且散點圖中僅支持2D模式的散點圖?梢暬宫F(xiàn)方式較為單一;僅支持關(guān)系揭示中的共現(xiàn)關(guān)系一種,對其他常見的詞間關(guān)系不予揭示,關(guān)系揭示的類型較為單一。因此,該軟件可考慮增加可處理文本的類型,并且豐富其可視化結(jié)果的展現(xiàn)方式,如增加概念地圖、熱圖等展現(xiàn)方式。
對于Wordstat,其功能強大,支持除生成摘要外的全部功能,支持自定義的預(yù)處理功能,對文本的處理更為細膩;支持的數(shù)據(jù)格式更為全面,展現(xiàn)方式更為多樣,關(guān)系的揭示更為全面。然而,Wordstat為非開源軟件,費用方面處于弱勢;盡管支持的運行系統(tǒng)十分全面,但是需要在QDAMiner或者Simstat的基礎(chǔ)上才能運行,前期準(zhǔn)備工作較為復(fù)雜;僅支持英文、法文、西班牙文和荷蘭文四種語言,對其他科研實力較高國家的語種則不予支持,如中文、日文等;不支持圖片、音視頻等格式的文本的分析,所支持的數(shù)據(jù)格式有限,預(yù)處理環(huán)節(jié)中,不能將文本標(biāo)準(zhǔn)化后轉(zhuǎn)變?yōu)閮?nèi)部表示的文本,以備反復(fù)調(diào)用。因而,在未來的發(fā)展中,該軟件可考慮增加可處理語言的種類及文本類型,同時增加文本內(nèi)部表示及重復(fù)調(diào)用的功能。 5.2 非結(jié)構(gòu)化文本分析軟件的未來發(fā)展
隨著數(shù)字化信息資源數(shù)量和種類的不斷增加,針對博客、微博、微信、系統(tǒng)日志等海量非結(jié)構(gòu)化文本,如何快速、準(zhǔn)確地對其進行挖掘,以提煉出人們所需要的簡潔、精煉、可理解的知識,是大數(shù)據(jù)時代文本分析的重要議題。由于非結(jié)構(gòu)化文本多涉及人類自然語言,含有語氣、語調(diào)、修辭等更為復(fù)雜的信息,只靠固定維度的常規(guī)分析難以挖掘非結(jié)構(gòu)化文本中隱含的知識點。因此,隨著大數(shù)據(jù)理念及其相關(guān)分析技術(shù)的發(fā)展,非結(jié)構(gòu)化文本分析軟件的功能改進,將聚集于智能化、處理復(fù)雜文本、情感分析、簡化管理等方面。
。1)支持智能化理解。即非結(jié)構(gòu)化文本分析軟件能夠借助主題分析算法確定非結(jié)構(gòu)化文本的主要內(nèi)容,以作進一步的分類與結(jié)構(gòu)化。目前,已有非結(jié)構(gòu)化文本分析軟件能夠生成文檔的術(shù)語矩陣,即提取非結(jié)構(gòu)化文本中的核心詞進行聚類分析,并進一步通過文檔主題的生成模式,對具有相似主題的非結(jié)構(gòu)化文本進行分類與分組。
(2)支持復(fù)雜文本處理。即非結(jié)構(gòu)化文本分析軟件能夠?qū)?nèi)容龐雜、議題分散等多學(xué)科、多來源、多格式的數(shù)據(jù)進行集成處理。通過嵌入命名實體識別算法,以確定非結(jié)構(gòu)化文本中哪些部分包含人名、地名、機構(gòu)名、產(chǎn)品名、單位名稱、日期、事件等實體,依托底層的本體模型,進行語義分析與挖掘。目前,國內(nèi)已有科研機構(gòu)啟動了大規(guī)模的本體建設(shè)[11]。其成果將為非結(jié)構(gòu)化文本分析軟件對復(fù)雜文本的智能處理提供有力支撐。
。3)支持情感分析。即非結(jié)構(gòu)化文本分析軟件能夠?qū)Ψ墙Y(jié)構(gòu)化文本中的詞語、句子、段落中觀點進行挖掘。非結(jié)構(gòu)化文本的情感挖掘?qū)⑻峁┲辽賰煞N維度的挖掘。一類是主觀性分析,包括主觀、客觀和中性;另一類是情感傾向分析,包括褒義、貶義和中性。
。4)支持簡化管理。即非結(jié)構(gòu)化文本分析軟件能夠?qū)Σ煌瑧?yīng)用場景、不同操作者,提供不同的操作模式。這種操作模式涵蓋界面設(shè)計、參數(shù)設(shè)置和結(jié)果展示等。同時,能夠支持不同操作者對動態(tài)變化的非結(jié)構(gòu)化文本進行審計跟蹤、定期檢驗和檢測報告的自動生成。
在大數(shù)據(jù)時代,以KH Coder和Wordstat為代表的一系列非結(jié)構(gòu)化文本分析軟件,將進一步結(jié)合非結(jié)構(gòu)化文本的特性,在功能上進一步完善。
參考文獻:
[1] 百度百科.非結(jié)構(gòu)化文本[EB/OL].[2014-07-14].http://baike.baidu.com/link?url=Ekjk1bbPZm89_MiuNqT3ZTaT_Hpjemxl_EZ149BX_OkXOo4cmanZnFLhO3rjLqzOBcF_oBS35oHJBXGdiWZ1_a.
[2] 黃娟. 基于文本挖掘技術(shù)的蛋白質(zhì)相互作用預(yù)測方法研究[D].長沙:中南大學(xué),2009.
[3] 曾道建,來斯惟,張元哲,劉康,趙軍. 面向非結(jié)構(gòu)化文本的開放式實體屬性抽取[J]. 江西師范大學(xué)學(xué)報(自然科學(xué)版),2013(3):279-283.
[4] Luhn H P. The Automatic Creation of Literature Abstracts[J].IBM Journal of Research and Development, 1958,2(2):159-165.
[5] Maron M E, Kuhns J L. On Relevance, Probabilistic Indexing and Information Retrieval[J]. Journal of the Acm, 1960, 7(3):216-244.
[6] Ghanem M, Chortaras A, Guo Y, et al.A grid infrastructure for mixed bioinformatics data and text mining[C].The 3rd ACS/IEEEInternational Conference,IEEE, 2005: 41.
[7] 李凡,魯明羽,陸玉昌. 關(guān)于文本特征抽取新方法的研究[J]. 清華大學(xué)學(xué)報(自然科學(xué)版),2001(7):98-101.
[8] 萬小軍,楊建武,陳曉鷗. 文檔聚類中k-means算法的一種改進算法[J]. 計算機工程,2003(2):102-103.
[9] 黃曉斌,趙超. 文本挖掘在網(wǎng)絡(luò)輿情信息分析中的應(yīng)用[J]. 情報科學(xué),2009(1):94-99.
[10] Lowe W. Software for content analysis-A Review[M]. Cambridge: Weatherhead Center for International Affairs and the Harvard IdentityProject, 2002.
[11] 孫坦,劉崢. 面向外文科技文獻信息的知識組織體系建設(shè)思路[J]. 圖書與情報,2013(1):2-7.