音影先锋亚洲天堂网|电影世界尽头的爱完整版播放|国产 熟女 91|高清无码免费观看欧美日韩|韩国一区二区三区黄色录像|美女亚洲加勒比在线|亚洲综合网 开心五月|7x成人在线入口|成人网站免费日韩毛片区|国产黄片?一级?二级?三级

一種中文網(wǎng)頁分類的方法

出處:孔令成,鄭 誠,吳永俊 發(fā)布于:2011-09-02 11:52:04

  網(wǎng)絡(luò)原指用一個巨大的虛擬畫面,把所有東西連接起來,也可以作為動詞使用。在計算機領(lǐng)域中,網(wǎng)絡(luò)就是用物理鏈路將各個孤立的工作站或主機相連在一起,組成數(shù)據(jù)鏈路,從而達到資源共享和通信的目的。凡將地理位置不同,并具有獨立功能的多個計算機系統(tǒng)通過通信設(shè)備和線路而連接起來,且以功能完善的網(wǎng)絡(luò)軟件(網(wǎng)絡(luò)協(xié)議、信息交換方式及網(wǎng)絡(luò)操作系統(tǒng)等)實現(xiàn)網(wǎng)絡(luò)資源共享的系統(tǒng),可稱為計算機網(wǎng)絡(luò)。網(wǎng)絡(luò)的迅速發(fā)展,使人們不僅面臨信息爆炸,同時也面臨著如何從浩如煙海的信息中獲取自己所需信息的難題。如何有效地組織和處理海量的信息,并過濾和管理網(wǎng)絡(luò)資源,已成為必須面對的問題。

  為了網(wǎng)頁信息的有效組織和檢索,人們開發(fā)了各種網(wǎng)絡(luò)信息搜索器,在一定程度上確實提高了網(wǎng)絡(luò)信息的利用率。與文本分類技術(shù)相比較,網(wǎng)頁分類更加復(fù)雜,這是由網(wǎng)頁的結(jié)構(gòu)特征決定的,但是網(wǎng)頁的信息主要是通過文本的方式向人們傳遞的,所以在對網(wǎng)頁分類之前,首先要對其中的文本進行提取,對所提取的文本分類,終使網(wǎng)頁分類問題轉(zhuǎn)化為文本分類問題。

  目前,文本分類技術(shù)的研究比較活躍,已經(jīng)出現(xiàn)了多種文本分類算法,并且被廣泛應(yīng)用于多個領(lǐng)域:信息檢索、搜索引擎、文本數(shù)據(jù)庫等。文本分類算法[1-3]基本是基于概率統(tǒng)計模型,本文就是基于互信息(MI)提出一種改進的特征提取方法,并根據(jù)TFIDF提出一種新的特征權(quán)值計算方法構(gòu)建中文網(wǎng)頁分類器。

  1 網(wǎng)頁預(yù)處理

  網(wǎng)頁分類之前首先要進行預(yù)處理,實際上就是HTML解析,把解析出來的內(nèi)容用于文本分類,選取網(wǎng)頁中的下面這些文本用于分類:

 ?。?)錨文本。錨文本是網(wǎng)頁中用于指示所連接網(wǎng)頁內(nèi)容的提示,由于后面要對提取的文本進行分類,所以只提取文字形式的錨文本。

 ?。?)title文本。這樣的文本可能是網(wǎng)頁中重要的標簽,必須取得。

  (3)meta標簽。其重要的功能就是設(shè)置關(guān)鍵字,網(wǎng)頁的制作者往往都設(shè)置了關(guān)鍵字,來提高網(wǎng)頁的搜索點擊率??梢岳胢eta標簽中的有關(guān)文本內(nèi)容進行網(wǎng)頁分類。

 ?。?)主文本。上面這些信息獲取之后,網(wǎng)頁中剩余的文本信息還在各種HTML標簽中,在HTML源文件中,主文本有可能不是連續(xù)出現(xiàn)的。主文本一般是網(wǎng)頁中文字集中的較長的字符串,查看源文件,那些比較長的字符串是整個出現(xiàn)在1個標簽中的。

  文本首先要確定的問題就是表示文本的基本單位,用于表示文本的基本單位通常稱為文本的特征或特征項。中文文本不同于英文文本,英文文本以空格為分隔符,非常明確。而中文文本需要對其進行分詞處理才能得出每個特征。本文采用中科院計算技術(shù)研究所漢語詞法分析系統(tǒng)ICTCLAS3.0[4]進行分詞。如果把這些對文本分類沒有意義的虛詞作為特征,將會帶來很大噪音,降低文本分類的效率和準確率。因此,在提取文本特征時,應(yīng)首先考慮剔除這些對文本分類沒有用處的虛詞,而在實詞中,又以名詞和動詞對于文本的類別特性的表現(xiàn)力強。

  2 特征提取

  特征提取就是提取出能代表某篇文章或某類的特征項,以達到降維的效果從而減少文本分類的計算量。典型特征提取方法:信息增益(Information Gain),互信息(MI)、文檔頻度(DF)。傳統(tǒng)的MI特征提取方法:

  計算出所有特征詞的統(tǒng)計值后,從大到小進行排序,然后根據(jù)需要從上到下選取一定數(shù)量的特征詞構(gòu)建文本分類的特征詞庫。

  3 特征加權(quán)及向量化

  TFIDF算法及其改進型[5]有多種公式,本文使用一種新的改進的TF-IDF公式來計算特征詞的權(quán)重。TF-IDF公式有很多變種,比較常見的TF-IDF公式:


  

版權(quán)與免責(zé)聲明

凡本網(wǎng)注明“出處:維庫電子市場網(wǎng)”的所有作品,版權(quán)均屬于維庫電子市場網(wǎng),轉(zhuǎn)載請必須注明維庫電子市場網(wǎng),http://m.58mhw.cn,違反者本網(wǎng)將追究相關(guān)法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明自其它出處的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點或證實其內(nèi)容的真實性,不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個人從本網(wǎng)轉(zhuǎn)載時,必須保留本網(wǎng)注明的作品出處,并自負版權(quán)等法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

廣告
OEM清單文件: OEM清單文件
*公司名:
*聯(lián)系人:
*手機號碼:
QQ:
有效期:

掃碼下載APP,
一鍵連接廣大的電子世界。

在線人工客服

買家服務(wù):
賣家服務(wù):
技術(shù)客服:

0571-85317607

網(wǎng)站技術(shù)支持

13606545031

客服在線時間周一至周五
9:00-17:30

關(guān)注官方微信號,
第一時間獲取資訊。

建議反饋

聯(lián)系人:

聯(lián)系方式:

按住滑塊,拖拽到最右邊
>>
感謝您向阿庫提出的寶貴意見,您的參與是維庫提升服務(wù)的動力!意見一經(jīng)采納,將有感恩紅包奉上哦!