音影先锋亚洲天堂网|电影世界尽头的爱完整版播放|国产 熟女 91|高清无码免费观看欧美日韩|韩国一区二区三区黄色录像|美女亚洲加勒比在线|亚洲综合网 开心五月|7x成人在线入口|成人网站免费日韩毛片区|国产黄片?一级?二级?三级

提高閱讀效率——利用機(jī)器學(xué)習(xí)的網(wǎng)頁(yè)正文提取方法

出處:安增文, 王 超, 徐杰鋒 發(fā)布于:2011-08-31 09:03:27

    互聯(lián)網(wǎng)的普及使得網(wǎng)絡(luò)成為人們獲取信息的重要途徑。而互聯(lián)網(wǎng)上的信息量也與日俱增,網(wǎng)頁(yè)上的內(nèi)容除了主題內(nèi)容外,通常都會(huì)在頁(yè)面中放置導(dǎo)航條以方便用戶訪問(wèn),還有如廣告、版權(quán)信息、歡迎信息等與主題無(wú)關(guān)的內(nèi)容,我們稱之為“噪音”.

    怎樣去除這些噪音,將網(wǎng)頁(yè)中的正文內(nèi)容提取出來(lái),從而提高人們的閱讀效率,這在垂直搜索和數(shù)據(jù)挖掘方面具有重要意義。在這個(gè)領(lǐng)域已經(jīng)發(fā)表了很多的研究成果,這些研究成果從不同的角度入手,有的只利用網(wǎng)頁(yè)本身的特征,有的還與其他技術(shù)相結(jié)合,使網(wǎng)頁(yè)正文抽取的準(zhǔn)確性和完整性得到不斷提高,但還沒(méi)有一種方法能達(dá)到人們期望的程度,還需要不斷地研究和探索。

    一、正文抽取相關(guān)研究

    到目前為止,已經(jīng)發(fā)表的網(wǎng)頁(yè)正文內(nèi)容抽取方法有很多種,其分類方式的依據(jù)也不盡相同,下面介紹幾種較為常用的抽取方法。

    1、基于模板的方法

    這種技術(shù)依賴HTML文檔的內(nèi)部結(jié)構(gòu)特征來(lái)完成數(shù)據(jù)抽取,需要使用wrapper(包裝器)來(lái)抽取網(wǎng)頁(yè)中的正文內(nèi)容。包裝器可以通過(guò)分析網(wǎng)頁(yè)源代碼來(lái)手工編寫(xiě),也可以通過(guò)程序自動(dòng)或半自動(dòng)的實(shí)現(xiàn)。手工編寫(xiě)的方法一般都針對(duì)特定的網(wǎng)頁(yè)模式,其優(yōu)點(diǎn)是實(shí)現(xiàn)簡(jiǎn)單、準(zhǔn)確率高,缺點(diǎn)是對(duì)于不同的網(wǎng)頁(yè)模式或網(wǎng)頁(yè)結(jié)構(gòu)發(fā)生變化時(shí)需要重新編寫(xiě)包裝器,如果包裝器類型很多,包裝器的維護(hù)代價(jià)會(huì)很大,但由于該方法的準(zhǔn)確性較高,所以在針對(duì)特定網(wǎng)站的抽取中應(yīng)用很廣。自動(dòng)或半自動(dòng)地生成包裝器的方法在一定程度上減輕了維護(hù)包裝器的工作量,但是需要樣本學(xué)習(xí),對(duì)用戶要求較高。

    2、基于統(tǒng)計(jì)的方法

    這種方法從頁(yè)面的不同角度分析它的統(tǒng)計(jì)特征,采用統(tǒng)計(jì)學(xué)的算法抽取正文。例如根據(jù)統(tǒng)計(jì)的文字?jǐn)?shù)量、鏈接數(shù)量、標(biāo)簽字符數(shù)量等計(jì)算出文本密度、鏈接密度等,并通過(guò)這些值來(lái)判斷哪些為正文文本、哪些為噪音內(nèi)容。參考文獻(xiàn)[1]提出一種通過(guò)分析頁(yè)面文本密度進(jìn)行正文抽取的方法。這種方法實(shí)現(xiàn)簡(jiǎn)單,并且不需要編寫(xiě)包裝器,但提取的準(zhǔn)確率有限,有時(shí)會(huì)將與正文無(wú)關(guān)的版權(quán)聲明等當(dāng)作正文內(nèi)容提取出來(lái)。

    3、基于神經(jīng)網(wǎng)絡(luò)的方法

    由于神經(jīng)網(wǎng)絡(luò)具有優(yōu)越的非線性處理能力和泛化能力,因此在很多實(shí)際領(lǐng)域中都取得了傳統(tǒng)符號(hào)學(xué)習(xí)機(jī)制難以獲得的效果。搜索結(jié)點(diǎn)的輸入連接權(quán),通過(guò)找出權(quán)值之和超過(guò)閾值的連接權(quán)子集來(lái)抽取規(guī)則。利用多層網(wǎng)絡(luò)度量輸入之間的接近程度,并利用單層抑制性網(wǎng)絡(luò)度量輸入、輸出相關(guān)度,從而獲得抽取規(guī)則。

    針對(duì)新聞?lì)惥W(wǎng)頁(yè)及類似布局的頁(yè)面,在對(duì)頁(yè)面文本密度進(jìn)行統(tǒng)計(jì)之后對(duì)文本密度與頁(yè)面標(biāo)題、正文之間的對(duì)應(yīng)關(guān)系進(jìn)行分析,以對(duì)傳網(wǎng)絡(luò)(CPN)為工具,對(duì)文本密度在標(biāo)題、正文等語(yǔ)義塊中的分布模式進(jìn)行擬合,從而達(dá)到抽取目標(biāo)信息的目的。

    4、基于中文標(biāo)點(diǎn)符號(hào)和HTML樹(shù)

    結(jié)構(gòu)的網(wǎng)頁(yè)正文信息抽取方法HTML( hyper text markup language) 是超文本標(biāo)記語(yǔ)言, 是基于標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言(SGML) 的一個(gè)龐大的文檔處理系統(tǒng)。 SGML 的基本思想是采用描述標(biāo)記( Tag) 來(lái)提供描述文檔結(jié)構(gòu)的附加信息。 HTML 利用SGML 定義了一些標(biāo)記,如<html>、<title>等,用于描述文本的顯示方式,并對(duì)這些標(biāo)記的使用都做了格式定義,對(duì)于實(shí)體符號(hào)的顯示和標(biāo)記元素的結(jié)構(gòu)也做了規(guī)范,使得HTML 網(wǎng)頁(yè)在文本格式和結(jié)構(gòu)上存在一定的規(guī)律,也為網(wǎng)頁(yè)信息的提取提供了方便。

    在規(guī)范化之前,可以先刪除<form>、<script>和<style>等用于控制HTML 文件的交互性和顯示的標(biāo)記,這些標(biāo)記不包含主題內(nèi)容,剔除后可加快處理速度。 使用HTML Tidy 工具對(duì)網(wǎng)頁(yè)進(jìn)行規(guī)范化可以實(shí)現(xiàn)完整的HTML 樹(shù)結(jié)構(gòu)的顯示,但沒(méi)有針對(duì)性和可操作性,所以編寫(xiě)了用于本文研究的HTML 規(guī)范化程序,然后通過(guò)HTML 樹(shù)解析程序?qū)⒁?guī)范的HTML 文件解析成HTML樹(shù),樹(shù)中的每個(gè)結(jié)點(diǎn)包含了一對(duì)標(biāo)記間的所有字符,結(jié)點(diǎn)的名字為對(duì)應(yīng)標(biāo)記的名字。

    以行為單位對(duì)網(wǎng)頁(yè)源代碼中的每一行計(jì)算其相關(guān)的六個(gè)屬性,并以此作為BP神經(jīng)網(wǎng)絡(luò)的輸入?yún)?shù)進(jìn)行學(xué)習(xí)。由于該算法未對(duì)文本內(nèi)容和標(biāo)題的相關(guān)度進(jìn)行判斷,所以導(dǎo)致會(huì)將一些網(wǎng)站的版權(quán)聲明當(dāng)作正文內(nèi)容錯(cuò)誤地提取出來(lái)。所以通過(guò)計(jì)算文本內(nèi)容和標(biāo)題的相關(guān)度來(lái)區(qū)別是否為噪音是合理的。本方法以行為單位對(duì)DOM樹(shù)進(jìn)行處理,將每行的文本密度、文本內(nèi)容與標(biāo)題的相關(guān)度作為輸入?yún)?shù)利用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而提高信息抽取的準(zhǔn)確度。

    二、算法描述

    1、BP神經(jīng)網(wǎng)絡(luò)模型

    BP算法屬于Delta學(xué)習(xí)規(guī)則,是一種有教師的學(xué)習(xí)算法,是以網(wǎng)絡(luò)誤差平方和為目標(biāo)函數(shù),按梯度法(gradient approaches)求其目標(biāo)函數(shù)達(dá)到值的算法。一個(gè)典型的BP神經(jīng)網(wǎng)絡(luò)包括:(1)由一個(gè)輸入層x、一個(gè)(或多個(gè))隱藏層y和一個(gè)輸出層o組成的三層或多層結(jié)構(gòu);(2)處理單元(圖1中的圓圈)是網(wǎng)絡(luò)的基本組成部分,輸入層的處理單元只是將輸入值轉(zhuǎn)入相鄰的聯(lián)接權(quán)重,隱層和輸出層的處理單元將它們的輸入值求和并根據(jù)傳遞函數(shù)計(jì)算輸出值;(3)聯(lián)接權(quán)重(如圖1中v,w)將神經(jīng)網(wǎng)絡(luò)中的處理單元聯(lián)系起來(lái),其值隨各處理單元的連接程度而變化;(4)閾值,其值可為恒值或可變值,它可使網(wǎng)絡(luò)能更自由地獲取所要描述的函數(shù)關(guān)系;(5)傳遞函數(shù)F,它是將輸入的數(shù)據(jù)轉(zhuǎn)化為輸出的處理單元,通常為非線性函數(shù)。

BP神經(jīng)網(wǎng)絡(luò)模型

    輸入層和輸出層的結(jié)點(diǎn)個(gè)數(shù)可以根據(jù)訓(xùn)練集來(lái)確定,而隱藏層的結(jié)點(diǎn)卻需要試驗(yàn)判斷。如果隱藏層結(jié)點(diǎn)數(shù)過(guò)少,網(wǎng)絡(luò)就不能具有必要的學(xué)習(xí)能力和信息處理能力。如果隱藏層結(jié)點(diǎn)數(shù)過(guò)多,不僅會(huì)大大增加網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性,網(wǎng)絡(luò)在學(xué)習(xí)過(guò)程中更易陷入局部極小值,而且會(huì)使網(wǎng)絡(luò)的學(xué)習(xí)速度變得很慢。

    2、利用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行正文提取

    網(wǎng)頁(yè)的類型大體上可以分為三類:

    (1)文字多圖片少的內(nèi)容型網(wǎng)頁(yè),如新聞網(wǎng)頁(yè);

    (2)以圖片為主文字介紹為輔的圖片型網(wǎng)頁(yè),如圖片新聞;

    (3)以超鏈接為主的目錄型網(wǎng)頁(yè),如新浪。試驗(yàn)中我們以內(nèi)容型網(wǎng)頁(yè)作為主要研究對(duì)象。

    三、網(wǎng)頁(yè)源文件預(yù)處理

    隨著web2.0的發(fā)展,網(wǎng)站為了定制網(wǎng)頁(yè)的表現(xiàn)形式和提高網(wǎng)頁(yè)視覺(jué)效果,在源文件中加入大量Script腳本和CSS代碼。所以在抽取正文之前要對(duì)網(wǎng)頁(yè)源文件進(jìn)行預(yù)處理,去除與正文內(nèi)容不相關(guān)的噪音內(nèi)容。

    首先,由于html語(yǔ)言書(shū)寫(xiě)的隨意性,導(dǎo)致有些網(wǎng)頁(yè)源代碼的不規(guī)范,例如標(biāo)簽對(duì)缺失、嵌套不準(zhǔn)確等。所以要將缺失的html標(biāo)簽補(bǔ)齊、修改不正確的嵌套關(guān)系,并將源代碼轉(zhuǎn)換為DOM樹(shù)的形式。本文采用HTML Tidy工具來(lái)處理網(wǎng)頁(yè)。

    其次,要判斷網(wǎng)頁(yè)源文件的編碼,否則有可能抽取到亂碼。以源文件頭中的meta里聲明的charset為準(zhǔn),對(duì)于編碼為GBK、gb2312等格式的網(wǎng)頁(yè),都將其轉(zhuǎn)為utf8格式。

    ,Script標(biāo)簽對(duì)之間和CSS內(nèi)容都與正文內(nèi)容無(wú)關(guān),要全部刪除。另外,對(duì)于<a></a>等無(wú)用的空標(biāo)簽對(duì)也一并刪除。

    四、神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程

    1、頁(yè)面主題的提取

    <title>中的內(nèi)容一般為文章標(biāo)題,但現(xiàn)在各大網(wǎng)站一般采用“文章標(biāo)題+網(wǎng)站名”的形式放在<title>標(biāo)簽中,且用符號(hào)“-”或“_”連接。在此將<title>中的文字內(nèi)容取出,并將“-”或“_”符號(hào)后面的文字刪除;若有多個(gè)這種符號(hào),則將一個(gè)這種符號(hào)后面的文字內(nèi)容刪除,剩下的文字內(nèi)容作為文章標(biāo)題。因?yàn)闃?biāo)題中的文字內(nèi)容一般會(huì)在正文內(nèi)容中出現(xiàn),而非正文內(nèi)容一般不會(huì)包含標(biāo)題詞,所以可以將文本內(nèi)容與文章標(biāo)題的相關(guān)度作為判斷文本是否正文的一個(gè)因子。

    2、統(tǒng)計(jì)各項(xiàng)值

    以行為單位對(duì)DOM樹(shù)進(jìn)行處理,依次統(tǒng)計(jì)每行的文本長(zhǎng)度y和字符總長(zhǎng)度z,用p表示該段的文本密度,則p=y/z,該行的文本內(nèi)容為c.

    3、計(jì)算相關(guān)度

    分別對(duì)文章標(biāo)題t和每行取出的文本內(nèi)容c進(jìn)行分詞,得到對(duì)應(yīng)的標(biāo)題詞項(xiàng)(t1,t2…tm)和文本詞項(xiàng)(c1,c2…cn),然后將每個(gè)標(biāo)題詞項(xiàng)ti和文本詞項(xiàng)cj進(jìn)行匹配,統(tǒng)計(jì)匹配次數(shù)并進(jìn)行加權(quán)計(jì)算,得出其相關(guān)度,記相關(guān)度為s.為了提高相關(guān)度的準(zhǔn)確性,本文借鑒搜索引擎中“倒排索引”的經(jīng)驗(yàn),對(duì)“的”“是”等停止詞放在詞庫(kù)中進(jìn)行分詞,但不對(duì)其進(jìn)行相關(guān)度計(jì)算。

    采用BP神經(jīng)網(wǎng)絡(luò)作為訓(xùn)練模型,各層的激勵(lì)函數(shù)均為logsig,目標(biāo)誤差設(shè)為0.05,學(xué)習(xí)率為0.2.該模型有12個(gè)輸入結(jié)點(diǎn)、5個(gè)隱藏層結(jié)點(diǎn)和一個(gè)輸出結(jié)點(diǎn)。其中12個(gè)輸入?yún)?shù)為:每行的文本長(zhǎng)度、每行的字符總長(zhǎng)度、每行的文本密度、每行文本內(nèi)容與標(biāo)題的相關(guān)度、上一行的這四個(gè)值和下一行的這四個(gè)值。具體步驟如下:

    (1)獲取訓(xùn)練集并做好標(biāo)記。

    (2)對(duì)網(wǎng)頁(yè)源文件進(jìn)行預(yù)處理,生成相應(yīng)的DOM樹(shù)。

    (3)從DOM樹(shù)中讀取一行文字,統(tǒng)計(jì)相應(yīng)值,得出輸入向量和期望輸出。

    (4)輸入向量經(jīng)過(guò)隱藏層結(jié)點(diǎn)和輸出層結(jié)點(diǎn)的傳遞函數(shù)得到實(shí)際輸出。

    (5)計(jì)算實(shí)際輸出向量和期望輸出向量的誤差,并計(jì)算各輸出誤差項(xiàng)和隱藏層結(jié)點(diǎn)誤差項(xiàng)。如果誤差在允許范圍內(nèi),則回到步驟(3),從DOM樹(shù)中讀取下一行文字繼續(xù)進(jìn)行。如果誤差不在允許誤差范圍內(nèi),則根據(jù)計(jì)算出的誤差項(xiàng)計(jì)算出各權(quán)重的調(diào)整量,并調(diào)整權(quán)重。

    (6)返回步驟(4),繼續(xù)迭代,直到實(shí)際輸出向量和期望輸出向量的誤差滿足要求。返回步驟(3)讀取下一行內(nèi)容,繼續(xù)進(jìn)行學(xué)習(xí)。

    (7)標(biāo)簽樹(shù)遍歷完畢,訓(xùn)練結(jié)束。

    將DOM樹(shù)的各個(gè)元素偶對(duì)的相關(guān)值作為神經(jīng)網(wǎng)絡(luò)的輸入,樣本標(biāo)記結(jié)果作為輸出,通過(guò)學(xué)習(xí)算法自動(dòng)生成抽取規(guī)則,對(duì)新的頁(yè)面應(yīng)用抽取規(guī)則進(jìn)行測(cè)試。

    五、測(cè)試結(jié)果

    采用信息抽取技術(shù)中常用的查全率(R)、查準(zhǔn)率(P)和F值三個(gè)評(píng)價(jià)指標(biāo)對(duì)測(cè)試結(jié)果進(jìn)行評(píng)價(jià)。查全率表示被正確抽取的信息的比例、查準(zhǔn)率表示提取出來(lái)的正確信息的比率、F值是查全率和查準(zhǔn)率的加權(quán)幾何平均值。用公式表示如下:P=(正確抽取出正文內(nèi)容的網(wǎng)頁(yè)數(shù)/總網(wǎng)頁(yè)數(shù))*100%,R=(抽取出完整正文內(nèi)容的網(wǎng)頁(yè)數(shù)/正確抽取出正文內(nèi)容的網(wǎng)頁(yè)數(shù))*100%,在此將查全率和查準(zhǔn)率看的同等重要,得出F=2PR/(P+R)。根據(jù)F值與1的靠近程度來(lái)判斷算法的好壞,越靠近1算法越好。

    從幾大新聞網(wǎng)站隨機(jī)抽取20個(gè)網(wǎng)頁(yè)進(jìn)行人工分析和標(biāo)記,按照以上方法進(jìn)行訓(xùn)練。為了測(cè)試抽取方法的可行性,再抽取一定量的網(wǎng)頁(yè)作為測(cè)試集,并利用訓(xùn)練結(jié)果進(jìn)行測(cè)試。測(cè)試結(jié)果如表1所示。

利用訓(xùn)練結(jié)果進(jìn)行測(cè)試

    在本文中通過(guò)統(tǒng)計(jì)DOM樹(shù)每一行的文本長(zhǎng)度和字符長(zhǎng)度,進(jìn)而計(jì)算文本密度以及文字內(nèi)容與標(biāo)題的相關(guān)度,并將這些數(shù)值作為輸入?yún)?shù)輸入到人工神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。通過(guò)計(jì)算內(nèi)容和標(biāo)題的相關(guān)度可以避免將一些標(biāo)簽字符較少、文字內(nèi)容較多的版權(quán)聲明等內(nèi)容提取出來(lái),進(jìn)而提高正文抽取的準(zhǔn)確度。從測(cè)試結(jié)果看,該方法具有一定的可行性。下一步要尋求更好的相關(guān)度計(jì)算方法,更準(zhǔn)確地計(jì)算正文和標(biāo)題的相關(guān)度,進(jìn)一步提高正文抽取的準(zhǔn)確性。


  
關(guān)鍵詞:提高閱讀效率——利用機(jī)器學(xué)習(xí)的網(wǎng)頁(yè)正文提取方法

版權(quán)與免責(zé)聲明

凡本網(wǎng)注明“出處:維庫(kù)電子市場(chǎng)網(wǎng)”的所有作品,版權(quán)均屬于維庫(kù)電子市場(chǎng)網(wǎng),轉(zhuǎn)載請(qǐng)必須注明維庫(kù)電子市場(chǎng)網(wǎng),http://m.58mhw.cn,違反者本網(wǎng)將追究相關(guān)法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明自其它出處的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性,不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)轉(zhuǎn)載時(shí),必須保留本網(wǎng)注明的作品出處,并自負(fù)版權(quán)等法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問(wèn)題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

廣告
OEM清單文件: OEM清單文件
*公司名:
*聯(lián)系人:
*手機(jī)號(hào)碼:
QQ:
有效期:

掃碼下載APP,
一鍵連接廣大的電子世界。

在線人工客服

買(mǎi)家服務(wù):
賣家服務(wù):
技術(shù)客服:

0571-85317607

網(wǎng)站技術(shù)支持

13606545031

客服在線時(shí)間周一至周五
9:00-17:30

關(guān)注官方微信號(hào),
第一時(shí)間獲取資訊。

建議反饋

聯(lián)系人:

聯(lián)系方式:

按住滑塊,拖拽到最右邊
>>
感謝您向阿庫(kù)提出的寶貴意見(jiàn),您的參與是維庫(kù)提升服務(wù)的動(dòng)力!意見(jiàn)一經(jīng)采納,將有感恩紅包奉上哦!