基于Java的敏感詞過濾器設(shè)計
出處:oldzhang 發(fā)布于:2012-09-24 09:52:47
良好的網(wǎng)絡(luò)文化對培養(yǎng)青少年的愛國意識、創(chuàng)新精神、促進青少年良好的個性發(fā)展以及文化學(xué)習(xí)等方面都有積極的作用。但是網(wǎng)絡(luò)文化中混雜著種種不良因素,對青少年造成許多負(fù)面影響:網(wǎng)絡(luò)中的不健康內(nèi)容不利于青少年的成長,甚至造成許多青少年犯罪行為的不斷發(fā)生;網(wǎng)絡(luò)世界的虛擬性還會造成青少年對現(xiàn)實社會的不滿,青少年對網(wǎng)絡(luò)世界的過分迷戀會導(dǎo)致網(wǎng)絡(luò)孤獨,網(wǎng)絡(luò)中多元化的內(nèi)容會導(dǎo)致青少年認(rèn)識偏差,網(wǎng)絡(luò)的隱匿性容易使青少年道德弱化[1].特別令人擔(dān)憂的是不良的網(wǎng)絡(luò)文化對青少年的犯罪起著推動作用,值得全社會關(guān)注和重視。
本文提出了一種敏感詞過濾器軟件的設(shè)計,對網(wǎng)絡(luò)中不良的內(nèi)容進行查找、發(fā)現(xiàn),避免這些不良網(wǎng)絡(luò)文化侵蝕青少年的心靈健康。
1 敏感詞過濾器的設(shè)計原理
敏感詞過濾器的原理圖如圖1所示。其原理如下:(1)對敏感詞庫的內(nèi)容進行分割,把敏感詞庫中所有的敏感詞或詞組分開,并把這些敏感詞或詞組存入數(shù)組中;(2)將待測文件庫中的文件進行逐個讀取,并記錄文件的內(nèi)容;(3)在待測文件中查找是否存在剛存放敏感詞或臟詞組內(nèi)容的數(shù)組里面的內(nèi)容,如果有,進行標(biāo)注等操作;如果沒有,繼續(xù)檢查待測文件庫中的下一個待測文件,直到待測文件庫中的待測文件都被檢查完為止;(4)輸出結(jié)果。即輸出待測文件庫中每個待測文件中包含敏感詞或臟詞組的個數(shù)及出處等信息。
2 算法實現(xiàn)
軟件開發(fā)環(huán)境:myeclipse平臺,Java語言。首先以myeclipse平臺新建一個java project,在新建的project中需要導(dǎo)入下面相關(guān)文件:
import java.io.BufferedReader;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.StringTokenizer;
過濾器軟件中main函數(shù)的主要內(nèi)容如下:
public static void main(String[] args) {
BufferedReader br=new BufferedReader(new InputStreamReader(System.in));
String ans=null;
int cnt=0;//字庫中關(guān)鍵詞個數(shù)
int number=0;//敏感詞出現(xiàn)次數(shù)
String filepath=“D:\\敏感詞待測文件庫”;
//待檢測文件路徑,此文件夾下可以放若干個待檢測的文件
String fileLibrarypath=“D:\\敏感詞典\\file.txt”;
//敏感詞庫文件的存放路徑
File file = new File(filepath);
try {
//讀入用戶輸入的回車鍵信息
System.out.println(“請按回車鍵,查看過濾信息:”);
String str = null;
str = br.readLine();
if (str != null) {
if (!file.isDirectory()) {
System.out.println(“待檢測文件路徑
不對,請修改路徑?!保?;
} else if (file.isDirectory()) {
ans=getcontent(fileLibrarypath);
int k;
StringTokenizer sst=new
StringTokenizer(ans, “|”);
k = sst.countTokens();
String[] record = new String[k];
while (sst.hasMoreElements()) {
record[cnt] = sst.nextToken();
cnt++;
}
String[] filelist = file.list();
for (int i = 0, flen = filelist.length; i
< flen; i++){
String temp = filepath +
“\\” + filelist[i];
number = searchkeyword(record,
cnt, temp);
System.out.println(“第”+(i+1) +“文件中敏感詞出現(xiàn)的次數(shù):” + number);
//字庫中關(guān)鍵詞個數(shù)
}
} else {
//提示用戶按回車鍵
System.out.println(“你還沒有輸入回
車鍵信息”);
}
}
} catch (IOException e) {
e.printStackTrace();
}
//輸出查詢結(jié)果
if (ans != null) {
System.out.println(“字庫中關(guān)鍵詞個數(shù):”+ cnt);//字庫中關(guān)鍵詞個數(shù)
System.out.println(“敏感詞庫內(nèi)容如下:”+ ans);
} else {
System.out.println(“沒有可以匹配的信息”);
//輸出敏感詞庫中的內(nèi)容
}
}
//得到指定路徑文件中的內(nèi)容
private static String getcontent(String filepath) {
String all = “”;
File file = new File(filepath);
try {
if (!file.isFile()) {
System.out.println(“文件路徑不對,請修改路徑”);
} else {
File readfile = new File(filepath);
BufferedReader br = new BufferedReader(new FileReader(readfile));
String ss = br.readLine();
while (ss != null) {
all = all + ss;
//all中存放讀取的文件內(nèi)容信息
ss = br.readLine();
}
}
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
return all;
}
//在待測文件中匹配敏感詞出現(xiàn)的次數(shù)
private static int searchkeyword(String[] str, int cnt, String filepath){
int number = 0;
String s = “”;
s = getcontent(filepath);
for (int i = 0; i < cnt; i++) {
if (s.indexOf(str[i]) > -1) {
number++;
}
}
return number;
}
至此,完成了敏感詞過濾器軟件代碼的編寫工作,接下來可以進行run操作,即可以得到待測文件庫中的待測文件包含敏感詞次數(shù)及出處等相關(guān)信息的結(jié)果。
3 實驗結(jié)果分析
敏感詞庫的存放路徑:D:\敏感詞典\file.txt;敏感詞庫文件中的內(nèi)容略。
待測文件庫的存放路徑:D:\敏感詞待測文件庫;文件庫中存放了三個文件,分別為:test1.txt、test2.txt、test3.txt.
運行該過濾器軟件后,得出的檢測結(jié)果如圖2所示。
由圖可以看到把待測文件中敏感詞及臟詞組出現(xiàn)的次數(shù)全部顯示出來,結(jié)果與實際情況完全一致。
本文設(shè)計的敏感詞過濾器軟件,已在myeclipse環(huán)境下通過Java語言實現(xiàn),并對整個過濾器軟件進行了測試,測試結(jié)果顯示該設(shè)計完全可以達到對網(wǎng)頁文件中的敏感詞進行過濾,還能指出這些敏感詞的數(shù)目及其出處。為網(wǎng)絡(luò)管理員的管理帶來方便,并給網(wǎng)絡(luò)管理方面的編程人員提供了一個良好的開發(fā)平臺。
版權(quán)與免責(zé)聲明
凡本網(wǎng)注明“出處:維庫電子市場網(wǎng)”的所有作品,版權(quán)均屬于維庫電子市場網(wǎng),轉(zhuǎn)載請必須注明維庫電子市場網(wǎng),http://m.58mhw.cn,違反者本網(wǎng)將追究相關(guān)法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明自其它出處的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點或證實其內(nèi)容的真實性,不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個人從本網(wǎng)轉(zhuǎn)載時,必須保留本網(wǎng)注明的作品出處,并自負(fù)版權(quán)等法律責(zé)任。
如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。
- 什么是氫氧燃料電池,氫氧燃料電池的知識介紹2025/8/29 16:58:56
- SQL核心知識點總結(jié)2025/8/11 16:51:36
- 等電位端子箱是什么_等電位端子箱的作用2025/8/1 11:36:41
- 基于PID控制和重復(fù)控制的復(fù)合控制策略2025/7/29 16:58:24
- 什么是樹莓派?一文快速了解樹莓派基礎(chǔ)知識2025/6/18 16:30:52









