基于Java的敏感词过滤器设计

出处:oldzhang 发布于:2012-09-24 09:52:47

  良好的网络文化对培养青少年的爱国意识、创新精神、促进青少年良好的个性发展以及文化学习等方面都有积极的作用。但是网络文化中混杂着种种不良因素,对青少年造成许多负面影响:网络中的不健康内容不利于青少年的成长,甚至造成许多青少年犯罪行为的不断发生;网络世界的虚拟性还会造成青少年对现实社会的不满,青少年对网络世界的过分迷恋会导致网络孤独,网络中多元化的内容会导致青少年认识偏差,网络的隐匿性容易使青少年道德弱化[1].特别令人担忧的是不良的网络文化对青少年的犯罪起着推动作用,值得全社会关注和重视。

  本文提出了一种敏感词过滤器软件的设计,对网络中不良的内容进行查找、发现,避免这些不良网络文化侵蚀青少年的心灵健康。

  1 敏感词过滤器的设计原理

  敏感词过滤器的原理图如图1所示。其原理如下:(1)对敏感词库的内容进行分割,把敏感词库中所有的敏感词或词组分开,并把这些敏感词或词组存入数组中;(2)将待测文件库中的文件进行逐个读取,并记录文件的内容;(3)在待测文件中查找是否存在刚存放敏感词或脏词组内容的数组里面的内容,如果有,进行标注等操作;如果没有,继续检查待测文件库中的下一个待测文件,直到待测文件库中的待测文件都被检查完为止;(4)输出结果。即输出待测文件库中每个待测文件中包含敏感词或脏词组的个数及出处等信息。

  2 算法实现

  软件开发环境:myeclipse平台,Java语言。首先以myeclipse平台新建一个java project,在新建的project中需要导入下面相关文件:

  import java.io.BufferedReader;

  import java.io.File;

  import java.io.FileNotFoundException;

  import java.io.FileReader;

  import java.io.IOException;

  import java.io.InputStreamReader;

  import java.util.StringTokenizer;

  过滤器软件中main函数的主要内容如下:

  public static void main(String[] args) {

  BufferedReader br=new BufferedReader(new InputStreamReader(System.in));

  String ans=null;

  int cnt=0;//字库中关键词个数

  int number=0;//敏感词出现次数

  String filepath=“D:\\敏感词待测文件库”;

  //待检测文件路径,此文件夹下可以放若干个待检测的文件

  String fileLibrarypath=“D:\\敏感词典\\file.txt”;

  //敏感词库文件的存放路径

  File file = new File(filepath);

  try {

  //读入用户输入的回车键信息

  System.out.println(“请按回车键,查看过滤信息:”);

  String str = null;

  str = br.readLine();

  if (str != null) {

  if (!file.isDirectory()) {

  System.out.println(“待检测文件路径

  不对,请修改路径。”);

  } else if (file.isDirectory()) {

  ans=getcontent(fileLibrarypath);

  int k;

  StringTokenizer sst=new

  StringTokenizer(ans, “|”);

  k = sst.countTokens();

  String[] record = new String[k];

  while (sst.hasMoreElements()) {

  record[cnt] = sst.nextToken();

  cnt++;

  }

  String[] filelist = file.list();

  for (int i = 0, flen = filelist.length; i

  < flen; i++){

  String temp = filepath +

  “\\” + filelist[i];

  number = searchkeyword(record,

  cnt, temp);

  System.out.println(“第”+(i+1) +“文件中敏感词出现的次数:” + number);

  //字库中关键词个数

  }

  } else {

  //提示用户按回车键

  System.out.println(“你还没有输入回

  车键信息”);

  }

  }

  } catch (IOException e) {

  e.printStackTrace();

  }

  //输出查询结果

  if (ans != null) {

  System.out.println(“字库中关键词个数:”+ cnt);//字库中关键词个数

  System.out.println(“敏感词库内容如下:”+ ans);

  } else {

  System.out.println(“没有可以匹配的信息”);

  //输出敏感词库中的内容

  }

  }

  //得到指定路径文件中的内容

  private static String getcontent(String filepath) {

  String all = “”;

  File file = new File(filepath);

  try {

  if (!file.isFile()) {

  System.out.println(“文件路径不对,请修改路径”);

  } else {

  File readfile = new File(filepath);

  BufferedReader br = new BufferedReader(new FileReader(readfile));

  String ss = br.readLine();

  while (ss != null) {

  all = all + ss;

  //all中存放读取的文件内容信息

  ss = br.readLine();

  }

  }

  } catch (FileNotFoundException e) {

  e.printStackTrace();

  } catch (IOException e) {

  e.printStackTrace();

  }

  return all;

  }

  //在待测文件中匹配敏感词出现的次数

  private static int searchkeyword(String[] str, int cnt, String filepath){

  int number = 0;

  String s = “”;

  s = getcontent(filepath);

  for (int i = 0; i < cnt; i++) {

  if (s.indexOf(str[i]) > -1) {

  number++;

  }

  }

  return number;

  }

  至此,完成了敏感词过滤器软件代码的编写工作,接下来可以进行run操作,即可以得到待测文件库中的待测文件包含敏感词次数及出处等相关信息的结果。

  3 实验结果分析

  敏感词库的存放路径:D:\敏感词典\file.txt;敏感词库文件中的内容略。

  待测文件库的存放路径:D:\敏感词待测文件库;文件库中存放了三个文件,分别为:test1.txt、test2.txt、test3.txt.

  运行该过滤器软件后,得出的检测结果如图2所示。

  由图可以看到把待测文件中敏感词及脏词组出现的次数全部显示出来,结果与实际情况完全一致。

  本文设计的敏感词过滤器软件,已在myeclipse环境下通过Java语言实现,并对整个过滤器软件进行了测试,测试结果显示该设计完全可以达到对网页文件中的敏感词进行过滤,还能指出这些敏感词的数目及其出处。为网络管理员的管理带来方便,并给网络管理方面的编程人员提供了一个良好的开发平台。

版权与免责声明

凡本网注明“出处:维库电子市场网”的所有作品,版权均属于维库电子市场网,转载请必须注明维库电子市场网,https://www.dzsc.com,违反者本网将追究相关法律责任。

本网转载并注明自其它出处的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品出处,并自负版权等法律责任。

如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。

广告
上传BOM文件: BOM文件
*公司名:
*联系人:
*手机号码:
QQ:
应用领域:

有效期:
OEM清单文件: OEM清单文件
*公司名:
*联系人:
*手机号码:
QQ:
有效期:

扫码下载APP,
一键连接广大的电子世界。

在线人工客服

买家服务:
卖家服务:

0571-85317607

客服在线时间周一至周五
9:00-17:30

关注官方微信号,
第一时间获取资讯。

建议反馈

联系人:

联系方式:

按住滑块,拖拽到最右边
>>
感谢您向阿库提出的宝贵意见,您的参与是维库提升服务的动力!意见一经采纳,将有感恩红包奉上哦!