关键词:天气雷达;拼图资料;日志;监控;统计
新一代天气雷达在临近预报中发挥着重要的作用[1]。但由于单部新一代天气雷达的有效探测半径仅为230km,在利用其进行灾害性天气系统的监测和预警时,需要上下游气象站进行联防,而短时强天气具有发展速度快、强度强的特点,因此要想利用新一代天气雷达回波对中尺度天气系统的发展和移动进行监测和预报,就必须进行拼图,扩大其覆盖范围[2]。中国气象局要求各雷达站1小时将5个雷达产品通过省级通信节点机上传至国家气象信息中心,统一收集后进行全国和区域的雷达产品拼图,并将传输质量纳入到各省的年终目标考核中。如何提高传输时效、质量,将直接影响到新一代天气雷达效益的发挥和全省乃至全国的防灾减灾。为确保辖区各站雷达拼图资料及时准确上传,研制开发了省级雷达拼图资料监控与统计系统,可以对报文传输及线路状况进行有效监控,实现网络通信业务的自动化,提高业务工作的效率[3]。
1系统设计思路
2系统基本构成
2.1系统的流程图
雷达站将拼图资料上传至通信节点机,通过规定进程将资料转发至国家气象信息中心宽带服务器,同时生成日志文件。实时监控对日志文件进行操作,传输质量监控首先将日志信息添加至数据库,然后使用SQL查询统计结果,进行图表显示。(图1)
2.2系统环境
雷达拼图资料监控与统计系统由通信节点机(UNIX操作系统)、监控计算机组成,二者之间运行FTP协议。通信节点机具有每日(世界时)的日志文件,可保留30天内的日志文件。监控计算机采用WindowsXP操作系统,安装监控和统计程序。软件开发在Windows下进行选择VB和Delphi语言进行混合编程,后台数据库采用microsoft的SQLserver2000数据库。
3系统功能
系统分两部分:一是根据各种报文的时效要求,进行定时的查询监控,保证该报上传的及时性;同时为了操作方便,设置了刷新功能,对沈阳、营口2站雷达拼图资料的实时监控,进行图形化界面提示和文本信息的显示;二是对任意时段内的沈阳、营口2站传输质量进行统计,生成图表直观显示,并可以生成文本文件进行上报。
4系统的技术实现
4.1日志文件的下载
按照中国气象局的传输要求:雷达GIF产品在正点后15分种内上传为及时报,在1小时内为逾限报,超过1小时视为缺报[4]。因此编制程序,在正点后10分钟自动从通信节点机的“/bcsy/mioswork/log”目录利用FTP协议下载当天的日志文件。日志文件命名规则为“comYYYYMMDDsnd.log”(其中YYYYMMDD代表年月日)。
4.2实时监控
每小时的5个产品文件名均是固定的,命名规则为RAD__CCYYGGgg.XXX(其中RAD是固定的,CC为台站代号,如沈阳为SY,YY为编报日期,GG为编报时次,gg为编报分钟,正点观测编00),在下载完日志文件后,将此日志文件作为文本文件打开,利用VB的InStr函数检查当前时次的产品是否存在于日志文件中。若存在,则代表已成功上传,状态灯显示为绿色;若不存在,则代表未进行上传,状态灯显示为红色,并将未上传产品的站号、时次、产品类型添加至列表框中,同时以声音形式提醒值班员(图2)。实时监控界面代有刷新按钮,可对当前上传情况进行了解。
4.3日志信息入库
4.4传输质量统计
在雷达拼图传输质量统计界面中,可选择任意时段内的任意站次雷达拼图传输质量进行统计。程序利用ADOConnection组件进行数据库的连接,使用SQL查询语句对数据库进行多项查询,并将查询统计结果输出到memo组件中,可显示统计站次、统计时段、应上传文件数、及时报(含百分率)、逾限报(含百分率及逾限报站次)、缺报(含百分率及缺报站次);同时利用chart组件进行饼图的显示,如2008年3月1日至2008年3月7日沈阳、营口两站的雷达拼图传输质量统计图。(图3)
5结束语
参考文献:
[1]程向阳,王兴荣,胡雯,等.雷暴天气在多普勒雷达资料上的前兆特征分析[J].气象科学,2003,23(4):485-490.
[2]陈传雷,陈艳秋,孙欣.多普勒雷达回波在辽宁一次暴雨过程中的应用分析[J].气象与环境学报,2006,22(5):28-31.
[3]吕红梅,杨文霞,张玉洁,等.雷达观测资料传输监控软件的开发与研究[J].山东气象,2005,25(1):35-35.
关键词:网络安全;用户上网行为;数据分析
随着互联网技术的发展,各种网络设备功能越来越来完善,设备性能管理方面也比较智能化,在网络管理上发生了变化,不再像过去花费大量的人力忙于维护网络设备,而是要分析用户的上网行为,为用户提供一个安全稳定的网络环境。目前所得到的用户上网行为都是从网络设备上获取的,这些数据中存在脏数据[1],脏数据不符合要求,对于分析用户上网行为存在干扰。并且这些数据量非常大,而且还分散在不同的文件中,不便于以后的存储和运算。如何对这些数据进行分类、清洗并进行有效的存储是网络行为分析的一个重要问题。
1Python程序的介绍
Python是一种解释型交互式、面向对象、动态语义、语法优美的脚本语言。自从1989年GuidovanRossum发明,经过几十年的发展,已经同Tcl、perl一起,成为目前应用最广的三种跨平台脚本语言。Python是纯粹的自由软件,源代码和解释器CPython遵循GPL(GNUGeneralPublicLicense)协议[2]。Python的主要特点有:
1)免费开源、简单易学
2)速度快
Python的底层是用C语言写的,很多标准库和第三方库也都是用C写的,运行速度非常快。
3)高层语言
Python语言编写程序的时候无需考虑诸如如何管理你的程序使用的内存一类的底层细节。
4)可移植性
由于它的开源本质,Python已经被移植在许多平台上(经过改动使它能够工作在不同平台上)[4]。这些平台包括Linux、Windows、FreeBSD、Macintosh、Solaris、OS/2、Amiga、AROS、AS/400、BeOS、OS/390、z/OS、PalmOS、QNX、VMS、Psion、AcomRISCOS、VxWorks、PlayStation、SharpZaurus、WindowsCE、PocketPC、Symbian以及Google基于linux开发的android平台。
5)面向对象
Python是一种公共域的面向对象的动态语言[5],Python既支持面向过程的编程也支持面向对象的编程。在“面向过程”的语言中,程序是由过程或仅仅是可重用代码的函数构建起来的。在“面向对象”的语言中,程序是由数据和功能组合而成的对象构建起来的。
6)可扩展性
如果需要一段关键代码运行得更快或者希望某些算法不公开,可以部分程序用C或C++编写,然后在Python程序中使用它们。
7)可嵌入性
可以把Python嵌入C/C++程序,从而向程序用户提供脚本功能。
8)丰富的库
Python标准库确实很庞大。它可以帮助处理各种工作,包括正则表达式、文档生成、单元测试、线程、数据库、网页浏览器、CGI、FTP、电子邮件、XML、XML-RPC、HTML、WAV文件、密码系统、GUI(图形用户界面)、Tk和其他与系统有关的操作。这被称作Python的“功能齐全”理念。除了标准库以外,还有许多其他高质量的库,如wxPython、Twisted和Python图像库等等。
9)规范的代码
Python采用强制缩进的方式使得代码具有较好可读性。而Python语言写的程序不需要编译成二进制代码。
2系统架构的设计
由于网络用户上网行为数据可以从网络安全设备(如防火墙、网络认证网关)上直接采集,所采集到的数据中有很多信息是不需保存的,并且生成的日志一般都是一个2万多条记录的压缩文件。在实际的用户行为管理分析中需要对这些压缩文件进行解压、分类、清洗,然后提取有用信息,并对所提取的信息进行压缩处理,以便以后用于数据挖掘。系统结构设计如图1:
3系统的实现
3.1目录处理模块的实现
采用python程序设计语言中的os模块,实现对目录路径和文件名的处理,第一步,将原始数据目录下的所有文件夹的路径写入到一个文本文件中,例如:D:\campusbigdata\Datadirectory.txt,以便数据处理时循环遍历所有文件夹,其代码实现如下:
defCreateRawdatadirectory():
data_file_path="D:\\campusbigdata\\Raw_data\\"
day_log_path=os.listdir(data_file_path)#日日志文件夹路径
log_files_list=[]#每天的.log文件所在目录,如D:\campusbigdata\data\2016-03-01
fw=open("D:\\campusbigdata\\Raw_Datadirectory.txt","w")
foriteminday_log_path:
fw.write(data_file_path+item+"\\")#Raw_Datadirectory.txt写入
fw.write("\n")
fw.close()
第二步,生成日志文件夹文件,将每日文件夹下的所有日志文件路径写入对应文件夹下的文本文件。例如:D:\campus\bigdata\data\2016-03-01\file_path.tx文件,在数据处理时可以快速遍历所有日志文件,其代码实现如下:
defCreateLogDirectory():
fr=open("D:\\campusbigdata\\Raw_Datadirectory.txt","r")
fr_s=fr.read()
log_files_list=fr_s.split("\n")
fordirectoryinlog_files_list:
fw=open(directory+"file_path.txt","w")
try:
log_filename=[fnameforfnameinos.listdir(directory)iffname.endswith('.log')]
forfnameinlog_filename:
fw.write(directory+fname)#file_path.txt文件写入
except:
pass
fr.close
第三步,创建多级目录,创建处理后数据存储的多级目录。例如:Ch_students目录、Oversea_students目录、Teachers目录,用以保存不同用户的上网行为日志文件。
3.2解压和压缩模块
根据目录处理模块所得到的路径文件,调用python提供的zipfile模块,把原始数据进行解压,并把清洗过的用户行为数据进行压缩,代码的设计如下:
解压过程:
defFromZip(file_path_prefix):#
file_directory="D:\\campusbigdata\\Raw_data\\2016-03-01\\"
zip_filename=[fnameforfnameinos.listdir(file_directory)iffname.endswith('.zip')]
foriteminzip_filename:
zip_path=file_directory+item
zfile=zipfile.ZipFile(zip_path,'r')
filename=zfile.namelist()[0]
data=zfile.read(filename)
flog=open(file_directory+filename,'w+b')
flog.write(data)
flog.close
压缩过程
defToZip():
log_filename=[fnameforfnameinos.listdir(file_directory)iffname.endswith('..log')]
foriteminlog_filename:
log_path=file_directory+item
f=zipfile.ZipFile('archive.zip','w',zipfile.ZIP_DEFLATED)
startdir="c:\\mydirectory"
fordirpath,dirnames,filenamesinos.walk(startdir):
forfilenameinfilenames:
f.write(os.path.join(dirpath,filename))
f.close()
3.3数据分类、清洗模块
在网络用户上网行为日志数据中,有许多信息是没有意义的,我们需要对这些数据进行分类和清洗。原始数据结构如下:
3.3.1数据的分类
根据学校校园网络用户的特点,我们可以把用户分为教工、国内学生、国外学生。根据上网的区域可以分为办公区、教职工住宅区、学生宿舍区。利用python语言对文件快速处理的特点对用户进行分类,并分别存储在不同的文件中,代码如下:
fwrite_log=open("data_log.txt",'w')#数据处理后存文放文件
fread_log=open("2016-03-0100-00-00..txt",'r')#打开日志文件
log_txt=fread_log.read().split('\n')#读取每一条记录
foriinrange(len(log_txt)):#对每一条记录进行处理
iflog_txt[i].strip('\n')!='':
if(log_txt[i].split('\t')[3])[0]=='X':
record=log_txt[i].split('\t')s_row=record[2]+'\t'+record[4]+'\t'+record[5]+'\t'+record[6]+'\t'+record[7]+'\t'+record[8]+'\t'+'\n'
fwrite_log.write(s_row)
fwrite_log.close()
fread_log.close()
3.3.2数据清洗
根据网络用户上网行为的特点,会出现空行、重复记寻。数据清洗的重要工作就是要把这些干扰信息去除,保留有用信息,为以后的数据挖掘提供纯净的数据。在数据清洗过程中,应用python中的set()和strip()功能把重复记录和空行清除。经过清洗的数据记录数和文件大小都比原来小,表2中可以清晰的反映数据清洗前后的对比。
4结束语
从程序的运行结果可以得出,用python编写的用户上网行为日志处理程序设计简单,运行效率高,所提取的用用户行为数据可以进一步分析,为校园网络安全提供准确的用户定位,为校园网络的带宽管理和维护提供准确的数据作为参考,并提高网络的服务质量。
[1]张良均,樊哲,赵云龙.Hadoop大数据分析与挖掘实战[M].北京:机械工业出版社,2016.
[2]肖建,林海波.Python基础教程[M].北京:清华大学出版社,2003:1-2.
[3]北京中科红旗软件技术有限公司.红旗Linux系统应用编程[M].北京:石油工业出版社,2012:192.
关键词:数据挖掘;web;网络访问
ResearchonDataMiningtoImproveWebUserNetworkAccessSpeed
SunWenqian
(HechiCollegeCampusNetworkCenterFengshan,FengShan546300,China)
Abtract:TheimplicationofDataMininginimprovingthenetworkaccessspeed,isthatthelawofsite'sbeingaccessedhavebeenachievedbyDataMininginweblog,whichaimedtochangethewebsite'sorganizationalstructureandservicesbyextractinginterestingpatternsforlogusertoaccesstothesite.
Keywords:DataMining;Web;AcesstoNetwork
一、绪言
随着Internet技术的发展和普及,网络在创造信息高速交换的同时,数据存储量也在不断膨胀,加上每个动态页面和应用系统都在频繁访问数据库,使得互联网络中web用户对数据的访问速度不断下降。解决这个问题的途径之一就是Web日志挖掘,即根据Web服务器记录的日志对用户访问网站的情况进行分析,使用数据挖掘技术抽取日志中感兴趣的模式,得到站点的被访问规律,从而改进网站的组织结构和服务,掘出有用的关联规则、序列模式、聚类分析等知识类型。Web访问挖掘通常可以分为数据预处理、挖掘算法的应用、模式分析及知识发现这3个阶段,本文主要讨论数据预处理、挖掘算法的应用两个阶段。
二、数据预处理
数据预处理的数据源是服务器的日志文件,因此首先要将日志文件转换成数据库文件,以获得可靠的精确数据。技术上,一般将预处理阶段划分为数据清洗、页面过滤、用户识别、会话构造、路径识别这5个步骤。其模型如图1所示。
随着Web技术的进一步发展,原有的模型已不能达到很好的预处理效果,改进的Web访问挖掘数据预处理模型通常在常规数据清洗后增加了初次引擎过滤,并在会话别之后进行了二次引擎过滤,其作用是为了过滤当今广泛使用的搜索引擎对Web的访问记录。经过会话识别的服务器日志文件已经被组织成一个会话集合,通过对该会话集合的再次分析,可以将其中的非正式用户会话过滤,其中主要是针对搜索引擎的过滤,该过程称为“二次引擎过滤”。过滤方法可以采用当前比较成熟的分类、聚类等数据挖掘算法。
三、挖掘算法的应用
通过分析日志文件,我们可以寻找到那些经常被用户访问的页面及他们之间的关联规则(即频繁访问页组)。网站资源可以是网页、数据、图片、声音和文档。设x1、x2、……xm;Y1、Y2、……Ym均为网站资源,X=>Y(sup,conf)表示资源集的关联规则,其中X={X1、X2……Xm},Y={Y1、Y2、……Ym},X∩Y=空,这条规则的含义是如果资源集X被访问,那么资源集Y也会被访问。规则的支持度为sup,置信度为conf,关联规则挖掘算法的目的就是要推导出所有达到一定支持度和置信度的规则。
在这里,假定超文本系统仅仅包含有一些基本的页面。除此外我们还假设:
1.指向一个页面的连接是将这个页面作为一个整体来对待的,而不是指向页面内容的一部分;
2.在超文本系统中不存在环路;
3.在任何源节点和目标节点间最多只有一条链路。基于以上的假设,我们可以为超文本系统建立一个有向网络拓扑图,如图2所示:
在这里,有向图G=(N,E),其中N是节点的集合,E是边的集合。一个节点A(A∈N)和一个页面相对应,一条边是一个元组(A,B)∈E,和页面间的一个连接相对应;对于给定的连接(A,B)称A是源节点,B是目的节点。在这里并不假定图是连接的。如果两个页面在网络拓扑中相距较远,则表明它们之间的关联性较低,如果我们从日志信息中挖掘出它们之间有较高的访问可信度的规则,则这样的规则是用户感兴趣的。如图2的页面C和E在拓扑结构中,显示关联度较低。如果,在Web日志中发现了C=>E这样的关联规则,则兴趣度是较高的。通过这样兴趣度高的关联规则,有利于网站结构的调整。
四、结束语
随着Internet的发展,网络资源更加丰富,数据挖掘在提高web用户网络访问速度上的研究已经成为一项重要的研究课题。Web日志数据预处理是Web日志挖掘的一个重要前提和基础,高效正确的预处理方法直接影响着挖掘的成败;而成功应用挖掘算法则大大提高规则的利用率,可以很好的用于网络拓扑结构的改善。
参考文献:
[2]纪良浩,王国胤,杨勇.基于协作过滤的Web日志数据预处理研究[J].重庆邮电学院学报:自然科学版,2006,18(5)
[3]朱秋云.一种关联规则挖掘筛选算法设计[J].重庆工学院学报:自然科学版,2008,22(6)
作者简介
孙文乾(1966.11-),男,广西凤山人,研究方向:计算机网络技术
3期更正
[关键词]电子商务数据挖掘Web日志挖掘
一、引言
随着计算机技术、通信技术和网络技术的飞速发展,电子商务的发展也有了越来越好的技术平台,许多公司都建立了自己的网站,这是公司的门户和电子商务进行的所在。Web数据挖掘是当前最前沿的研究领域,是把Internet和数据挖掘结合起来的一种新兴技术。Web数据挖掘是知识发现的特定步骤,也是最核心的部分。Web日志挖掘是Web挖掘的重要内容,其技术和方法在电子商务中有着巨大的应用空间和应用价值。如发现有价值的信息、寻找潜在客户和提供个性化服务等。
二、Web挖掘及Web日志挖掘
Web挖掘是将数据挖掘的思想和方法应用到Web页面内容、页面之间的结构、用户访问信息等各种Web数据中,从中抽取隐含的、以前未知的、具有潜在应用价值的信息。根据挖掘的对象不同,Web挖掘可分为Web内容挖掘、Web结构挖掘和Web日志挖掘。
1.Web内容挖掘
Web内容挖掘主要从Web文档的内容中抽取出有用的知识。由于Web文档的绝大部分内容是以文本的形式存在,所以Web内容挖掘主要针对的是Web文档的文本部分,文本挖掘主要包括对Web文档文本的总结、分类、聚类、关联分析等。除了文本挖掘以外,Web内容挖掘还包括Web上的声音、图形、图像信息的挖掘、数据库中的数据挖掘和信息获取等。
2.Web结构挖掘
Web结构挖掘主要通过Web页的组织结构和超链接关系以及Web文档自身的结构信息(如Title,Heading,Anchor标记等)推导出Web内容以外的知识,可分为超链挖掘、内部结构挖掘和URL挖掘。
3.Web日志挖掘
Web日志挖掘即Web使用记录挖掘,是从用户的访问记录中抽取具有意义的模式。其数据源有服务器的日志、用户注册数据、跟踪文件的数据记录、用户访问期间的事务、用户查询、书签数据和鼠标移动点击的信息。Web日志记录挖掘应用的技术主要有路径分析、关联规则分析、序列模式分析、聚类分析、统计分析等。Web使用记录挖掘可以发现潜在的用户、改进电子商务网站的建设、增加个性化服务等。
三、Web日志挖掘的步骤
Web日志挖掘步骤主要分为源数据收集、数据预处理、模式发现、模式分析4个阶段。
1.源数据收集
Web日志文件主要包括以下3种类型:服务器日志文件、错误日志文件和Cookies。
2.数据预处理
Web日志挖掘首先要对日志中的原始数据进行预处理,因为从用户的访问日志中得到的原始日志记录并不适于挖掘,必须进行适当的处理。因此,需要通过日志清理,去除无用的记录。预处理过程是保证Web日志挖掘质量的关键步骤,下面我们来阐述数据预处理的过程。
(2)识别用户。由于本地缓存、服务器和防火墙的存在,使得识别用户的任务变得很复杂,可以使用一些启发式规则帮助识别用户。
(3)识别用户会话。用户会话是指用户对服务器的一次有效访问,通过其连续请求的页面,我们可以获得他在网站中的访问行为和浏览兴趣。
3.模式发现
模式发现是运用各种算法和技术对预处理后的数据进行挖掘,生成模式。这些技术包括人工智能、数据挖掘、统计理论、信息论等多领域的成熟技术。可以运用数据挖掘中的常用技术如路径分析,关联规则、序列模式以及分类聚类等。
(1)路径分析。它可以被用于判定在一个站点中最频繁访问的路径,还有一些其它的有关路径的信息通过路径分析可以得出。利用这些信息就可以改进站点的设计结构。
(4)分类和聚类。发现分类规则可以给出识别一个特殊群体的公共属性的描述,这种描述可以用于分类的读者。聚类分析可以从Web访问信息数据中聚类出具有相似特性的读者,在Web事务日志中,聚类读者信息或数据项能够便于开发和设计未来的服务模式和服务群体。
4.模式分析
该阶段实现对用户访问模式的分析,基本作用是排除模式发现中没有价值的规则模式,从而将有价值的模式提取出来。
四、Web日志挖掘在电子商务网站中的应用
1.电子商务网站中Web日志挖掘内容
(4)访问者活动周期行为分析。访问者活动周期行为分析包括一周7天的访问行为、一天24小时的访问行为、每周的最多的访问日、每天的最多访问时段等。
(5)主要访问错误分析。主要访问错误分析包括服务端错误、页面找不到错误等。
(6)网站栏目分析。网站栏目分析包括定制的频道和栏目设定,统计出各个栏目的访问情况,并进行分析。
(7)商务网站扩展分析。商务网站扩展分析是专门针对专题或多媒体文件或下载等内容的访问分析。
2.Web日志挖掘工具
已经有部分公司开发出了商用的网站用户访问分析系统,如WebTrends公司的CommerceTrends3.0,它能够让电子商务网站更好地理解其网站访问者的行为,帮助网站采取一些行动来将这些访问者变为顾客。CommerceTrends主要由3部分组成:ReportGenerationServer、CampainAnalyzer和WebhouseBuilder。
还有Accrue公司的AccrueInsight,它是一个综合性的Web分析工具,它能够对网站的运行状况有个深入、细致和准确的分析,通过分析顾客的行为模式,帮助网站采取措施来提高顾客对于网站的忠诚度,从而建立长期的顾客关系。
关键词:Web日志挖掘;信息无障碍;网站设计
TheResearchoftheAccessibilityWebsiteDesignBasedonWebLogMining
TANGHeng-yao,ZHANXiao-yan
(MathematicsandComputerScienceCollegeofHuanggangNormalUniversity,Huanggang438000,China)
Abstract:OntheproblemsexistingintherealizationofcurrentaccessibilityWebsite,wedesignaWebdesigningarchitecture,usingtheWeblogminingtechniquetoextractuserinterestsandaccessprioritysequenceandadoptingthedynamicWebpageinformationtofilltheWebpagecommonlyusedstructure,realizetheintelligent,personalizedaccessibility.
Keywords:Weblogmining;informationaccessibility;Websitedesign
随着信息技术和网络技术的不断发展,互联网给现代人们获取信息带来极大的便利,成为人们工作生活中非常重要的组成部分。信息无障碍即万维网对任何人士(包括残障人士)都是可访问、可用的,残障人士能感觉、理解和操纵Web,与Web互动。如何借助先进的技术,消除数字鸿沟,为残疾人提供有效的辅助手段,使他们能和健全人一样无障碍地获取网上信息,得到世界各国政府和组织越来越多的重视。
1信息无障碍网站存在的问题
2Web日志挖掘
Web日志预处理过程:
1)数据收集:从服务器端数据、客户端数据、服务器端进行。
3)用户识别:可以通过IP地址和、嵌入SessionID、cookie、软件等方法实现用户的识别,但由于本地缓存、公司防火墙和服务器的存在,要识别出每一个用户变得很复杂。可以采用一些启发式规则去识别不同用户,将IP地址,类型以及引用页面结合起来识别一个用户,也可以通过注册用户,依赖用户的合作是最好的解决办法。
3基于Web日志挖掘的网站设计
3.1网站设计架构
网站为每位存在访问障碍的用户建立网站访问记录数据库,用户访问网站页面,产生Web日志文件,通过对Web站点日志文件进行数据净化、用户识别、会话识别,将有用数据存入事务数据库,对该用户访问过的页面进行相应标记,再对事务数据库进行传统的数据挖掘,分析出该用户比较感兴趣的信息类型,为该用户对网站所有类型信息构造优先显示页面类型序列表和对每类信息未访问页面、已访问页面分别构造优先序列表,当该用户再次访问网站时利用离线分析所得的优先序列表和网站文件映射数据库将网页链接按照用户兴趣高低动态填充到网站导航框架,这样用户最感兴趣类型的网页链接总是弄够最先看到、听到,从而达到优先访问的目的。
网站设计框架如图1。
3.2网站导航
网站导航是根据信息无障碍网站结构布局设计标准所设计的网站通用布局框架,除了包括信息无障碍要求的导航砖,通用切换等功能,还将页面设计成由几个通用的布局框架模块组成,每个框架模块将显示网站上某一种类型的网页信息链接,具体网页链接内容则根据序列表先后顺序动态填充。网站所包含的信息类型可以有很多,但在网站导航中只列出用户最感兴趣的几种类型的网页链接,随着用户兴趣的改变,其他类型的网页链接将动态的填充到相应级别的框架模块中。
3.3兴趣提取
3.4序列模式
3.5序列-页面映射
根据挖掘得到的序列模式对网站的静态页面文件进行一一映射,按照兴趣高低和文件序列先后动态的填充如网站导航模块框架中。
[1]王甜.自助建站系统助阵信息无障碍网站[J].互联网天地,2008(4).
[2]刘晓政.视障网络用户的无障碍网页浏览现状及前景[J].电脑知识与技术,2008,(35).