浙江省政府网站 12类信息发布规范
(版本 V 1.0)
浙江省政府办公厅电子政务办公室
2006年3月
1 制定背景 ............................................................................................................................... 3 2 名词解释 ............................................................................................................................... 3 3 制定目标 ............................................................................................................................... 3 4 适用对象 ............................................................................................................................... 4 5制定原理和原则 .................................................................................................................... 5 5.1 规范制定原理 ................................................................................................................. 5 5.2 规范制定原则 ................................................................................................................. 5 6 规范条款 ............................................................................................................................... 5 6.1内容字段信息规范 ........................................................................................................ 5 6.2内容字段标注规范 ........................................................................................................ 8 6.3页面属性标注规范 ...................................................................................................... 17 6.4内容变更索引文件发布规范 ...................................................................................... 19 附件 字典表 ........................................................................................................................... 22 表1稿件属性代码规范 ..................................................................................................... 22 表2信息内容分类代码 ..................................................................................................... 22 表3地区代码 ..................................................................................................................... 22 表4部门代码 ..................................................................................................................... 23
1 制定背景
“中国浙江”政府门户网站的内容主要来源于省政府办公厅和各部门、各市、县(市、区)政府子网站。门户网站整合各级子网站内容的手段主要有网上抓取、信息报送和网站链接等方式。其中网上抓取是“中国浙江”门户网站从各级子网站获取内容的主要方式之一。 网上抓取所面临的问题是,各级政府及部门网站缺乏统一的内容格式规范,网站内容的变动缺少统一格式的索引,不利于采集工具自动抓取和分析信息,部分属性缺少或不易准确提取。为了更准确地采集和分析下属子网站的信息,需要规范网站的页面内容格式,并为网站内容的变更添加统一的索引。各级政府及部门网站按照统一要求经过规范化修改后,中国浙江政府门户网站可以通过内容整合系统准确地实现网上信息自动抓取。
2 名词解释
网站内容整合:本规范所指的网站内容整合,仅限于对浙江省各级政府网站发布的底层静态网页内容的抓取,不包含对各类网上办事、网上申报、数据查询等应用服务系统中数据内容的整合。
RSS标准:RSS(“Rich Site Summary”或“Really Simple Syndication”的首字母缩写)中文称作“简易信息聚合”,是信息聚合的国际标准。
内容变更索引文件:记录网站每个小时内容变更情况的XML文件,标准格式为ZJEG_RSSYYYYMMDDhh.xml。当网站内容发生增、删、改等变化时,该时段的内容变更索引文件将同步更改。
全网检索:在“中国浙江”政府门户网站提供的全文检索功能,指系统能够检索省内各级政府及部门网站的所有内容,并将各网站站内检索内容的结果统一合并处理后返回给查询用户。这样,用户得到的检索结果是各级政府及部门网站检索结果的合集。
3 制定目标
本规范围绕信息采集和网页分析功能,在保持现有网站建设模式、不增加信息通道的
前提下,使符合规范的网站发布的网页内容可被“中国浙江”政府门户网站内容整合系统自动识别、采集,并实现网页属性信息和内容字段信息的自动引用 ,最大限度减少人工介入。 本规范结合配合“中国浙江”政府门户网站内容整合系统,实现以下目标:
(1) 及时发现并收集网站的信息变更情况; (2) 准确分析网页属性信息;
(3) 准确定位内容信息;
(4) 实现门户网站与子网站之间内容的自动同步; (5) 实现政府网站群全网检索、RSS订阅等附加功能。
为了实现上述目标,本标准制定了四方面条款,具体含义和作用说明如下:
1.内容字段信息规范:要实现内容整合,首先应明确每一类信息内容必须包含的字段,以及各字段所定义的各项内容的书写规范,确保内容的完整和格式的统一;
2.内容字段标注规范:对信息内容按规定的字段进行标注,使内容整合系统在抓取信息后,能将各字段下的信息准确定位到“中国浙江”政府门户网站对应网页的对应区域;
3. 页面属性标注规范:一个内容网页中包含着标题、正文、作者、发表日期、正文、来源、唯一标识等基本属性,如果没有格式规范,内容整合系统很难确分析这些信息。通过制定统一的格式规范,可以实现网页属性信息的准确提取,并为分类检索打下基础;
4.内容变更索引文件发布规范:用于标记网站单位时间内信息变更情况,通过对索引文件的分析,可以使内容整合系统程序判断哪些内容需要抓取,并获得这些内容的链接地址。
4 适用对象
本规范适用于浙江省行政区域内各县级以上地方政府门户网站、省政府直属各部门网站发布的12类基本信息内容,中国浙江政府门户网站内容整合系统将全面支持本标准,实现对符合标准的政府网站的准确数据采集。
具体类别及内容界定如下:
机构职能:本政府机构名称、联系方式、工作职能等; 领导信息:本政府机构领导的姓名、分工、联络方式等; 工作规则:本政府机构履行职责时应遵循的有关规则;
内设机构:本政府机构内设机构名称、职责、联系方式、负责人姓名等; 法规文件:本政府机构或本系统有关法律、政府规章、规范性文件; 讲话文论:本政府机构领导发表的重要讲话与文章;
规划公报:本政府机构出台的或关于本系统的发展规划、政府公报 人员任免:本政府机构发布的人事任免信息; 动态信息:本政府机构或本系统发生的重要动态信息; 公告公示:本政府机构公开发布的公告或公示信息;
信息查询:本政府机构提供的网上信息查询服务;
办事指南:本政府机构的行政许可、行政审批项目及其它办事项目的办理指南。
5制定原理和原则
5.1 规范制定原理
本规范结合了RSS标准的基本规则与浙江省政府网站信息内容的特性。实现规范的基本方法是,在网页HTML中,嵌入特定意义的标识信息,用于标注各项有意义的内容,这些嵌入的标识信息采用HTML的meta和特殊注释语句置标,在实现属性标注功能的同时,不影响网页的显示效果。
构成网页的HTML文件逻辑上可以分为内容(Content)和页面展示(Style)两部分,内容部分包括网页的标题、日期、正文、作者等数据元素,它决定了网页所包含的信息;页面展示部分包括每个元素的位置、字体、大小、颜色等,它决定了网页在浏览器中的显示效果。HTML文件能够将内容和页面展示有机地结合为一体。
本规范的制定主要从网页内容标注入手,从内容层面对网页进行标注,而忽略页面展示层面。具体方法是,利用HTML文件的特性,在不影响网页展示效果的前提下,加入各类属性置标,规定网站发布内容必须包含的信息。例如,在网页中标注网站信息、栏目信息、标题、日期、作者、来源等元数据内容,从根本上保证其它应用对该网页属性的准确识别和提取。
5.2 规范制定原则
浙江省各级政府及部门网站已经经历了多年的建设,花费设计和管理维护人员的大量心血。为了尽量减少网站的改动,规范制定过程中充分考虑了省内各级政府及部门网站的实际特点和改造难度,提供可行的操作规范。
6 规范条款
6.1内容字段信息规范
说明:为第4部分“适用对象”中规定的12类信息定义基本的内容字段和信息填写格式,各子网站发布的相应内容,必须包含该类别的基本字段,并按规范格式填写。
用途:保证子网站与“中国浙江”政府门户网站内容的一致性,保证被整合的各类内容包含
了门户网站所需的基本信息,且内容格式统一。 各信息类别包含的基本字段名称及填写规范如下: (注:字段内容中未标 “可为空”的为必填项) 1) 机构职能
名称:填写本政府机构名称的全称;
地址:填写本政府机构部门办公地址和邮政编码,格式为:办公地址(邮政编码); 公开电话:填写本政府机构的公开电话,保留区号,格式为:(区号)电话号码; 监督电话:填写本政府机构的监督电话,保留区号,格式为:(区号)电话号码; 电子邮件:填写本政府机构的公开电子邮件;
网址:填写本政府机构网站主页网址;必须包含http://; 主要职责:填写本政府机构的主要职责。 2) 领导信息 姓名:填写领导姓名;
岗位:填写领导职务,不保留单位名称;
电话:填写领导公开联系电话,保留区号,格式为:(区号)电话号码; 电子邮件:填写领导工作电子邮件; 分管范围:填写领导分管工作范围; 简历:填写领导个人简历。 3) 内设机构
名称:填写本内设机构名称; 负责人:填写本内设机构负责人姓名;
电话:填写本内设机构公开电话,保留区号,格式为:(区号)电话号码; 电子邮件:填写本内设机构工作电子邮件; 工作职责:填写本内设机构的职责范围。 4) 工作规则
标题:填写格式为“单位名称+‘工作规则’”,如“浙江省教育厅工作规则”; 正文:填写工作规则正文内容;
发布时间:填写工作规则发布日期,格式为:yyyy-mm-dd。 5) 法规文件
标题:填写法规或文件的标题,不保留发文单位;
文号:填写文件的规范文号;
正文:填写内容,包含发文范围、附件,附件应在正文中展开或在标题上做超链接,超链接必须是绝对地址;
发布机构:填写文件所有发文机构的全称;
发布时间:填写文件发布日期,格式为:yyyy-mm-dd; 主题词:填写文件主题词。 6) 讲话文论
标题:填写讲话稿或文章标题; 作者:填写讲话稿或文章发表人姓名;
发布日期:填写讲话稿或文章发表日期,格式为:yyyy-mm-dd;
正文:填写讲话稿或文章正文,附件应在正文中展开或在标题上做超链接,超链接必须是绝对地址。 7) 规划公报
标题:填写规划或公报的标题;
发布机构:填写规划或公报发布单位名称;
发布日期:填写规划或公报发布日期,格式为:yyyy-mm-dd ;
正文:填写规划或公报正文,附件应在正文中展开或在附件标题上做超链接,超链接必须是绝对地址。 8) 人员任免
标题:填写人员任免信息标题; 发布机构:填写人员任免信息发布单位;
发布日期:填写人员任免信息发布时间,格式为:yyyy-mm-dd; 正文:填写人员任免信息正文。 9) 动态信息 标题:填写信息标题;
作者:填写信息作者姓名(可为空);
发布日期:填写信息发布日期,格式为:yyyy-mm-dd;
正文:填写信息正文,附件应在正文中展开或在附件标题上做超链接,超链接必须是绝对地址;
来源:填写信息的原始发布单位。
10) 公告公示
标题:填写公告或公示标题;
发布机构:填写公告或公示发布机构全称;
发布日期:填写公告或公示发布日期,格式为:yyyy-mm-dd;
正文:填写公告或公示正文,附件应在正文中展开或在附件标题上做超链接,超链接必须是绝对地址。 11) 信息查询
项目名称:填写查询服务项目的名称;
查询网址:填写查询服务项目的网址,必须包含http://。 12) 办事指南
项目名称:填写办事项目名称;
受理机构:填写该政府机构全称,如属下属机构办事项目,填写下属机构全称;
项目类型:在“行政许可事项”、“非行政许可审批事项”、“其他项目”三个分类中选择一个填写;
联系人:填写受理该项目的责任部门和责任人,格式为:(责任部门)责任人; 联系方法:填写该项目责任人的电话,保留区号,格式为:(区号)电话号码;
服务对象:在“个人”、“企业(组织)”、“个人和企业(组织)”三个分类中选一个填写; 办理时限:填写该项目的法定办理时限和承诺办理时限;
收费情况:填写该项目的收费情况。应注明收费依据、标准。或列出收费依据文件并提供链接;
设立依据:填写设立该项目所依据的具体法律条款内容,或列出条款目录并提供法律全文下载,超链接必须是绝对地址;
受理条件:填写该项目的详细受理条件,对需要进一步说明的内容应做超链接,超链接必须 是绝对地址;
材料明细:填写需办事需提交的材料清单,对需要进一步说明的内容应做超链接,超链接必须是绝对地址;
办理流程:填写该项目的详细办理流程,对需要进一步说明的内容应做超链接,超链接必须是绝对地址;
流程图:提供办事流程图的下载链接,图片格式为Jpg或Gif;
表格下载:填写材料清单中涉及的所有规范性表格的完整中文名称。并在名称做下载网址的
超链接,超链接必须是绝对地址,提供下栽的表格文件必须以表格的完整中文名称作为文件名的前缀;
网上受理:填写网上办事网页的准确网址,必须包含http://; 结果查询:填写办事结果查询网页的准确网址,必须包含http://; 监管措施:填写对办事过程、结果的监督措施和投诉渠道。
6.2 内容字段标注规范
说明:在正文内容中,使用特殊定义的置标对条款6.1定义的各内容字段的信息进行标注。 用途:使内容整合系统在抓取信息后,能将各字段内容准确定位到“中国浙江”政府门户网站对应网页的对应区域,实现信息的自动同步。
在有关内容页面html代码的body中对内容字段信息作如下标示:
„„字段信息„„
下面以范例形式给出各类别内容的字段信息标注格式: 1) 机构职能
„„ „„
XXXXXX
地址:XXXXXXXXXXXXX(XXXXXX)
公开电话:(XXXX)XXXXXXXX
监督电话:(XXXX)XXXXXXXX
电子邮件:XX@zj.gov.cn
网址http://www.XXXX.gov.cn
1.XXXXXXXXXXXXXXXXXXXXXXXXXXXX;
2.XXXXXXXXXXXXXXXXXXXXXXXXXXXX; 3. „„ „„
„„ „„ 2) 领导信息 „„ „„
领导姓名:
XXX
职务:
XXXXXXXXXXXXXXX
联系电话:
(XXXX)XXXXXXXX
Email地址:
XX@zj.gov.cn
工作分工:
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXX。
领导简介:
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXX。
„„ „„
3) 内设机构
„„
内设机构
XXXXXXXX
姓名:
XXX
联系电话:
(XXXX)XXXXXXXX
Email地址:
XX@zj.gov.cn
工作分工:
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX。
„„ „„
4) 工作规则
此类信息内容基本字段不在页面的BODY中标注,标注方式请参见6.3页面属性标注规范中的部分条款。
5) 部门文件
„„ „„
XXXXXXXXXXXX
XX发〔XXXX〕XX号
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX。
„„ „„
附件:XXXXXXXXXXXX
XXXXXX
XXXX-XX-XX
„„ „„
6)讲话文论
此类信息内容基本字段不在页面的BODY中标注,标注方式请参见6.3页面属性标注规
范中的部分条款。
7)规划公报
此类信息内容基本字段不在页面的BODY中标注,标注方式请参见6.3页面属性标注规范中的部分条款。
8)人员任免
此类信息内容基本字段不在页面的BODY中标注,标注方式请参见6.3页面属性标注规范中的部分条款。
9)动态信息
此类信息内容基本字段不在页面的BODY中标注,标注方式请参见6.3页面属性标注规范中的部分条款。
10)公告公示
此类信息内容基本字段不在页面的BODY中标注,标注方式请参见6.3页面属性标注规范中的部分条款。
11)信息查询
此类信息内容基本字段不在页面的BODY中标注,标注方式请参见6.3页面属性标注规范中的部分条款。
12)办事指南
„„ „„
XXXXXXX
[受理机构]
XXXXXXXX
类型:
XXXXXX
[岗位联系人]
XXX
[联系电话]
(XX)XXXXX
XX
[承诺期限]XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX。
有无收费:
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX。
实施行政许可依据:
《XXXXXXXXXXXXXXXX》第XX条:XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX。
申报条件:
1.XXXXXXXXXXXXXXXXXXXXXXXXXXXXX;
2.XXXXXXXXXXXXXXXXXXXXXXXXXXXXX;
3.„„ „„
材料明细:
1. 本人填写的《XXX申请表》一式X份;
2.XXXXXXXXXXXXXXXXXXXXXXXX;
3.„„ „„
办理程序:
1.XXXXXXXXXXXXXXXX;
2.XXXXXXXXXXXXXXXX;
3.„„
办理程序示意图
材料明细:
表格名称1.doc
表格名称2.pdf
在线受理:
http:// http://www.XX.gov.cn/XXX
X.html
结果查询:
http://www.XX.gov.cn/XXXX.html
主要监管措施:
1.XXXXXXXXXXXXXXXXXXXXXXXX;
2.XXXXXXXXXXXXXXXXXXXXXXXX;
„„ „„
„„ „„
6.3页面属性标注标准
说明:在各网站的内容页面中,标注标题、正文、作者、发表日期、正文、来源、唯一标识等基本属性。
用途:使内容整合系统程序能准确地分析所抓取网页的属性。
在HTML的头区中,以meta的形式将等网站名称、所属部门等基本属性以及该内容页面的标题、描述、作者、分类、变更时间、唯一标识、有效期、重要性、来源、语种等信息进行标注,在正文内容前后,使用特殊定义的置标进行标注。具体含义如下:
“网站名称”指网页所在子网站的名称;
“地区”指子网站所属地区的代码,参见“字典表”“地区”一栏;
“部门”指子网站所属政府部门的代码,参见“字典表”“部门”一栏;
“标题”指该时段内发生变更的每一个内容网页的标题;
“描述”是对信息内容的说明,内容可为空;
“作者”指信息内容的作者,内容可为空;
“分类”指信息内容类别代码,参见“字典表”“信息内容分类”一栏;
“变更时间”指该信息的增、删、改操作发生的时间,要求格式为:yyyy-mm-dd hh:ss如:2005-06-19 20:15:57;
“唯一标识”指该内容页面在政府门户网站群中的唯一识别代码,组成格式如下:地区代码(6位)+部门代码(3位)+信息内容分类(3位) +年(4位)+稿件id(7位)(稿件id是指各子网站用一串数字作为稿件在本网站的唯一标识,不够7位时在前面加0) ;
注:本规范要求所有适用的政府网站必须为每个内容页面生成一个唯一的稿件id。 “有效期”指该内容页面的有效时间,以天为单位,默认0为永远有效;
“重要性”指该内容页面的重要性级别代码,参见“字典表”“重要性”一栏; “稿件来源”指该内容页面的初始来源,内容可为空;
“语种”指网页的语种代码,参见“字典表”“语种”一栏;
“正文内容”指该内容页面的正文和有效内容。
页面属性标注格式描述如下:
„
„
„
„„..正文内容„„„.
„
6.4内容变更索引文件发布标准
说明:在子网站固定目录下,以小时为单位生成一个XML格式的索引文件,将网站在每一时间段内发布、删除、修改的内容页面的相关信息标注到对应的变更索引文件中。
用途:使“中国浙江”政府门户网站的内容整合系统程序能及时、快捷、准确地获取子网站内容变更信息,并捕获变更内容的链接地址。
每个变更索引文件中包含网站名称、主页URL、地区、部门等基本信息以及该时段内发生变更的每一个内容页面的标题、URL、描述、作者、分类、变更状态、变更时间、唯一标识、备注等信息。具体含义如下:
“网站名称”指子网站的名称”;
“主页URL”指网站的域名,必须填写完整的网站域名,即http://„„;
“地区”指网站所属政府部门所在地区代码,参见“字典表” “地区”一栏。省级部门网站填:0100;
“部门”指网站所属政府部门的代码,参见“字典表”“部门”一栏;
“标题”指该时段内发生变更的每一个内容网页的标题;
“URL”指该内容网页的URL,即http://„;
“描述”是对信息内容的说明,可为空;
“作者”是指信息内容的作者,可为空;
“分类”是指信息内容类别名称,参见:“字典表”“信息内容分类/名称”一栏); “变更状态”是指信息的变更状态,0---新增,1---撤稿,2---修改;
“变更时间”是指该信息的增、删、操作发生的时间,要求格式为:yyyy-mm-dd hh:ss如:2005-06-19 20:15:57;
“唯一标识”指该内容页面在网站群中的唯一识别代码,组成格式如下:地区代码(6位)+部门代码(3位)+信息内容分类(3位) +年(4位)+稿件id(7位)(稿件id是指各子网站用一串数字作为稿件在本网站的唯一标识,不够7位时在前面加0) ;
“备注”为扩展字段,内容可为空。
内容变更索引文件的命名格式如下:
ZJEG_RSSYYYYMMDDhh.xml。即ZJEG_RSS+年(4位)+月(2位)+日(2位)+小时(2位)+.xml,如:ZJEG_RSS2005120214.xml。如该时间段没有发生信息变更情况,可以不生成索引文件。
内容变更索引文件的存放路径如下:
http://[HOSTNAME]/gb/zjeg_rss/ZJEG_RSSyyyymmddhh.xml。
如浙江省教育厅网站2005年12月2日14点生成的网页索引文件的访问地址为: http://www.zjedu.gov.cn/gb/zjeg_rss/ZJEG_RSS2005120214.xml
内容变更索引文件格式描述如下:
网站名称
主页URL
地区代码
部门代码
(内容网页1)标题 URL
描述 作者 分类
并更状态 变更时间 唯一标识 备注
(内容网页2)标题 URL
描述 作者 分类
并更状态 变更时间 唯一标识 备注
„„
-第 21页 -
附件 字典表
表1 稿件属性代码
表2 信息内容分类代码
表3 地区代码
注:本规范地区代码引用国家标准《中华人民共和国行政区划代码》(GB 2260-1995)。县级
以下政府网站地区代码由各县、(市、区)政府按相关国家标准自行扩展。
-第 22页 -
表4 部门代码
注:省、市、县各级政府门户网站的部门代码为000,各市、县(区、县)政府的直属部门网站代码由各级政府在本规范基础上自行扩展。
-第 23页 -
浙江省政府网站 12类信息发布规范
(版本 V 1.0)
浙江省政府办公厅电子政务办公室
2006年3月
1 制定背景 ............................................................................................................................... 3 2 名词解释 ............................................................................................................................... 3 3 制定目标 ............................................................................................................................... 3 4 适用对象 ............................................................................................................................... 4 5制定原理和原则 .................................................................................................................... 5 5.1 规范制定原理 ................................................................................................................. 5 5.2 规范制定原则 ................................................................................................................. 5 6 规范条款 ............................................................................................................................... 5 6.1内容字段信息规范 ........................................................................................................ 5 6.2内容字段标注规范 ........................................................................................................ 8 6.3页面属性标注规范 ...................................................................................................... 17 6.4内容变更索引文件发布规范 ...................................................................................... 19 附件 字典表 ........................................................................................................................... 22 表1稿件属性代码规范 ..................................................................................................... 22 表2信息内容分类代码 ..................................................................................................... 22 表3地区代码 ..................................................................................................................... 22 表4部门代码 ..................................................................................................................... 23
1 制定背景
“中国浙江”政府门户网站的内容主要来源于省政府办公厅和各部门、各市、县(市、区)政府子网站。门户网站整合各级子网站内容的手段主要有网上抓取、信息报送和网站链接等方式。其中网上抓取是“中国浙江”门户网站从各级子网站获取内容的主要方式之一。 网上抓取所面临的问题是,各级政府及部门网站缺乏统一的内容格式规范,网站内容的变动缺少统一格式的索引,不利于采集工具自动抓取和分析信息,部分属性缺少或不易准确提取。为了更准确地采集和分析下属子网站的信息,需要规范网站的页面内容格式,并为网站内容的变更添加统一的索引。各级政府及部门网站按照统一要求经过规范化修改后,中国浙江政府门户网站可以通过内容整合系统准确地实现网上信息自动抓取。
2 名词解释
网站内容整合:本规范所指的网站内容整合,仅限于对浙江省各级政府网站发布的底层静态网页内容的抓取,不包含对各类网上办事、网上申报、数据查询等应用服务系统中数据内容的整合。
RSS标准:RSS(“Rich Site Summary”或“Really Simple Syndication”的首字母缩写)中文称作“简易信息聚合”,是信息聚合的国际标准。
内容变更索引文件:记录网站每个小时内容变更情况的XML文件,标准格式为ZJEG_RSSYYYYMMDDhh.xml。当网站内容发生增、删、改等变化时,该时段的内容变更索引文件将同步更改。
全网检索:在“中国浙江”政府门户网站提供的全文检索功能,指系统能够检索省内各级政府及部门网站的所有内容,并将各网站站内检索内容的结果统一合并处理后返回给查询用户。这样,用户得到的检索结果是各级政府及部门网站检索结果的合集。
3 制定目标
本规范围绕信息采集和网页分析功能,在保持现有网站建设模式、不增加信息通道的
前提下,使符合规范的网站发布的网页内容可被“中国浙江”政府门户网站内容整合系统自动识别、采集,并实现网页属性信息和内容字段信息的自动引用 ,最大限度减少人工介入。 本规范结合配合“中国浙江”政府门户网站内容整合系统,实现以下目标:
(1) 及时发现并收集网站的信息变更情况; (2) 准确分析网页属性信息;
(3) 准确定位内容信息;
(4) 实现门户网站与子网站之间内容的自动同步; (5) 实现政府网站群全网检索、RSS订阅等附加功能。
为了实现上述目标,本标准制定了四方面条款,具体含义和作用说明如下:
1.内容字段信息规范:要实现内容整合,首先应明确每一类信息内容必须包含的字段,以及各字段所定义的各项内容的书写规范,确保内容的完整和格式的统一;
2.内容字段标注规范:对信息内容按规定的字段进行标注,使内容整合系统在抓取信息后,能将各字段下的信息准确定位到“中国浙江”政府门户网站对应网页的对应区域;
3. 页面属性标注规范:一个内容网页中包含着标题、正文、作者、发表日期、正文、来源、唯一标识等基本属性,如果没有格式规范,内容整合系统很难确分析这些信息。通过制定统一的格式规范,可以实现网页属性信息的准确提取,并为分类检索打下基础;
4.内容变更索引文件发布规范:用于标记网站单位时间内信息变更情况,通过对索引文件的分析,可以使内容整合系统程序判断哪些内容需要抓取,并获得这些内容的链接地址。
4 适用对象
本规范适用于浙江省行政区域内各县级以上地方政府门户网站、省政府直属各部门网站发布的12类基本信息内容,中国浙江政府门户网站内容整合系统将全面支持本标准,实现对符合标准的政府网站的准确数据采集。
具体类别及内容界定如下:
机构职能:本政府机构名称、联系方式、工作职能等; 领导信息:本政府机构领导的姓名、分工、联络方式等; 工作规则:本政府机构履行职责时应遵循的有关规则;
内设机构:本政府机构内设机构名称、职责、联系方式、负责人姓名等; 法规文件:本政府机构或本系统有关法律、政府规章、规范性文件; 讲话文论:本政府机构领导发表的重要讲话与文章;
规划公报:本政府机构出台的或关于本系统的发展规划、政府公报 人员任免:本政府机构发布的人事任免信息; 动态信息:本政府机构或本系统发生的重要动态信息; 公告公示:本政府机构公开发布的公告或公示信息;
信息查询:本政府机构提供的网上信息查询服务;
办事指南:本政府机构的行政许可、行政审批项目及其它办事项目的办理指南。
5制定原理和原则
5.1 规范制定原理
本规范结合了RSS标准的基本规则与浙江省政府网站信息内容的特性。实现规范的基本方法是,在网页HTML中,嵌入特定意义的标识信息,用于标注各项有意义的内容,这些嵌入的标识信息采用HTML的meta和特殊注释语句置标,在实现属性标注功能的同时,不影响网页的显示效果。
构成网页的HTML文件逻辑上可以分为内容(Content)和页面展示(Style)两部分,内容部分包括网页的标题、日期、正文、作者等数据元素,它决定了网页所包含的信息;页面展示部分包括每个元素的位置、字体、大小、颜色等,它决定了网页在浏览器中的显示效果。HTML文件能够将内容和页面展示有机地结合为一体。
本规范的制定主要从网页内容标注入手,从内容层面对网页进行标注,而忽略页面展示层面。具体方法是,利用HTML文件的特性,在不影响网页展示效果的前提下,加入各类属性置标,规定网站发布内容必须包含的信息。例如,在网页中标注网站信息、栏目信息、标题、日期、作者、来源等元数据内容,从根本上保证其它应用对该网页属性的准确识别和提取。
5.2 规范制定原则
浙江省各级政府及部门网站已经经历了多年的建设,花费设计和管理维护人员的大量心血。为了尽量减少网站的改动,规范制定过程中充分考虑了省内各级政府及部门网站的实际特点和改造难度,提供可行的操作规范。
6 规范条款
6.1内容字段信息规范
说明:为第4部分“适用对象”中规定的12类信息定义基本的内容字段和信息填写格式,各子网站发布的相应内容,必须包含该类别的基本字段,并按规范格式填写。
用途:保证子网站与“中国浙江”政府门户网站内容的一致性,保证被整合的各类内容包含
了门户网站所需的基本信息,且内容格式统一。 各信息类别包含的基本字段名称及填写规范如下: (注:字段内容中未标 “可为空”的为必填项) 1) 机构职能
名称:填写本政府机构名称的全称;
地址:填写本政府机构部门办公地址和邮政编码,格式为:办公地址(邮政编码); 公开电话:填写本政府机构的公开电话,保留区号,格式为:(区号)电话号码; 监督电话:填写本政府机构的监督电话,保留区号,格式为:(区号)电话号码; 电子邮件:填写本政府机构的公开电子邮件;
网址:填写本政府机构网站主页网址;必须包含http://; 主要职责:填写本政府机构的主要职责。 2) 领导信息 姓名:填写领导姓名;
岗位:填写领导职务,不保留单位名称;
电话:填写领导公开联系电话,保留区号,格式为:(区号)电话号码; 电子邮件:填写领导工作电子邮件; 分管范围:填写领导分管工作范围; 简历:填写领导个人简历。 3) 内设机构
名称:填写本内设机构名称; 负责人:填写本内设机构负责人姓名;
电话:填写本内设机构公开电话,保留区号,格式为:(区号)电话号码; 电子邮件:填写本内设机构工作电子邮件; 工作职责:填写本内设机构的职责范围。 4) 工作规则
标题:填写格式为“单位名称+‘工作规则’”,如“浙江省教育厅工作规则”; 正文:填写工作规则正文内容;
发布时间:填写工作规则发布日期,格式为:yyyy-mm-dd。 5) 法规文件
标题:填写法规或文件的标题,不保留发文单位;
文号:填写文件的规范文号;
正文:填写内容,包含发文范围、附件,附件应在正文中展开或在标题上做超链接,超链接必须是绝对地址;
发布机构:填写文件所有发文机构的全称;
发布时间:填写文件发布日期,格式为:yyyy-mm-dd; 主题词:填写文件主题词。 6) 讲话文论
标题:填写讲话稿或文章标题; 作者:填写讲话稿或文章发表人姓名;
发布日期:填写讲话稿或文章发表日期,格式为:yyyy-mm-dd;
正文:填写讲话稿或文章正文,附件应在正文中展开或在标题上做超链接,超链接必须是绝对地址。 7) 规划公报
标题:填写规划或公报的标题;
发布机构:填写规划或公报发布单位名称;
发布日期:填写规划或公报发布日期,格式为:yyyy-mm-dd ;
正文:填写规划或公报正文,附件应在正文中展开或在附件标题上做超链接,超链接必须是绝对地址。 8) 人员任免
标题:填写人员任免信息标题; 发布机构:填写人员任免信息发布单位;
发布日期:填写人员任免信息发布时间,格式为:yyyy-mm-dd; 正文:填写人员任免信息正文。 9) 动态信息 标题:填写信息标题;
作者:填写信息作者姓名(可为空);
发布日期:填写信息发布日期,格式为:yyyy-mm-dd;
正文:填写信息正文,附件应在正文中展开或在附件标题上做超链接,超链接必须是绝对地址;
来源:填写信息的原始发布单位。
10) 公告公示
标题:填写公告或公示标题;
发布机构:填写公告或公示发布机构全称;
发布日期:填写公告或公示发布日期,格式为:yyyy-mm-dd;
正文:填写公告或公示正文,附件应在正文中展开或在附件标题上做超链接,超链接必须是绝对地址。 11) 信息查询
项目名称:填写查询服务项目的名称;
查询网址:填写查询服务项目的网址,必须包含http://。 12) 办事指南
项目名称:填写办事项目名称;
受理机构:填写该政府机构全称,如属下属机构办事项目,填写下属机构全称;
项目类型:在“行政许可事项”、“非行政许可审批事项”、“其他项目”三个分类中选择一个填写;
联系人:填写受理该项目的责任部门和责任人,格式为:(责任部门)责任人; 联系方法:填写该项目责任人的电话,保留区号,格式为:(区号)电话号码;
服务对象:在“个人”、“企业(组织)”、“个人和企业(组织)”三个分类中选一个填写; 办理时限:填写该项目的法定办理时限和承诺办理时限;
收费情况:填写该项目的收费情况。应注明收费依据、标准。或列出收费依据文件并提供链接;
设立依据:填写设立该项目所依据的具体法律条款内容,或列出条款目录并提供法律全文下载,超链接必须是绝对地址;
受理条件:填写该项目的详细受理条件,对需要进一步说明的内容应做超链接,超链接必须 是绝对地址;
材料明细:填写需办事需提交的材料清单,对需要进一步说明的内容应做超链接,超链接必须是绝对地址;
办理流程:填写该项目的详细办理流程,对需要进一步说明的内容应做超链接,超链接必须是绝对地址;
流程图:提供办事流程图的下载链接,图片格式为Jpg或Gif;
表格下载:填写材料清单中涉及的所有规范性表格的完整中文名称。并在名称做下载网址的
超链接,超链接必须是绝对地址,提供下栽的表格文件必须以表格的完整中文名称作为文件名的前缀;
网上受理:填写网上办事网页的准确网址,必须包含http://; 结果查询:填写办事结果查询网页的准确网址,必须包含http://; 监管措施:填写对办事过程、结果的监督措施和投诉渠道。
6.2 内容字段标注规范
说明:在正文内容中,使用特殊定义的置标对条款6.1定义的各内容字段的信息进行标注。 用途:使内容整合系统在抓取信息后,能将各字段内容准确定位到“中国浙江”政府门户网站对应网页的对应区域,实现信息的自动同步。
在有关内容页面html代码的body中对内容字段信息作如下标示:
„„字段信息„„
下面以范例形式给出各类别内容的字段信息标注格式: 1) 机构职能
„„ „„
XXXXXX
地址:XXXXXXXXXXXXX(XXXXXX)
公开电话:(XXXX)XXXXXXXX
监督电话:(XXXX)XXXXXXXX
电子邮件:XX@zj.gov.cn
网址http://www.XXXX.gov.cn
1.XXXXXXXXXXXXXXXXXXXXXXXXXXXX;
2.XXXXXXXXXXXXXXXXXXXXXXXXXXXX; 3. „„ „„
„„ „„ 2) 领导信息 „„ „„
领导姓名:
XXX
职务:
XXXXXXXXXXXXXXX
联系电话:
(XXXX)XXXXXXXX
Email地址:
XX@zj.gov.cn
工作分工:
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXX。
领导简介:
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXX。
„„ „„
3) 内设机构
„„
内设机构
XXXXXXXX
姓名:
XXX
联系电话:
(XXXX)XXXXXXXX
Email地址:
XX@zj.gov.cn
工作分工:
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX。
„„ „„
4) 工作规则
此类信息内容基本字段不在页面的BODY中标注,标注方式请参见6.3页面属性标注规范中的部分条款。
5) 部门文件
„„ „„
XXXXXXXXXXXX
XX发〔XXXX〕XX号
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX。
„„ „„
附件:XXXXXXXXXXXX
XXXXXX
XXXX-XX-XX
„„ „„
6)讲话文论
此类信息内容基本字段不在页面的BODY中标注,标注方式请参见6.3页面属性标注规
范中的部分条款。
7)规划公报
此类信息内容基本字段不在页面的BODY中标注,标注方式请参见6.3页面属性标注规范中的部分条款。
8)人员任免
此类信息内容基本字段不在页面的BODY中标注,标注方式请参见6.3页面属性标注规范中的部分条款。
9)动态信息
此类信息内容基本字段不在页面的BODY中标注,标注方式请参见6.3页面属性标注规范中的部分条款。
10)公告公示
此类信息内容基本字段不在页面的BODY中标注,标注方式请参见6.3页面属性标注规范中的部分条款。
11)信息查询
此类信息内容基本字段不在页面的BODY中标注,标注方式请参见6.3页面属性标注规范中的部分条款。
12)办事指南
„„ „„
XXXXXXX
[受理机构]
XXXXXXXX
类型:
XXXXXX
[岗位联系人]
XXX
[联系电话]
(XX)XXXXX
XX
[承诺期限]XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX。
有无收费:
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX。
实施行政许可依据:
《XXXXXXXXXXXXXXXX》第XX条:XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX。
申报条件:
1.XXXXXXXXXXXXXXXXXXXXXXXXXXXXX;
2.XXXXXXXXXXXXXXXXXXXXXXXXXXXXX;
3.„„ „„
材料明细:
1. 本人填写的《XXX申请表》一式X份;
2.XXXXXXXXXXXXXXXXXXXXXXXX;
3.„„ „„
办理程序:
1.XXXXXXXXXXXXXXXX;
2.XXXXXXXXXXXXXXXX;
3.„„
办理程序示意图
材料明细:
表格名称1.doc
表格名称2.pdf
在线受理:
http:// http://www.XX.gov.cn/XXX
X.html
结果查询:
http://www.XX.gov.cn/XXXX.html
主要监管措施:
1.XXXXXXXXXXXXXXXXXXXXXXXX;
2.XXXXXXXXXXXXXXXXXXXXXXXX;
„„ „„
„„ „„
6.3页面属性标注标准
说明:在各网站的内容页面中,标注标题、正文、作者、发表日期、正文、来源、唯一标识等基本属性。
用途:使内容整合系统程序能准确地分析所抓取网页的属性。
在HTML的头区中,以meta的形式将等网站名称、所属部门等基本属性以及该内容页面的标题、描述、作者、分类、变更时间、唯一标识、有效期、重要性、来源、语种等信息进行标注,在正文内容前后,使用特殊定义的置标进行标注。具体含义如下:
“网站名称”指网页所在子网站的名称;
“地区”指子网站所属地区的代码,参见“字典表”“地区”一栏;
“部门”指子网站所属政府部门的代码,参见“字典表”“部门”一栏;
“标题”指该时段内发生变更的每一个内容网页的标题;
“描述”是对信息内容的说明,内容可为空;
“作者”指信息内容的作者,内容可为空;
“分类”指信息内容类别代码,参见“字典表”“信息内容分类”一栏;
“变更时间”指该信息的增、删、改操作发生的时间,要求格式为:yyyy-mm-dd hh:ss如:2005-06-19 20:15:57;
“唯一标识”指该内容页面在政府门户网站群中的唯一识别代码,组成格式如下:地区代码(6位)+部门代码(3位)+信息内容分类(3位) +年(4位)+稿件id(7位)(稿件id是指各子网站用一串数字作为稿件在本网站的唯一标识,不够7位时在前面加0) ;
注:本规范要求所有适用的政府网站必须为每个内容页面生成一个唯一的稿件id。 “有效期”指该内容页面的有效时间,以天为单位,默认0为永远有效;
“重要性”指该内容页面的重要性级别代码,参见“字典表”“重要性”一栏; “稿件来源”指该内容页面的初始来源,内容可为空;
“语种”指网页的语种代码,参见“字典表”“语种”一栏;
“正文内容”指该内容页面的正文和有效内容。
页面属性标注格式描述如下:
„
„
„
„„..正文内容„„„.
„
6.4内容变更索引文件发布标准
说明:在子网站固定目录下,以小时为单位生成一个XML格式的索引文件,将网站在每一时间段内发布、删除、修改的内容页面的相关信息标注到对应的变更索引文件中。
用途:使“中国浙江”政府门户网站的内容整合系统程序能及时、快捷、准确地获取子网站内容变更信息,并捕获变更内容的链接地址。
每个变更索引文件中包含网站名称、主页URL、地区、部门等基本信息以及该时段内发生变更的每一个内容页面的标题、URL、描述、作者、分类、变更状态、变更时间、唯一标识、备注等信息。具体含义如下:
“网站名称”指子网站的名称”;
“主页URL”指网站的域名,必须填写完整的网站域名,即http://„„;
“地区”指网站所属政府部门所在地区代码,参见“字典表” “地区”一栏。省级部门网站填:0100;
“部门”指网站所属政府部门的代码,参见“字典表”“部门”一栏;
“标题”指该时段内发生变更的每一个内容网页的标题;
“URL”指该内容网页的URL,即http://„;
“描述”是对信息内容的说明,可为空;
“作者”是指信息内容的作者,可为空;
“分类”是指信息内容类别名称,参见:“字典表”“信息内容分类/名称”一栏); “变更状态”是指信息的变更状态,0---新增,1---撤稿,2---修改;
“变更时间”是指该信息的增、删、操作发生的时间,要求格式为:yyyy-mm-dd hh:ss如:2005-06-19 20:15:57;
“唯一标识”指该内容页面在网站群中的唯一识别代码,组成格式如下:地区代码(6位)+部门代码(3位)+信息内容分类(3位) +年(4位)+稿件id(7位)(稿件id是指各子网站用一串数字作为稿件在本网站的唯一标识,不够7位时在前面加0) ;
“备注”为扩展字段,内容可为空。
内容变更索引文件的命名格式如下:
ZJEG_RSSYYYYMMDDhh.xml。即ZJEG_RSS+年(4位)+月(2位)+日(2位)+小时(2位)+.xml,如:ZJEG_RSS2005120214.xml。如该时间段没有发生信息变更情况,可以不生成索引文件。
内容变更索引文件的存放路径如下:
http://[HOSTNAME]/gb/zjeg_rss/ZJEG_RSSyyyymmddhh.xml。
如浙江省教育厅网站2005年12月2日14点生成的网页索引文件的访问地址为: http://www.zjedu.gov.cn/gb/zjeg_rss/ZJEG_RSS2005120214.xml
内容变更索引文件格式描述如下:
网站名称
主页URL
地区代码
部门代码
(内容网页1)标题 URL
描述 作者 分类
并更状态 变更时间 唯一标识 备注
(内容网页2)标题 URL
描述 作者 分类
并更状态 变更时间 唯一标识 备注
„„
-第 21页 -
附件 字典表
表1 稿件属性代码
表2 信息内容分类代码
表3 地区代码
注:本规范地区代码引用国家标准《中华人民共和国行政区划代码》(GB 2260-1995)。县级
以下政府网站地区代码由各县、(市、区)政府按相关国家标准自行扩展。
-第 22页 -
表4 部门代码
注:省、市、县各级政府门户网站的部门代码为000,各市、县(区、县)政府的直属部门网站代码由各级政府在本规范基础上自行扩展。
-第 23页 -