时间:2023-03-17 18:06:04
序论:写作是一种深度的自我表达。它要求我们深入探索自己的思想和情感,挖掘那些隐藏在内心深处的真相,好投稿为您带来了七篇数据库论文范文,愿它们成为您写作过程中的灵感催化剂,助力您的创作。
【摘要题】实践研究
1调查情况介绍
为了配合中国高等教育文献保障系统(CALIS)“十五”期间的建设和中国高等学校数字图书馆联盟(CADLA,下称联盟)工作的开展,2002年4月,CALIS在成员馆中间发放了《数字图书馆建设情况调查表》;2002年5月和6月在联盟理事馆(注:目前中国高等学校数字图书馆联盟理事馆都是CALIS成员馆。)中间发放了《学位论文数据库建设情况调查表》和《教学参考书数据库情况调查表》。
截至2002年6月30日,共回收《数字图书馆建设情况调查表》89份,其中书面报告22份,电子版报告67份。这些调查报告中有29份来自综合性院校,34份来自工科院校,9份来自人文社会科学类院校,来自其他专业性院校,如医学类院校、农林院校和师范类院校的报告分别为5份、4份和6份。图1给出对提交调查报告的学校按地区进行统计得到的结果。根据统计数字和图表可以看到,此次在CALIS成员馆中进行的数字图书馆建设情况调查具有一定的代表性,比较全面地反映了高校数字图书馆建设的整体情况。
图1提交调查报告的学校按地区统计的结果
对于在22个联盟理事馆中间进行的“学位论文数据库建设情况”和“教学参考书数据库情况”重点调研,各单位均及时对调查内容进行了反馈。
针对上面的三份调查,本文第二部分从几个主要方面对各成员馆数字图书馆建设情况进行了分析总结;第三部分给出CALIS在“十五”期间将要建设的两个子项目“高校学位论文全文数据库”和“教学参考书数据库”在成员馆中间开展的情况;最后对目前成员馆数字图书馆建设中急需解决的主要问题进行汇总。
2整体分析
通过CALIS的宣传和培训,大部分成员馆意识到开展数字图书馆建设的必要性和重要性。调查结果显示,在2000年前后成员馆根据各自对数字图书馆的理解、现有基础、阶段性工作重点、人员情况,开始从专业性或校园范围的文献信息保障体系、数字图书馆应用系统、数字资源、基础设施等各方面进行建设,全面推动图书馆向电子化、数字化方面发展,并在资金投入力度方面予以重视。
2.1专业性、校园范围的文献保障体系
众所周知,CALIS在“九五”期间建设了三级文献信息保障体系。四个全国中心、七个地区中心分别构成文献信息保障体系的第一级和第二级,在全国和地区范围内行使文献信息保障功能。但是由于人力、物力、财力的原因,这些中心还不能满足所有高校图书馆和用户的全部需要。根据本次调查的结果,目前有10个学校正在开展专业性或校园范围内的文献信息保障系统建设。其中北京师范大学图书馆正在构造有一定规模的“中文教育数字图书馆”,将分布于国内外的中文教育资源纳入统一的检索系统;上海财经大学图书馆在数字图书馆理念以及相应的管理机制等方面进行了研究与实践,提出了建设“财经文献资源信息中心”的设想;电子科技大学图书馆“西南地区电子信息学科与文献信息中心”的建设已具雏形;首都师范大学图书馆和北京工业大学图书馆受北京市教委的委托筹建了“北京高校网络图书馆”;内蒙古大学图书馆“多功能蒙古学文献信息研制服务中心”的建设颇具民族特色;安徽大学、北京理工大学、大连海事大学、福州大学、哈尔滨工业大学的图书馆,依托校园网建立与本校学科发展、人才培养相配套的,以信息服务为重心的全方位、多层次、高效率的文献信息服务体系。
2.2数字图书馆应用系统
考虑图书馆的工作特点,针对图书馆的需要,研究和开发数字图书馆建设中急需的各种应用系统,已经被列入各成员馆的计划中。本次调查发现有16个图书馆正在应用系统方面进行技术攻关。其中开展数字图书馆原型试验系统研发的学校主要有北京大学、复旦大学、西安交通大学、厦门大学、中山大学、武汉大学等高校的图书馆,这些图书馆研制的内容包括数字图书馆体系结构、元数据、信息存储与检索、互操作等相关技术与解决方案;上海交通大学、北京大学、北京航空航天大学等10余所高校图书馆开发了“视频点播系统”,采用大容量存储设备存储多媒体资料在校园网内提供多媒体视频、音频资料的网上实时点播;复旦大学图书馆正在开发“图书馆电子资源跨平台检索系统”,实现统一界面查询,读者可以通过书刊名、文章名、关键词、著者、媒介类型、数据来源等检索项(包括组合检索项),查询系统连接的各个数据库;天津大学、厦门大学、西北师范大学等7所高校图书馆专门成立了“特色资源数字化加工中心”,开展纸本文献数字化、多媒体资源加工、电子剪报、数据库制作的相关硬件环境设备建设及软件支撑平台建设,形成数字化资源的收集、加工、分类标引、整合、、更新、维护等的完整系统;电子科技大学图书馆开发了“专题数据库系统”,为图书馆的数据库建设提供平台,包括开发、分类、全文检索、远程查询、科学管理和升级等功能,能全面、准确、高效地达到网络化数据库系统的应用标准;吉林大学、中国人民大学图书馆利用相关技术,建立了标准化的知识服务系统平台,开发了“服务子系统”,为用户提供个性化服务,包括信息定制、协作咨询、知识挖掘、多媒体教学、VOD点播、重点学科导航等;西安交通大学图书馆正在集中力量,依托CALIS西北地区中心搭建一个统一的软硬件平台,建设地区性数字资源中心、数字化中心、存储中心、交换中心以及数字图书馆研究与开发中心,为用户提供集成化的智能服务。
2.3数字资源建设
资源建设是数字图书馆建设的基础,也是各馆开展数字图书馆尝试的主要选择。“九五”期间在CALIS的宏观调控和统一规划下,一方面,各馆大幅度增加电子文献的引进,以网络版数据库为主,并引进部分光盘数据库;另一方面,各馆在自建资源方面取得了很大的突破,CALIS组织成员馆共同建设了联合目录数据库、中文现刊目次库、学位论文文摘库等数据库。在提交调查报告的89所图书馆中,85%以上的图书馆参与了CALIS“九五”期间的子项目建设,在支持CALIS资源建设工作的同时推动本馆的数字化进程,起到了事半功倍的效果。
与此同时,CALIS有选择性地支持24个单位根据本馆的特色馆藏、资源特性,在网络环境下建立特色馆藏,逐步把有价值的特色信息资源组织起来,建设成CALIS重点学科专题数据库,以便比较集中、更深层次地揭示各高校收集的富有学科特色的文献。目前CALIS重点学科专题数据库包括24家成员馆建成的25个重点学科专题数据库,数据量已达280万条以上,通过因特网进行服务,实现资源共享。
在CALIS的带动下,在24家成员馆的示范作用下,为了更好地满足本校教学科研的需要,其他的CALIS成员馆纷纷开展本馆特色资源的调研、论证和建设工作。本次调查统计结果显示,目前正在进行数据库建设的CALIS成员馆有74所,每个馆根据各自的条件和实力,或者百花齐放,如中山大学、西安交通大学、上海交通大学等17所高校图书馆同时进行几个数据库的建设;或者一支独秀,在数据库建设的质量上下功夫。
成员馆自建的这些数据库围绕着CALIS制定的“建设具有中国特色、地区特色和高等教育特色的专题数据库”的原则,或者对馆藏特色文献数字化,或者做某个学科或专题的数字资源建设工作,比较系统全面地对某个专题进行综合报道。数据库各具特色,有的体现中国文化渊源历史,有的介绍人物生平、业绩、著作,有的针对某个学科或专业做全面的介绍,有的展现科技动态。数据库形式多样,包括图象、文字、解说、全文和文摘,具有学科知识数据库的特点。揭示的内容比普通二次文献库要深,丰富了高校资源。数据库内容丰富,包含中外文期刊、会议论文、专利文献、产品、事实数据、研究机构信息,或集各种信息于一体。有的数据库具备良好的检索系统,提供WEB界面的查询,有些还使用全文检索系统和多媒体系统,可提供全文、关键词、题名、出处、文摘等多检索点检索;为配合学校的教学和科研,为推广高校科学技术成果,展示广大科研人员的劳动成果和聪明才智,给广大读者提供丰富的有价值的科研资料做出了积极的贡献,弥补了图书馆经费紧缺造成的纸本资源的不足,为高校数字图书馆的工作积累了丰富的经验和技术。
2.4基础设施建设
基础设施建设是各馆进行数字图书馆建设的一个重要部分。调查发现,有28所图书馆正在从基础设施建设入手,创造数字图书馆的基本环境。其中22所图书馆对本馆的自动化和网络系统进行了升级与改造,旨在建立先进可靠的高速信息网络系统,建设先进的图书馆集成管理系统,实现图书馆日常业务科学全面的自动化管理,为国内外资源共享提供环境;9所学校建设了多功能电子阅览室、多媒体教学、网络培训教室,提升了图书馆的开发和应用能力,为师生提供多媒体信息服务;北京理工大学、北京化工大学等4所院校还斥资数千万建设了新馆舍,给师生提供了舒适的教学科研环境。
2.5资金支持
《数字图书馆建设情况调查表》中还包括对各个学校用于数字图书馆建设的资金额度及其来源的调查。调查结果显示各成员馆数字图书馆的建设资金分别来源于“211工程”建设经费“985”工程,国家“教育振兴行动计划”,国家和省级自然科学基金,各省市教委、学校的专项拨款,与企业共建,捐助,图书馆年运作经费,学校自筹等10多个方面。由此可见图书馆动用了所有力量,通过各种渠道支持数字图书馆建设。小到学校,大到国家,建设数字图书馆的意识都明显增强,对此投入的资金大幅度增加,部分学校得到的数字图书馆建设的资金更是令人可喜。表1将各馆数字图书馆经费情况按几个等级进行了统计。需要说明的是有17个学校未对数字图书馆资金的投入进行说明,无法进行统计。对72个成员馆的统计结果显示,38.9%的学校数字图书馆建设的资金额度大于100万,其中有8.3%的高校十分重视数字图书馆的建设,投入了数千万资金支持数字图书馆的建设,但是,我们还应该看到,有超过一半的图书馆用于数字图书馆建设的资金小于10万,无力开展规模性的、目的明确的数字图书馆建设活动。“十五”期间,为了在更大范围内共建、共知、共享,CALIS任重道远。
表1数字图书馆建设资金状况统计
3重点调研
下面根据联盟理事馆对《学位论文数据库建设情况调查表》和《教学参考书数据库情况调查表》的反馈意见,综合CALIS成员馆对《数字图书馆建设情况调查表》的反馈意见,对CALIS成员馆“学位论文数据库”和“教学参考数据库”的建设情况进行分析。
3.1学位论文全文数据库建设
“高校学位论文文摘数据库”是CALIS“九五”建设的一项重要成果,是高校间开展文献传递的重要基础数据库之一。“九五”期间共有90余所成员馆参与了CALIS学位论文文摘数据库的建设,学位论文文摘数据提交量已经达到10万条。由于学位论文内容丰富、新颖、情报价值高,对某一专题有独到的见解和系统论述,对科研和生产有较大参考价值,读者需求呈上升趋势,为此,“十五”期间,CALIS将在该库的基础上进一步建设“高校学位论文全文数据库”,全面实现博、硕士学位论文资源的共享。根据《数字图书馆建设调查》和《高校学位论文全文数据库建设调查》的统计结果,CALIS成员馆中有29家开展了学位论文全文数据库的筹备和建设工作,其中13家来自联盟理事馆;目前这些学校学位论文的全文数据加起来有18100条,主要采用WORD和PDF格式保存,也有个别学校采用JPG格式和DJVU格式;其中北京大学、上海交通大学和东南大学图书馆学位论文建设工作开展较早,可以追溯到1996年;北京大学、清华大学和西安交通大学图书馆数据库建设规模较大,有超过5000条的全文数据;已经具有学位论文数据库提交系统的学校有11个,其中北京大学、清华大学等图书馆的系统已经比较成熟,不仅具有学位论文提交系统,而且同时开发了学位论文检索系统,并考虑了学位论文的编目、校验、统计,设计了学位论文管理系统;目前北京大学和西安交通大学图书馆的学位论文数据库系统是开放的,读者可以检索到摘要级,其他学校的学位论文系统有的要进行用户认证,有的通过IP限制访问;对于学位论文的版权问题,各个学校还没有很好的解决方案。比较实际的解决方法是和论文作者签署论文使用协议,限于校园网使用。成员馆的上述工作为“十五”期间CALIS学位论文全文数据库的建设提供了很好的基础。2002年5月底,CALIS管理中心邀请在学位论文建设方面有一定基础的15个联盟理事馆召开了“高校学位论文全文数据库建设工作研讨会”。会议统一了对高校学位论文全文数据库建设的认识,明确了高校学位论文全文数据库建设的指导思想为在统一的建库标准规范下,实现共建、共享。会上大家总结出学位论文建设的主要环节包括总体工作流程、标准规范、论文提交、应用系统、管理与版权等。会后,CALIS管理中心根据各成员馆的意见,整理了《高校学位论文全文数据库建设参考》,为其他准备开展学位论文全文数据库建设的学校提供参考,加快高校特色资源共建共享的进程。北京大学、清华大学、武汉大学、西安交通大学、厦门大学、东南大学等学校还表示愿意根据会议精神,在对各自的应用系统进行修改后,尽快向兄弟院校免费提供。与此同时,大家还认同了将CALIS学位论文全文数据库设计为“集中索引、分布式存储”的数据库的思路。
3.2教学参考书数据库建设
CALIS管理中心充分意识到,建设教学参考书数据库,对高校的公共基础课、专业基础课和一部分精选专业课的教学参考书提供上网服务,可以满足教育事业发展的需要,有效地解决各校教参复本量少的问题,在“十五”期间将“教学参考书数据库”建设提到了议事日程上来。
根据《数字图书馆建设情况调查表》和《教学参考书数据库情况调查表》反馈的结果,目前CALIS成员馆教学参考书数据库建设基本的情况是:14个学校已经建有一定规模的教学参考书数据库,另有11个学校开始筹划;其中教参数据库建库时间最早的是中国人民大学图书馆,始于1996年;北京大学图书馆1999年开始建库;包括复旦大学、清华大学图书馆在内的8所高校图书馆从2000年开始建库;其他的图书馆是在近一年里才开始和计划进行教学参考书数据库的建设;这些学校的教学参考书书目数据量加在一起有49500条,全文数据有5100条,其中复旦大学的书目数据量最多,已达26,500条,中国人民大学的全文数据最多,有3000条;对于教学参考书数据库系统,有7所图书馆使用TRS全文数据库进行二次开发,有3所图书馆采用快葳公司的DIPS系统,2所图书馆馆使用方正Apabi系统;选择MARC做为教参元数据进行著录的有5家,选择DC做元数据的有3家;对于全文,一般采用WORD和PDF格式;对于版权问题,中国人民大学、西安交通大学、中国科技大学图书馆目前的解决办法是限于校园网使用,其中中国人民大学图书馆已经开始对教师著作征询版权,清华大学和上海交通大学图书馆目前的政策是部分解决版权,同时结合访问控制,北京大学图书馆、复旦大学图书馆正在考虑和专业公司合作,全面解决版权;目前在主页上有教学参考书项目链接的图书馆,有上海交通大学、复旦大学和厦门大学,其中复旦大学图书馆的检索系统可以对外提供服务,非校园网用户可以浏览到书目级。
CALIS在6月中旬邀请22家中国高等学校数字图书馆联盟理事单位召开了“教学参考书数据库建设研讨会”。会上,大家根据各自的工作经验对CALIS将在“十五”期间进行的教学参考书数据库的建设工作提出了很好的建议:(1)标准规范方面:希望CALIS在标准、系统等方面提出方案与要求。(2)建设内容:在学科上有所侧重和分工。(3)版权问题:提出统一的版权解决方案。(4)管理方面:以211工程或CALIS名义,请学校教务部门将教参书的收集纳入教务管理工作,以保证教参考书的权威性和新颖性。(5)建设方式:由CALIS组织购买一批有版权的电子参考书,同时在CALIS协调下,由部分高校分工建设,共享数据,成本分摊。(6)合作思路:和数据库商与系统商合作开发系统和解决版权。(7)系统建设:第一步参建各校分别建立教参信息库,同时把数据集中起来建立CALIS教学参考信息库;第二步建设电子全文数据库。
针对以上建议,CALIS正在积极征集包括系统、资源、读者使用、服务模式、实施、经费预算等在内的教学参考书数据库的解决方案并通过申报、调研、审批方式确定承建单位。
4小结
CALIS管理中心通过“数字图书馆”、“学位论文数据库”和“教学参考书数据库”建设情况调查,从各个方面了解了成员馆数字图书馆建设的情况,同时掌握了CALIS“十五”期间将建设的“学位论文数据库”和“教学参考书数据库”在成员馆中的发展现状。
为了传承和弘扬大禹文化,受哲学社会科学研究院委托,单位成立了大禹文化研究中心,并召开了多次国内学术会议。目前,在海峡两岸研究人员的支持下,研究所已经收集了大量有关大禹的书籍、考古资料。这些资料即包括已经收集到的视频、照片、古籍原件等多种实体内容,也包括被“历代石刻史料汇编”、“公元集成图片库”、“中国基本古籍库”、“中国历代典籍总目系统”、“中国数字方志库”、“瀚堂典藏古籍数据库”等专题数据库所搜录的文献,还包括以大禹文化为主题新闻与资料。纵观历史,大禹文化在发展中进步,许多事实新闻,如“五水共治”等就是大禹文化建设的补充。因此,大禹文化资料库的建设也是一个长期的与时俱进的过程。
2资料库建设相关技术
2.1大数据技术
进入大数据时代,人们开始发现很多主题都开始变成了大数据。目前,大禹文化研究数据虽然不多,但由于大禹的历史悠久,随着考古技术的提升、大禹的历史文化资料会变得越来越丰富,以大禹为主题的传奇故事会以动漫、历史剧等形式传播出去。随着水文化得到人们的重视,融合大禹元素的水文化传播的信息也会大量增长。此外,大禹文化相关的电子商务以及无线传感、虚拟空间技术在大禹主题旅游行业的应用也会带来大数据。因此,针对大禹主题的大数据研究也会成为一个重要研究方向,可以在这些大数据中获得新的研究点。
2.2云计算
目前由于大禹文化研究资料分布在许多不同专题数据库中,需要人工进行整合。这会耗费了大量的人力,造成的研究的瓶颈。为此,如果有必要通过商业和技术协议将其各库中拥有的大禹文化资料共享出来,用云服务的方式为研究者提供统一的检索平台,以产生更大的社会效益。事实上,在教育领域,CALIS等图书馆共享平台已经在提供一个通用的文献资料云,并取得了良好的效果。但大禹研究者需要更为专业的数据库,如果能够将大禹主题信息较为精确地从各大数据库中抽取出来再作整理,必然能够降低研究者检索文献的难度,增加其搜索内容的广度。因此,开展基于云服务的大禹专题数据库构建方法研究就显得十分必要。
2.3垂直搜索引擎技术
由于收集资料的专业化和检索方式的专门化,使得垂直搜索引擎具有通用搜索引擎不可替代的功能。事实上,除专题数据库外,互联网是获取大禹专题信息的重要渠道。而建立专题数据库类似于建立一个垂直搜索引擎。有了大禹主题的垂直搜索引擎,许多最新的研究资料也可以从互联网中获取。由此要做的工作就是设计大禹主题的网络爬虫,用爬虫不断抓取互联网中的大禹文化研究资料,然后以搜索引擎的方式供研究者使用,并用统计方法对不断增长的资料进行分析。事实上,许多专题数据库(如国研网)就是含有专题文献摘要的搜索引擎。显然,构建大禹主题垂直搜索引擎会是专题数据库建设主要内容。
2.4多媒体信息检索技术
大禹文化研究资料包括了大量视频、照片等多媒体信息。但为这些多媒体信息建立标签需要花费大量人力,需要引入自动标引技术。目前手写体识别、截图搜索、智能问答、视频流中人脸识别等技术已得到广泛的应用。可以将这些多媒体技术用于对大禹文化资料的自动匹配和检索,以增强研究者获取资料的便捷性,进一步提升大禹文化专题数据库的建设水平。
3资料库设计思路
3.1设计目标
结合人工与计算机技术,建立能够对大禹文化主题相关信息的采集、加工和的平台,为研究者提供较搜索引擎更为精确的研究资料,较其他专题数据库更为完善的文献数据,较图书馆更为丰富的多媒体信息。
3.2信息采集功能设计
一般来讲,专题数据库的信息采集流程为:①确定专题信息的收集范围,实现专题信息的手工采集、自动采集;②按照数字文献格式标准体系对采集的专题信息进行存储,生成数字化文献;③以手工或自动的方式生成数字化文献的元数据对元数据进行自动标引,采用一定的标准进行组织;④对不同的数据库制作者赋予不同的权限,以手工或批量方式添加、修改、删除元数据,使元数据与数字对象建立对应,实现对元数据和数字对象的管理。按照数据的来源不同,需要设置不同采集形式,具体如下:已有资料电子化。即将已有的书籍和文献资料人工转换为扫描件,部分材料运用OCR技术转换为文字格式,并将实物拍摄成照片,运用多媒体技术做好各类资料的文本标注。这样就可以和已有的视频等电子资料整合成多媒体资料集。用深度搜索引擎技术,从各大数据库中自动提取出大禹文化主题相关的文献资料,直接引入其在原有数据库中的文献标识进行标注。设计好大禹文化主题网络爬虫,实时从互联网中抓取主题相关资料,保存在搜索引擎专用的数据库中。再应用自动推荐技术,向数据库管理员推荐有价值的文献资料,由管理员将互联网中的文献列入专题数据库中供研究者检索,即将文献标引为不同的标志,如果文献是从专题数据库中获取标明“引入”,搜索引擎直接获取标明“互联网”,数据库管理员人工确认的则标明“人工入库”。运用云技术,将资料库建在云端,与其他专题数据库建立合作关系,获得大禹专题文献的推送服务。可以从专业文献资料库、垂直搜索引擎和多媒体信息检索库的角度来开展资料的收集和整理。
3.3信息检索功能设计
为提升专题数据库的功能,实现更好的用户体验,具体设计如下:实现一般文献资料数据库应有的文本检索功能。该数据库提供主题、关键词、摘要、标题、内容等关键信息的全文检索,并以pdf文件形式提供文献资料。在大禹文献数据库中分析并整理出专业名词集,形成大禹文化语义本体,为检索者提供同义词识别、主题相关检索词推荐等功能,并能够按照访问量、下载量、文献引用量、发表时间等方式进行排序。对收集到的照片、视频等多媒体资料作自动标注,建立多媒体检索库,实现文本到多媒体信息统一检索接口。这里主要参考的标准是Mpeg-7,实现对视频中帧、镜头、情节和节目的分离;同时用Sphinx来提取语音中的信息,实现语音向文本的自动转换。这样用户就可以用关键词、截图、语音等方式来搜索资料库中的多媒体资料。例如,用户给出大禹陵的照片,就可以检索到出现过该照片信息的视频文件。提供智能问答系统,让研究者可以与虚拟资料库管理员进行在线交流,由计算机自动提供文献资料情况的解释说明,从而提高专业数据库服务的质量。具体实现过程为:建立FAQ库;对用户的提问进行分析,将问题转换成查询关键词;在FAQ库中查到问题对应的答案;对于在库中查不到的问题,则给出提问要求,让用户进一步明确意图;对多次查询没有结果的问题则从互联网上获取答案,并推荐给用户;如果用户认可推荐的答案,则将这个问题和答案组合加入到FAQ中去。事实上,清华大学图书馆的智能聊天机器人已经实现了这样的功能,并大大改善了查询者的用户体验。运用大数据技术,提供数据分析接口,让研究者能够从不断增长的数据中快速分析出想要的统计信息。主要要实现流处理和批处理两种处理方式。流处理主要针对不需要永久化存储的过程信息,如相关旅游服务的实时信息和商品销售信息。批处理则是针对长期积累在数据库中的大数据进行分析。要通过检索功能的优化,实现具有大数据分析环境、面向新媒体的新型数据库检索平台。
3.4信息检索评估方法设计
在数据库建设完成后,可以用信息检索的传统方法对构建好的数据库要进行测试与评估,方法如下:
3.4.1双率检测
双率检测,即对数据库检索的查全率和查准率进行评估。先要设计一套测试用关键词和测试用资料,然后对关键词查询的结果进行统计,获取查询结果与测评用资料的实际匹配程度。同时统计出被查得文献资料个数与实际已经存储资料个数的比值。在查询时要考虑查询对象除文本资料外,还有多媒体资料,要设计多种样本进行评估。
3.4.2对大数据统计分析结果进行评估
对大数据统计分析结果进行评估。即用人工评价的方式来对统计结果的正确性以及推荐结果的合理性进行打分,从而为优化统计分析算法打下基础。
3.4.3响应时间测评
设计不同的关键词组合,记录查询的时间,评估出系统的响应速度,设定响应阈值,并分析响应缓慢的原因。
3.4.4语义本体合理性评估
设计专业术语中容易混淆的一组关键词进行检索,统计出同义词和专用词转换的成功率,以利于优化大禹主题本体的设计。信息检索评估的体系十分复杂,要抓住专题数据库针对强的特点来测试,测试的主要目的是提高用户体验。
4结束语
(一)学生英语水平参差不齐
《数据库应用》课程针对的是大二学生,这些学生在大一时已经完成了大学英语的学习,基本具备了四千左右的词汇量和一定的英语阅读方面的能力。但仍然有较大一部分学生很难或根本不会用英语与他人进行交流,停留在“聋子英语”、“哑巴英语”上,使得学习的信心不足,这就有可能使工科学生出现极大的恐惧情绪和厌学情绪,不管是英语水平还是专业理解能力都不是在一个水平线上,更进一步导致学生的水平参差不齐。
(二)专业英语与专业课内容相结合的适应时间较长
对于计算机专业的学生来讲,《数据库应用》课程的双语教学过程,不仅需要学生掌握数据库方面的专业词汇,而且还需要学生将专业术语与专业课的学习结合起来,这将需要有一定的适应时间,而且这个时间还可能很长。而在教学过程中,学生是主体,如果在这个过程中适应时间太长,使得学生并没有从双语教学中获益,这将影响双语教学的初衷,达不到应有的教学效果。
(三)师资方面的问题
双语教学,要求授课教师不仅要有扎实的专业知识,同时也要有良好的英语表达能力。对民办院校而言,在计算机专业中,双语方面优秀师资比较欠缺。一是,由于我院所处的地理位置离市区相对较远,这就导致很多非常优秀的教师不太愿意来我院授课;二是,由于限于资金等种种因素,我系教师被送到国外进行学习和进修的机会非常少。对于我院现有的校内老师而言,外语专业的教师对计算机的专业课程缺乏了解,而计算机专业教师又普遍不具备良好的外语口语表达能力。虽然在我院从事双语教学的教师都具有硕士及硕士以上学位,同时在计算机专业课程授课的功底非常扎实,而且在英语科技文章的阅读能力也相对较强,但大部分的教师都没有国外的学习或进修的经历,在口语等方面比较薄弱。若完全采用英语课件和英语授课,在教学过程中有很大的困难。
二、《数据库应用》课程双语教学改革的具体实施
(一)教学目标
双语教学首先要有正确的教学目标,在《数据库应用》课程中,英语授课仅仅是一种手段,其最终目的是培养学生通过所学的数据库专业知识并且运用其中的技术去实际解决问题,从而激发学生在计算机领域中继续学习和研究的愿望。首先应把《数据库应用》课程中的专业知识的学习放在首位,然后把双语教学中的英语教学作为一种渗透。在该课程的双语教学过程中应该积极使用英语授课,要求学生能够读懂、理解课程的内容和表达方式即可。因此,教师应明确该课程的核心教学的目的,归纳如下:通过对《数据库应用》双语课程的讲授,学生应该理解和掌握数据库系统的基本原理及相关应用技术。学生通过在该课程中学习的数据库的专业知识,将它们运用到实际中去,解决有关数据库的实际问题,能够应对数据库应用系统设计、应用和维护的任务。从而,学生逐步形成独立发现问题、思考问题、分析和实际解决问题的能力,同时提高学生的自学能力和创新能力等。
(二)教学模式
目前,国外的双语教学有多种模式。沉浸式(im-mersionprogram)、保持式(maintenancebilingualedu-cation)、过渡式(transitionalbilingualeducation)等。在民办高校中开展《数据库应用》课程的双语教学,首先要根据该课程的实际要求、学生在双语教学过程中的接受能力和英语的词汇和阅读水平等具体情况,来决定在我院的《数据库应用》双语课程中的具体模式。然后再根据课程的教学进度和进展情况以及学生对课程的适应情况,可以对该课程进行及时调整,最终达到掌握数据库的专业知识和提高学生实际英语能力的双重目标。同时考虑《数据库应用》课程的特点和《数据库应用》双语教学仍处在初期,因此,《数据库应用》课程的双语教学模式采用中文讲授+英文课件,即在授课过程中,使用英文教材,教师在讲授专业知识时以中文为主,同时介入英语表达,循序渐进,逐步提高学生在《数据库应用》课程中的理论知识和运用水平的基础上,保证学生英语专业词汇和阅读能力水平的提高。
(三)课堂教学的组织实施和教学方法
1.采用案例引导、任务驱动式的教学模式。
在授课过程中,教师应该根据课程的内容,为学生安排学习任务,使学生在完成所布置任务的同时掌握相关数据库的知识。在案例引导、任务驱动式模式下,教师必须要纵观整个《数据库应用》课程,充分发掘英语教材,精心设计问题,为学生提供自主学习的良好机会。在设计任务时,问题可以使用课本后面的练习题,也可根据课本内容自编相关的题目。然后根据教学大纲和本课程的教学重点和难点,同时还要考虑学生在完成过程中可能遇到的困难去拟定相关的题目。通过自主的发现和探索、自主的质疑、和同学进行讨论等多种方式,学生不仅体验到成功解决问题的快乐,而且激发了学习《数据库应用》双语课程的兴趣,因此,增强了学习的信心和勇气。
2.组织讨论和演讲。
在上课时,授课教师应该鼓励学生当“老师”,给学生创造使用英语交流和实践的机会。针对在上课中遇到的问题,教师应多鼓励学生学会独立思考问题、大胆质疑并且敢于发表自己不同的观点。另外,在课堂上还可以挑选出几个有代表性的学生进行演讲。最后,教师对学生的表现和学生对问题的分析进行总结。这就使得在双语教学过程中,学生所获得的是在丰富的情境中,不断发展着的英语表达能力和专业知识的运用能力。同时在双语教学中进行讨论,能够让学生提高该课程的主动性和积极性,从而为培养学生运用英语的能力打下坚实的基础。
3.上机实验和课程设计过程。
《数据库应用》课程应该注重理论和实践相结合。每周的理论课之后,都安排相应的实验课。学生可以通过上机练习达到真正理解课堂上的知识。此外,在课程快结束的时候,为每组学生分配一个实际的数据库应用系统的开发项目。这样可以使学生去思考和实践数据库开发设计中具体的思路和方法,最终完成课程设计的任务。课程设计的开展,促使学生将所学的知识运用到实际的开发过程中去,并且使学生将所学到的知识融会贯通并且巩固和提高。最后,学生需上交具体实现的系统和一份英文的课程设计报告,这将培养学生撰写英文文档和论文的能力。
(四)双语考核形式
《数据库应用》双语课程的期末综合测评成绩采用过程考试和期末考试两种方法。过程考试即平时成绩,包括考勤、作业、实验、学生参与的课堂内容的情况。教师制定一个具体的评价指标,对平时成绩参照评价指标进行详细的记录。期末考试采用闭卷方式,主要考查学生对教材上基本知识点的掌握程度。过程考试和期末考试成绩按一定的比例计算。采用过程考试和期末考试相结合的方法是评价《数据库应用》教学效果的一个重要手段,而且这两项合理的结合能促进学生英语能力的提高和数据库专业知识的学习。
三、总结
(1)资产信息管理。包括资产登记,资产标签打印,资产信息修改,资产信息删除。(2)合同信息管理。包括合同登记,合同信息修改,合同删除和合同付款验收。(3)供应商管理。包括原厂商登记,原厂商查询变更,供应商登记,供应商查询变更。(4)资产领用管理。包括资产领用,资产领用单打印,资产领用变更,资产归还,资产领用单删除,资产领用查询变更。(5)资产维修管理。包括维修登记,维修记录变更,维修记录删除。(6)资产处置管理。包括处置登记,处置查询变更,处置记录变更,处置记录删除。(7)资产卡片管理。包括卡片登记,卡片变更,卡片删除。(8)查询统计管理。包括供应商查询,合同查询,资产信息统计查询,资产领用查询,卡片领用查询。(9)系统管理。包括数据字典,用户管理,权限分配和角色分配。
2关键技术
2.1数据库设计
数据库是资产管理系统的重要组成部分,数据库结构的好坏将对应用系统的效率以及实现的效果产生直接影响。合理的数据库结构设计可以提高数据存储的效率,保证数据的一致性、安全性和完整性。本系统采用关系型数据库,关系型数据库是建立在严格的数学概念的基础上。概念单一,实体与实体间的联系都用关系表示,故其数据结构简单、清晰,存取路径对用户透明。因此有更高的数据独立性和更好的安全保密性。系统运用实体联系图的方法来进行数据库概念结构设计。依据以上的设计,系统中设计出的实体有:资产实体、用户实体、供应商实体、部门实体等。
2.2数据字典
系统根据机构权限的不同实行级别管理,分为省联社级、市级、市级农商行、县级、网点级五个级别。省联社级为最高级别,网点级为最低级别。所以系统开发时首先要规定统一的数据格式和规范编码规则。系统以数据字典的形式来规范数据。数据字典用于设定计量单位、资产状态、领用类型、报修类型等一些基本数据的管理。通常由服务器系统管理员统一管理。本系统将数据字典的格式规范成三个字段:字典域(进行分级管理),字典域编码和字典域名称。
2.3个性化用户视图
本系统按不同的用户类型来分组,给不同的用户分配不同的角色,不同的角色拥有不同的访问权限。系统根据登录用户角色的不同,来生成不同角色所对应的不同的菜单和功能。即具有不同权限的用户,在登录到系统之后会看到不同的用户操作界面。从而产生了基于角色的个性化用户视。本系统在设计方面严格执行“一人一角色”的操作权限,更好的确保了系统操作的方便性和安全性。
3系统实现
通过对农信社资产管理进行深入地研究,详尽全面地分析了资产管理系统的需求,该系统采用C#编程语言,后台数据库为关系型数据库SQLServer2005开发了三层架构的资产管理系统。系统采用典型的C/S架构,主要是基于数据量和安全性方面的考虑。系统分为三层,第一层为客户层(Client),第二层为业务逻辑层(BusinessLogic),第三层为数据层(Data)。
4结束语
关键词:嵌入式系统;移动数据库;移动计算;事务处理
0引言
数据库技术一直随着计算的发展而不断进步,随着移动计算时代的到来,嵌入式操作系统对移动数据库系统的需求为数据库技术开辟了新的发展空间。随着智能移动终端的普及,嵌入式移动数据库技术目前已经从研究领域逐步走向广泛的应用领域。
在数据库系统的研究历史中,传统的分布计算与分布式数据库的研究是基于有线网络和固定主机的。这些都采用了一些默认的隐含假设,例如固定网络连接、对等通信代价、主机节点固定不变等。但进入20世纪90年代以来,随着移动通信技术和网络技术迅速发展,加之移动计算机和移动通信设备的大量普及,许多计算节点可以在移动过程中与网络建立连接,使得上述假设条件不成立。移动计算环境具有移动性、低带宽、频繁断接性、网络通信的非对称性、电源电力的有限性等特点,使得传统分布式数据库中的方法和技术不能直接应用于移动数据库。
1嵌入式移动数据库的定义
从数据库技术的发展过程来看,计算环境和数据库技术基本保持着一种同步发展的态势,互相影响、互相促进。移动计算的概念是对“任何时间、任何地点的立即通讯”的扩展。在分布式计算的基础上,计算环境进一步扩展为包含各种移动设备、具有无线通信能力的服务网络,构成了一个新的计算环境,即移动计算环境。相应地,数据库系统先后出现了集中式数据库系统、分布式数据库系统、B/A/S多层结构的数据库系统、嵌入式数据库和移动数据库。当然,这些系统也可以共存在同一个计算环境中。
一般说来,嵌入式移动数据库可以从系统的体系结构方面来定义:嵌入式移动数据库系统是支持移动计算或某种特定计算模式的数据库管理系统,数据库系统与操作系统、具体应用集成在一起,运行在各种智能型嵌入设备或移动设备上。其中,嵌入在移动设备上的数据库系统由于涉及数据库技术、分布式计算技术,以及移动通讯技术等多个学科领域,目前已经成为一个十分活跃的研究和应用领域——嵌入式移动数据库或简称为移动数据库(EMDBS)。
2嵌入式移动数据库的体系结构及其主要特点
2.1体系结构
在传统的分布式计算系统中,各个计算节点之间是通过固定网络连接并保持网络的持续连接性的,而移动计算系统改变了这种假设条件。移动计算系统是固定节点和移动节点构成的分布计算系统。
移动计算的网络环境具有鲜明的特点:移动性、断接性、带宽多样性、可伸缩性、弱可靠性、网络通信的非对称性、电源能力的局限性等。移动环境中的分布式数据库就是移动数据库。它是传统分布式数据库系统的扩展,可以看作客户与固定服务器节点动态连接的分布式系统。移动数据库系统的体系结构如图1所示。
其中,移动客户机MC(MobileClient)包括便携式电脑、PDA等;MSS(MobileSupportStation)支持移动计算的固定节点,具有无线通信接口;FH(FixedHost)没有无线通信接口,安装有数据库和数据库管理系统。
2.2主要特点
移动数据库的计算环境是传统分布式数据库的扩展,它可以看作客户端与固定服务器节点动态连接的分布式系统。因此移动计算环境中的数据库管理系统是一种动态分布式数据库管理系统。由于移动数据库在移动计算的环境下应用在嵌入型操作系统之上,所以它具有:微小内核结构、对标准SQL的支持、事务管理功能、完善的数据同步机制、支持多种连接协议、完备的数据库管理功能和支持多种嵌入型操作系统的特点和功能需求。
在移动数据库中还需要考虑诸多传统计算环境下不需要考虑的问题,如对断接操作的支持、对位置相关查询的支持、对查询优化的特殊考虑以及对提高有限资源的利用率和对系统效率的考虑等等。为了有效地解决上述问题,诸如复制与缓存技术、移动事务处理、数据广播技术、移动查询处理与查询优化、位置相关的数据处理及查询技术、移动信息技术等技术仍在不断的发展和完善,它们会进一步促进移动数据库技术的发展。
3嵌入式移动数据库的关键技术
移动数据库涉及的理论和技术含盖了当今通信、计算机和嵌入式系统的最新成果,其中在移动环境下如何进行数据管理是实现移动数据库的关键。根据目前国际有关机构研究的研究表明这些关键技术主要集中在以下几个方面。
3.1数据复制与缓存
复制是在多个移动节点上维护数据的备份,包括服务器之间的复制和移动计算机上保存数据库的复制。一般前者称为复制后者称为缓存。复制的主要目的是提高分布式数据库系统的可用性、可靠性和访问性能。首要的问题是如何维护多个复制节点上数据状态的一致性。按照维护复制一致性的方式来划分,现有的复制协议可以分为严格一致协议和弱一致协议两种。严格一致协议要求任何时刻所有数据库的复制都是一致的;而弱一致协议允许各个复制之间存在暂时的不一致,但这种不一致总能够保持在一定的界限之内,而且总是能够趋于一致(收敛性)。目前,针对移动计算特点开展数据复制/缓存技术的研究最具代表性的是:J.Gray的两级复制机制、CODA系统以及缓存失效报告广播技术等,另外,SYBASE公司的移动数据库产品SQLANYWHERE和SQLREMOTE也采用该技术来支持移动计算环境。
3.2数据广播
通俗地讲,数据广播是指在移动计算环境中,利用客户机与服务器通信的不对称性,以周期性广播的形式向客户机发送数据。其最大的优点是,广播开销不依赖移动用户数量的变化而变化,借助数据广播,可以在一定程度上解决移动数据库系统的断接问题。数据广播的研究可分为服务器和客户机两个方面:服务器主要考虑如何组织广播数据,即数据广播的调度;移动节点主要考虑如何利用本地缓存进一步减少查询广播数据的时间。在国内,长沙国防科技大学的周兴铭院士对数据广播进行了深入研究,提出了数据广播的多盘调度算法。衡量数据广播调度算法好坏的参数是访问时间和调谐时间。
3.3位置相关查询优化
在移动数据库中,存在着与位置相关信息的查询及更新。查询通常是与位置相关的,即使是同一个问题,在不同的地方,所得查询结果是不同的,如“最近的超市在哪里?”。移动查询优化技术是指在传统分布式数据库查询优化技术的基础上,利用多种方法,消除带宽多样性、断接等因素造成的影响,使查询引擎能够根据当前可用网络条件采取恰当的优化策略;同时,针对移动计算机有限电源能力,合理地组织本地数据库管理、远程数据库访问等耗电能较多的操作,达到节能目的,延长关键数据的可用时间。
采用基于分割的地址更新策略时,由位置服务器维护的移动用户对象包含以下数据成员和方法:
分割集合——记录MSS的分割情况,例如{Cell1,Cell2},{Cell3,Cell4,Cell5};
LOC——记录移动用户最近报告的地址(无线单元的ID),例如Cell1;
ERR——移动用户当前所在的分割,例如,若LOC=Cell1,则ERR={Cell1,Cell2};
loc()——一个方法,用于返回该用户的实际地址,即上面介绍的地址查询过程。
在移动查询的应用中,有各种各样涉及地址的查询,例如“请寻找一家校园附近的超市”,“查找X,Y,Z,这三人都在同一条公路上,且Y在X与Z之间”,等等。一般地,可以把这一类地址相关查询表示为:
SELECTx1,x2,…,xn
FROMUsers
WHERE(x1.loc=l1∧…∧xn.loc=ln)∧C(l1,…,ln)∧W(x1,…,xn)
其中C(l1,…,ln)是关于地址l1,…,ln的n元约束条件,而W(x1,…,xn)是关于对象x1,x2,…,xn非地址属性的n元约束条件,Users是所有移动用户的集合。
3.4移动事务处理
事务处理是数据库管理系统的一个基本功能,主要用于维护数据的一致性,支持多用户的并发访问,使用户可以可靠地查询和更新数据库。一般来说,用户对数据库系统的访问都是通过事务来完成的。在传统的数据库系统中,一个事务由一系列读写操作组成。事务处理必须满足四个准则,即原子性、一致性、隔离性和永久性(简称ACID)。移动计算环境的特点,使传统数据库系统中的事务处理技术不能满足移动事务处理的要求。
通常,将移动客户机发出的事务叫移动事务,它属于分布事务。移动事务处理具有以下特点:
1)移动性。这不仅指移动事务执行期间,发出事务的移动客户机是移动的,而且事务本身也在相应地移动。
2)长事务。由于无线网络通信的低带宽、高延迟以及移动客户机的频繁断接性,都可能使移动事务成为长事务。
3)易错性。由于移动客户机不如固定结点可靠,而且无线网络通信也不如固定网络稳定,因此,与一般事务相比,移动事务更容易出错。
4)异构性。由于客户机的移动性,移动事务可能要访问分布的异构数据库系统。
总之,移动事务不同于传统事务,传统的ACID模型已不能很好地描述移动事务,需要为移动事务寻找更好的模型。维护数据的一致性和解决过区切换(handoff)问题是移动事务管理的重要任务。
4嵌入式移动数据库的应用方向
移动数据库技术的许多特性都与信息时代的不断进步的需求相吻合,有着广阔的发展空间。
4.1嵌入式移动数据库在物流领域有着广阔的应用前景
物流的信息化在未来的物流发展中将发挥日益重要的作用,因为及时准确的信息有利于协调生产、销售、运输、存储等业务的展开,有利于降低库存,节约在途资金等。在运输方面,利用移动计算机与GPS/GIS车辆信息系统相连,使得整个运输车队的运行受到中央调度系统的控制。在存储环节,带有嵌入式移动数据库的手持计算机输入的信息通过无线通信网络写入中央数据库,大大提高了工作效率和信息的时效性,有利于物流优化控制。在配送环节,输入手持计算机的数据通过无线网络传入中央数据库。因此,在投递的同时,用户即可查询物品投递的情况。
4.2嵌入式移动数据库为移动银行铺平了道路
在我国,移动用户是最具消费潜力的群体,因此针对移动用户开发的移动银行业务将具有很大的市场潜力,而且能够推动移动电子商务的发展。移动银行可以使客户在异地对自己的帐务进行实时查询、交易,方便、省时,降低成本,同时安全可靠,机动灵活。客户可以在任何时间,任何地点进行交易,节约了去银行的时间。出差或旅游在外仍可享受银行服务。
4.3嵌入式移动数据库非常有助于提高实地调查/工作的效率
煤气、水电等公用事业检查员查验数据就是一个很好的应用实例,目前一般的检查员仍然是将检验的数据记录在纸上。如果利用移动计算机记录和传输数据,遇到纠纷时还可以实时地查询历史记录,这将使得我国的公用事业单位的收费工作大大地改善。
除了上述主要应用之外,移动数据库技术还在零售业、制造业、金融业、医疗卫生等领域展现了广阔的应用前景。随着移动计算、移动数据库和无线数据通信等相关技术迅猛发展,移动数据库将成为信息社会的重要支柱。
5.总结
本文给出嵌入式移动数据库的定义,描述了嵌入式移动数据库的体系结构并简单分析它的特点,然后详细分析了嵌入式移动数据库的关键技术,最后展望了嵌入式移动数据应用前景。嵌入式移动数据的相关技术研究不断取得进步,这为嵌入式移动数据的成熟应用打下了坚实的基础。
参考文献
1李东,曹忠升,冯玉才,等.移动数据库技术研究综述[J].计算机应用研究,2000(10):4~7
2MadriaSK,MohaniaM,etal.Mobiledataandtransactionmanagement.InformationScience141(2002)279~309
关键词:数据挖掘电子商务关联规则
1引言
目前,在需要处理大数据量的科研领域中,数据挖掘受到越来越多的关注。我们可以利用数据挖掘技术从海量数据中发现有用信息,帮助商家了解客户以往的需求趋势,并预测未来,从而给商家带来巨大的利润。在数据挖掘领域,采用关联规则在大型事务数据库中进行数据挖掘是一个重要的研究内容。关联规则是美国IBMAlmadenResearchCenter的RabeshAgrawal等人于1993年首先提出的KDD研究中的一个重要课题。关联规则挖掘的一般对象是事务数据库,这种数据库的主要应用在零售业,比如超级市场的销售管理。关联规则就是发现事务数据库中不同商品(项)(Item,指事务中的内容,比如,面包、牛奶等都是项目)之间是否存在某种关联关系。通过这些规则找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响。发现这样的规则可以应用于商品货架设计、货存安排以及根据购买模式对用户进行分类。
2关联规则描述
目前关联规则挖掘主要考虑支持度和置信度两个阈值。设X是项集,T是数据库DB中的任意一个记录。X的支持度是指支持X的记录数与全体记录数的比,Support(X)=|{T|TX,T∈DB}|/|DB|。蕴涵关系X==>Y在数据库DB中的置信度是指同时支持X和Y的记录数与支持X的记录数之比,即:Confidence(X==>Y)=|{T|TXY,T∈DB}|/|{T|TX,T∈DB}|支持度可理解为在DB中随机抽取一个记录,该记录同时支持X和Y的概率。置信度可理解为在支持X的记录全体中随机取一个记录,该记录支持Y的概率。
3发现关联规则的操作步骤
目前,由于条码技术的发展,顾客在超市中购买商品的信息可以很方便的被存放在数据库中,针对数据库中大量的数据,我们如何发现它们之间存在的关联是本文主要讨论的问题。关联规则的挖掘问题就是在超市事务数据库DB中找出具有用户给定的最小支持度和最小置信度的关联规则。关联规则的挖掘对市场调节和争取顾客方面的应用是极有价值的。因此,有必要采用快速算法从超市事务数据库中挖掘关联规则。由超市事务数据库发现关联规则挖掘可以分以下两步完成:
1)找出超市事务数据库DB中所有大于等于用户指定最小支持度的项目集,具有最小支持度的项目集称为频繁项集。
2)利用频繁项集生成所期望的关联规则,即这些规则必须满足最小支持度min_supp和最小置信度min_conf。
事实上,第一步的任务是迅速高效地找出超市事务数据库DB中全部频繁项集,数据挖掘所面临的最大的挑战是计算效率问题,解决这一问题的途径是产生高效的数据挖掘算法,但从超市事务数据库中产生频繁项集即费时又占用空间,所以说第一步是关联规则挖掘的核心问题,是衡量关联规则挖掘算法的标准。当找到所有的频繁项集后,相应的关联规则将很容易生成,目前大多数的关联规则挖掘算法研究是针对第一步而提出的,本文重点讨论第一个问题。
4由超市事务数据库发现关联规则的总体设计
在现有的不少关联规则发现算法中,最著名的仍然是R.Agrawal本人在他们自己的AIS算法基础上于1994年提出的Apriori算法,Apriori算法的基本思想是:利用“频繁项集的所有非空子集都必须也是频繁的”这一定理对事务数据库进行多遍扫描。
众所周知,对数据库的扫描伴随繁重的磁盘I/O任务,Apriori算法中,扫描次数较多,这样就大大限制了挖掘算法的速度。因此,在实际的应用中,减少对事务数据库的扫描次数,有效地减少数据的吞吐,将会有效提高算法的效率。为了高效率的由超市事务数据库中发现关联规则,本系统在Apriori算法的基础上采用基于划分的算法。该算法只对事务数据库DB扫描两次,大大减少了I/O操作,从而提高了算法的效率。
通过划分方法进行数据挖掘的过程如下图所示:
本系统的总体设计包含三部分:
(1)在服务器端第一次扫描超市事务数据库中的表,按照超市事务数据库中不同项集的数量,以及兼顾客户端计算机硬件配置,对其进行数据分块,分块的大小选择要使得每个分块可以被放入主存。
(2)在各个客户端计算机上,利用并行技术分别访问服务器上的数据分块,求出各数据分块所对应的局部频繁项集,并将所求局部频繁项集存入服务器的一个指定表中。
(3)在服务器端,汇总各个分块数据生成的局部频繁项集,第二次扫描超市事务数据库中的总表,最终生成全局频繁项集。
系统的总体设计可以如下图2应用程序总体设计所示。
一旦由超市事务数据库DB中的事务找出频繁项集,由它们产生强关联规则是直截了当的。所谓的强关联规则是指满足最小支持度和最小置信度的规则。
数据库营销指的是企业通过收集和积累消费者的大量信息,经过处理后预测消费者有多大可能去购买某种产品,以及利用这些信息给产品以精确定位,有针对性地制作营销信息,以达到说服消费者去购买产品的目的。
因为旅游规划的本质是为区域旅游的发展指明方向,提供战略指导,为近期的规划开发提出具体的、实际性的指导,满足市场需求的同时,取得利润的最大化。因此,本文试图以数据库营销的核心贯穿整个旅游规划的过程,从三个方面:规划的客源市场调查、具体市场营销方式、规划完成后的跟踪来阐述数据库营销的重要性,有别于以前的就营销而论营销的做法,以求给以后的旅游规划提供些许指导与借鉴。
一、问题的提出
目前的旅游规划文本当中的市场营销方式大部分仍是以传统的营销方式为主,没有充分考虑客源市场的需求,就营销论营销,没有把营销的理念贯穿于整个规划的过程,缺乏整体的营销观念,在客源市场调查的过程当中,对消费者需求的调查成分偏少,即使有,在后续的旅游产品设计中也难以体现,降低了客源市场的满意度。
另外一种情况是在传统的营销方式的基础上,间杂着一些现代营销方式的手段,如电话营销、电邮营销、短信营销等,都是在探索现代营销方式,但往往不成体系,在具体的运用过程当中,往往是传统营销方式的附庸,难以形成实际的效果。
第三种情况是指目前的旅游规划文本在指导具体的区域旅游实践当中的精准性不够,难以跟上外界环境的变化,没有充分考虑外界环境的变化,导致规划文本束之高阁,没有用处,资源浪费,规划文本的完成并不意味着规划过程的完成,规划的过程是一个反复修正的过程,是在具体的实践中检验的过程。
二、问题的分析
针对上述问题,本文试图从现代营销的手段之数据库营销的角度去分析,以其核心观念贯穿整个规划过程,用以指导具体的规划过程。
(一)客源市场调查中的数据库营销
每一个旅游规划在具体实施之前,都必须要进行客源市场的调研,了解客源市场的基本情况及消费需求,有必要的话,还依据不同的指标,进行客源市场的细分,以求在具体的规划过程中能精确定位,投放产品。目前的客源市场调查最常用的是问卷调查,辅之以访谈、电话调查等方式,(在不考虑样本是否科学性的基础上)得到客源市场消费者的主观、客观数据,进行数据的分析、加工。
可以看出客源市场的这种调查方式是一次性的,消费者在规划进行过程当中的需求变化及客观环境的变化并没有考虑,也就是说规划默认为客源市场的需求及消费模式短期内是不会变化的,其实不然,环境在时时刻刻的变化,消费者的心理也在时时的变化,因此,在此基础上,可以尝试建立所调查样本的数据库,以一定的周期为间隔,采取各种数据库营销方式进行样本的调研,对每一个细分市场的样本进行归类分析,指导规划的进行。
(二)以数据库为基础的旅游市场营销模式
传统的旅游市场营销方式以产品、价格、分销、促销为模式,以远远不能满足现有的消费者的需求,事实证明,这种传统的、不考虑市场的营销方式是不科学的,在旅游规划过程当中应该予以摒弃。取而代之的应该是以消费者为中心的消费者、成本、方便、沟通为模式的“4C”策略,而数据库营销是这一策略的最直接的体现,因此,在旅游规划创作过程当中,其基本的营销方式应该以定向直邮,电子邮件营销,网络传真营销和短消息服务等在内的多种形式的数据库营销手段为主,深挖其具体内涵,延展其多种利用方式。
通过数据库了解旅游者的兴趣爱好后,就可以在宣传册的封面上贴上他们喜欢的产品图或直接与他们在互联网上进行交流,当然交流的内容是他们感兴趣的话题,这样有利于加强与旅游者或潜在旅游者的关系。例如,旅行社利用自己的网站,运用数据库跟踪旅游者的习惯和兴趣爱好,以此为根据向旅游者推荐他们感兴趣的旅游线路。对旅游者了解得越多,就越能更好地帮助旅游者解决旅游购买过程中的问题,最后与旅游者建立起良好的商业关系,提升旅游企业的竞争力,并最终促进旅游业的发展。转(三)规划文本完成后的数据库营销
规划文本完成以后在具体指导实践的过程中应该结合环境的变化不断修正。
可以结合客源市场调查中所建立的数据库进行再次调查,不断反复,切实修正提供给消费者的旅游产品的可行性,以求“适销对路”,另一方面,服务行业的这种数据库营销有点类似于物质生产部门的“售后服务”,具体来讲,指的是在规划的实施过程当中,对客源市场或是部分游客进行回访,收集旅游者的信息,建立数据库,分析改进。
通过数据库资料可分析出旅游者的价值取向,然后针对不同旅游者提供不同类型的旅游产品展示、广告宣传和销售方式。一般来说,对旅游者了解越多,就越能提供令其满意的旅游产品和服务。
三、问题的解决
规划的本身就是一个营销的过程,关键是采取什么样的营销模式以及如何采用的问题,从上述分析,可以看出,营销的思想贯穿于规划的始终,客源市场的调研并不仅仅是一个直线式的过程,而更多的是一个循环往复的过程,规划是一个弹性的过程,是一个不断修正的过程,对于旅游者的营销是长期的过程,也是一个培养潜在消费者的过程。具体的数据库营销方式有很多,具体采取哪种方式或是几种方式的组合,应该根据客源市场的情况来定。
四、数据库营销在旅游规划中应该注意的问题
(一)从战略的高度来看待数据库营销的作用
旅游规划应该用战略的眼光、用资产的眼光来看待营销数据库,特别是应认识旅游者信息的真正价值,将规划所涉及到的旅游企业规划从“管理信息”向“利用信息”转化。企业应切实地制定出营销信息战略,对信息收集、维护和利用进行详细的规划和评估,从而将数据库营销提升到旅游企业战略的层次上,从战略的高度来看待数据库营销的应用。
(二)确保信息的真实性、一致性和规范化
确保数据库营销中的所有数据和活动都可以按照一定的规则度量,能满足决策分析的需要。