期刊大全 杂志订阅 SCI期刊 投稿指导 期刊服务 文秘服务 出版社 登录/注册 购物车(0)

首页 > 精品范文 > 语音视频

语音视频精品(七篇)

时间:2022-10-06 06:58:27

序论:写作是一种深度的自我表达。它要求我们深入探索自己的思想和情感,挖掘那些隐藏在内心深处的真相,好投稿为您带来了七篇语音视频范文,愿它们成为您写作过程中的灵感催化剂,助力您的创作。

语音视频

篇(1)

文章结合我校大学英语网络教学改革已进行到中期阶段的背景,依据相关的外语习得及教学理论,结合课题的研究内容与目标,对我校正在开发的大学英语音视频资源库进行详细论述及深入探讨。以资源的准确性、实用性、完整性、可扩展性为标准,对教学资源科学分类整合,构建音视频资源库平台,服务于学生的自主学习,提升学生英语学习的兴趣与效率,强化他们的自主学习能力。并对后续存在的问题进行了探究,提出可行的解决方案。

关键词

教学改革;自主学习;资源库;开发;应用

0引言

我校在过去10年推行了大学英语网络化教学改革,投入数百万元建成了13个网络型语音室,构建了完善的英语自主学习环境,硬件设施在省内遥遥领先,但在软件资源建设及后续投入上却乏力。仅创建了网络英语学习平台主页,链接了外教社的新理念学习平台,但网站里内容不够充实,大多是一些外链资源,缺乏实用性和自主性,对学生没有吸引力。为了构建完善的大学英语自主学习与教学网络资源库,进一步推进大学英语教学改革进程,课题组成员拟用两年时间完成大学英语音视频资源库的开发和建设,根据师生应用中的反馈意见,积极改进各项功能,完善资源库。

1资源库开发的理论基础

自主学习是以学生作为学习的主体,通过学生独立地分析、探索、实践、质疑、创造等方法来实现学习目标,培养学生搜集和处理信息的能力、获取新知识的能力、分析和解决问题的能力以及交流与合作的能力。基于这一观点,笔者认为大学英语的自主学习应是给予每个学习者理想的外语学习环境,通过教师的引导,充分调动每个学习者的主动性,最终达成英语学习的目标。而理想的外语学习环境,就目前我校大学英语教学改革的现状,首要任务就是完善自主学习中心,开发建设大学英语音视频资源库。美国著名语言教育家克拉申(Krashen)认为:只有当习得者接触到“可理解的语言输入”(comprehensiveinput),即略高于他现有语言技能水平的第二语言输入,而他又能把注意力集中于对意义或对信息的理解而不是对形式的理解时,才能产生习得,理想的语言输入应具备可理解性、有趣又相关、足够的输入量等特点。大学英语音视频资源库的建立正是为了最大限度地为我校学生提供英语语言学习材料和实践机会,接触真正的西方社会与文化,使他们能广泛而有效地获取英语语言知识、从而提高语言习得能力,真正实现“有效地输出”。

2资源库开发的重要性

2.1发展自主学习中心的需要

目前国内各高校自主学习平台主要由两种路径形成。一是从出版社直接购买的学习平台,另一个则是各高校自建的资源库。前者可以通过学校资金和人力的投入,短期内则可以投入使用,形成效果。但校本音视频资源库的建设是一个长期的过程,需要课题组的持续努力。通过建设有特色的自主学习资源库,才能为学生的自主学习创造更好的条件,适应网络化、个性化英语教学的需要。

2.2有利于提升英语学习兴趣、提高学习效率

外语教学的最终目的是培养应用语言进行有效交流的能力。英语音视频资源辅助教学及应用于自主学习,不仅有利于语言习得的发展,而且为学生提供大量运用语言的机会,实现跨文化交流,音视频是了解西方文化的最好媒介。

2.3丰富教学方式,实现教学创新,提升教师的教育技术水平

互联网+风潮要求我们教师既要更新教学观念,又要在课堂教学模式、教学内容上进行创新。建设英语音视频资源库过程中可以充分调动老师们的积极性,形成良好的教学创新氛围;通过自学等途径提升了现代教育技术水平,丰富了教学方式。

3建设大学英语音视频资源库的方法与途径

资源库的建设管理是一项持久而庞大的工程,需要课题组成员通过各种渠道搜集各类资源,进行分类整理,同时需要不断提升现代教育技术水平。在学院领导及相关部门的大力支持下,赣南师范大学的英语音视频资源库已基本建设完成,并投入使用一年多,在师生中产生了非常好的反响。我们主要通过以下方法与途径进行资源库的开发与建设:(1)数字化各类英语教材。各类教材是英语教学的主要教学资源,它们也是英语学习者的首选材料,具备较好的权威性及广泛性。数字化英语教材,就是把各类英语教材附带的光盘、磁带转换成能在计算机上保存的音视频文件,存贮在服务器上,从而实现网络化共享。在数字这些素材时,既要考虑到教材的完整性,也要充分考虑到学生自主学习时的易用性,根据用途及层次对听力材料进行分层管理,文件命名均采用见名知义的命名方法,使师生在调用时简单易懂,实现快捷访问、高效利用。(2)自主开发点播系统,入库优质资源。视频资源比音频资源更加直观、形象,是学生首选的学习素材。在我校现代外语教育技术应用与研究中心的指导帮助下,我们自主设计开发了英语视频点播系统,内容涵盖:①各种英语视频课程:如学校自建的精品视频公开课和师生的英语教学竞赛视频,全球知名大学的视频公开课。②流行英语学习课程:如“走遍美国”、“空中英语教室”等。③主流英语媒体节目,如中央电视台英语频道,ABC美国广播公司,CNN广播公司等节目源。④英语演讲视频:如CCTV杯英语风采大赛,TED演讲集、经典演讲视频等。⑤影视资源:我们搜集整理了各类影视经典资源,包括奥斯卡历年最佳影片、IMDB最佳影片top250等优质影视资源。从实际应用情况来看,该资源是学生点击率最高的版块,可见其受欢迎程度。(3)购买适合教学与自主学习的音视频资源目前教育资源市场上针对英语学习方面的资源库是越来越多,为了与硬件设设相配套,完善我校英语网络教学与自主学习环境,我校近些年加大了对软件建设的投入,购买了一些重点资源库,涵盖英语学习、考试及出国留学等音视频资源,主要包括外语自主学习资源库、新东方多媒体学习库、环球英语网络、Fif外语学习资源库和部分试用资源库,极大地丰富了英语教学与自主学习资源,完善了英语网络学习环境。(4)制作音视频资源导航页,从互联网上下载相关打包资源。互联网是英语学习、教学的宝藏,里面有非常丰富、完整的各类英语音视频学习、教学资源等待我们去挖掘整理,如乔丹NBA经典比赛视频合辑、经典足球比赛欣赏、伦敦奥运会开幕式、老鹰乐队澳大利亚告别演唱会等经典高清英语资源,由于视频格式和播放器的局限性,我们通过迅雷等下载工具直接打包下载到服务器上,然后再制作资源导航页,让学生通过下载到本地的方式进行欣赏,这样既减轻了服务器的压力,也使学生有更多时间去慢慢领会其中所包含的文化价值意义。

4资源库的应用

有了英语音视频资源库,教师可以直接调用资源库中的教学资料进行课堂教学,有了英语音视频资源库和其它配套的学习系统,教师可以根据不同专业学生特点,采取灵活多样的教学,选择与其专业相符的教学内容,实行因材施教,把专业学习与英语学习有机结合起来,实现共赢。基于这些丰富、完整的数字化资源,学生们可以根据自己兴趣爱好和专业特点,在网络型语音室或寝室在线自主学习,选择合适的学习内容,按照自己的进度安排学习,实现高效利用时间,最终使学生具备较强的自主学习能力,养成良好的自主学习习惯。

5结束语

通过教学实践证明,有了基于本校实际的大学英语音视频资源库,给老师与学生带来非常大的学习能动性。教师可以充分利用起网络语音室的各项功能,进行教学改革创新,施行因生、因材施教,提高课堂教学效率,最大化地转化学习效果。同时,基于校园网的学生在线自主学习,通过选择与自己水平、兴趣相当的学习素材,真正实现自己学习、主动学习,充分激发了学生的求知欲望,打破课堂局限,通过网络互动有利地建设了第二课堂,使学习延伸到课外生活中去,从而使学生真正具备较强的自主学习能力,实现培养目标。但我们的研究也存在一些需要改进的问题。比如随着智能手机在学生中的普及,需要我们将资源进行转换,以适应安卓、苹果手机上的使用,这对我们的技术提出了新的挑战;另外,老师和学生才是资源的真正使用者,对如何选材、使用效果及如何改进等方面最有发言权,课题组应及时与他们进行沟通、问卷调查,进一步完善资源库,实现更广的社会传播价值。

作者:赖艺 刘忠平 单位:赣南师范大学外国语学院

参考文献

[2]零月秀,李波.大学英语听说教学数字化资源库的建设[J].通化师范学院学报,2004.25(1):106-108.

[3]莫锦国.大学英语自主式教学资源库开发初探[J].外语电化教学,2005(102):36-39.

[4]教育部高等教育司.大学英语课程教学要求[M].北京:清华大学出版社,2007:18-25.

[5]门斌.大学英语多媒体网络教学资源库的建设[J].电化教育研究,2009(7):68-72.

[6]甘玲玲.大学英语自主学习:校本网络资源库的开发[J].百色学院学报,2009.22(6):104-107.

[7]海霞.新疆大学英语教学网络资源库建设调查报告[J].新疆广播电视大学学报,2011(3):54-56.

[8]郭继荣,戴炜栋.大学生英语自主学习评价实证研究[J].外语界,2011(6):79-87:

篇(2)

关键词:软件;音频;视频;采集;压缩;传输

中图分类号:TN919.8

本文阐述了一种基于软件的IP音视频通信系统解决方案。本系统优点:音视频采集设备简单,投资小;采用软件压缩,便于升级,可按需定制;纯C语言开发,效率高,易于集成和移植,可以在Windows和Linux操作系统上运行;传输与采集模块分离,便于维护;采用标准网络协议栈设计,扩展性好;可以支持多种音视频采集和播放架构;不需要架设服务器,无中心,抗毁性强;支持多种音视频编解码标准,可扩展;可以根据网络状况限制视频编解码器码率,减轻对网络的压力,适于在低带宽条件下使用;可支持点到点音视频通信,同时支持音频组播通信;基于PC平台开发,架设简单,无需额外硬件支持;不需要SIP协议握手,网络开销低。

1 系统描述

本系统可以支持的音频采集与播放架构包括:mme(Windows)、alsa(Linux)、oss(Linux)和arts(Linux)等。可以支持的视频采集与播放架构包括:v4w(Windows)、directshow(Windows)、v4l(Linux)、v4l2(Linux)和SDL(Linux)等。

本系统可以支持的视频编解码标准包括H264、H263、theora、mp4v和x-snow等。本系统可支持的音频编解码标准细节如表1。

RTP协议(Real-time Transport Protocol)提供具有实时特征的、端到端的数据传送服务,可用来传送声音和运动图像数据。在这项数据传送服务中包含了装载数据的标识符、序列计数、时戳和传送监视。通常RTP的协议元是用UDP协议元来装载的,并利用UDP的复用和校验和来实现RTP的复用。RTP包括两个关系十分密切的子协议:实时传输协议(RTP),用于传输实时数据;实时控制协议(RTCP),用于监视网络的服务质量[2]。RTP包协议格式如图2所示。

图2 RTP协议格式

语音组播基于组播成员管理协议IGMP(Internet Group Management Protocol)。IGMP协议作用在主机和与主机直接相连的组播路由器之中,主机使用IGMP协议通知本地边缘组播路由器,告知其想加入的组播组,组播路由器通过IGMP协议来维护组播组成员列表,并定期发送询问信息询问组播成员是否在线[3]。

图3 IGMPv2协议格式

2 模块实现

图4 系统软件模块结构图

本系统软件模块结构图如图4所示。oRTP库主要实现RTP协议栈,尊从开源LGPL许可证。ffmpeg是一个开源免费跨平台的视频和音频流解决方案,属于自由软件,依据你选择的组件尊从开源LGPL(GNU Library General Public License)或开源GPL(GNU General Public License)许可证。speex是一套主要针对语音的开源免费,无专利保护的音频压缩格式库。mediastreamer2库主要负责音视频编解码、采集、播放和回音消除,尊从开源GPL许可证。

msx264库是一个H264视频编码器插件,尊从开源GPL许可证。msilbc库是iLBC语音编解码器插件,尊从开源GPL许可证。msbcg729是Sipro实验室开发的基于G729A标准的专利语音编解码器插件。msamr库是AMR窄带专利语音编解码器插件。mssilk库是软电话Skype专用的专利语音编解码器插件。mediastreamer2可以以插件的形式扩展msx264、msilbc、msbcg729、msamr和mssilk。笔者主要开发了图4中上层API调用部分。

3 应用效果

为了验证通信效果,笔者搭建了3台笔记本电脑组成的演示系统,分别安装Windows XP、Windows 7和ubuntu Linux操作系统,笔记本之间通过WiFi互联,演示系统没有中心服务器,每个笔记本的地位是平等的,任何一台笔记本关机不会影响其他笔记本的正常音视频通信,如图5所示。

图5 演示系统结构图

任意2台笔记本之间可以进行点到点音视频通信,在采用H264视频编解码标准的情况下,限制视频通信占用带宽上限100kbps,PC1和PC2之间的视频通信效果如图6所示,视频分辨率352×288。左侧大窗口是PC2传给PC1的视频,右下方的小窗口是PC1本地摄像头采集的视频。右侧大窗口是PC1传给PC2的视频,右下方的小窗口是PC2本地摄像头采集的视频。

图6 视频通信效果图

如图6,在限制msx264编码器码率100kbps条件下,PC1和PC2之间的视频通信效果比较清晰。

3台笔记本可以实现点到点或者组播(1发2收)语音通信,音质清晰。算上IP/UDP头等协议栈开销,iLBC占用带宽约30kbps,speex占用带宽约18kbps,宽带speex占用带宽约26kbps。

4 结束语

本系统是一套完整的音视频通信解决方案,扩展性好,通用性强,可跨平台移植,架设简单,抗毁性强,可以在较低带宽条件下进行清晰、实时的点到点/组播音视频通信。

参考文献:

[1]Comparison of audio formats[EB/OL].http:///wiki/Comparison_of_audio_formats.

[2]Zourzouvillys,T.Rescorla,E.An Introduction to Standards-Based VoIP:SIP,RTP,and rnet Computing,IEEE Journal gazines, lume:14,Issue:2,Publication Year:2010,Page(s):69-73.

[3]Tian Yonghui;Hu,R.A Resolution for IGMP V3 Protocol Using Finite State Machine.2012 International Conference on Computer Science and Electronics Engineering(ICCSEE).IEEE Conference Publications.Volume:2,Publication Year:2012,Page(s):517-520.

篇(3)

分系统设计方案

1单兵图传设备

单兵无线图像传输模块的功能是:实现3km范围内无线视频通信。所采用的关键技术是编码正交频分复用(COFDM)技术和TDD时分双工技术。基于COFDM的单兵无线图像传输模块由两个部分组成:单兵发射机和中心接收模块。单兵发射机设备可以实现现场视频数据的单向采集和发送,以及双向语音通信;中心接收模块接收视频信号并进行解码和播放,同时支持和单兵的双向语音通信,图2是其原理框图。

2应急指挥箱

应急指挥箱系统基于3G通信及IP软交换通信技术和DSP信号处理技术,能支持1至3公里范围内无线单兵音视频传输、EVDO/WCDMA等3G音视频通讯[2-3],支持CDMA手机、GSM手机、2路电台/对讲机等语音信号接入,网络状况自检测及视频编码率自动调整,1路音视频输入,支持视频抓拍、录像、点播及3G视频会议[4]功能。设计原理框图如图3所示。

3IP互联互通设备

IP互联互通设备是基于先进的IP软交换通信技术和DSP信号处理技术研制开发的新一代智能IP互联互通调度通信系统[5]。其主要功能如下:1)具备多网交换功能,可在有线电话系统、短波通信系统、超短波常规通信系统、GSM移动电话通信系统、CDMA移动电话通信系统、卫星电话、模拟或数字集群等不同系统间进行话音通信。2)具备座席调度功能,即多个通过不同通信手段呼入时,控制台可进行调度把呼叫分配给不同的座席。3)具备超强的业务功能,支持有无线通话自动或人工转接两种方式、一号通、语音短消息自动、录音、监听、强插、强拆、跨网多方会议等功能。

技术特点

1基于TDD双工模式的多点自组网技术

指挥箱和单兵之间可以通过时分双工(TDD)的模式实现多点同时接入,也可以实现多跳中继。系统采用时分多址(TDMA)方式和时分双工(TDD[6])方式。TDMA时分多址是把时间分割成周期性的帧,每一个帧再分割成若干个时隙。单兵给指挥箱发送信号时,在满足定时和同步的条件下,指挥箱可以分别在各时隙中接收到各个单兵的信号而不混扰。同时,指挥箱发向多个单兵的信号都按顺序安排在规定的时隙中传输,各单兵只要在指定的时隙内接收,就能在合路的信号中把发给它的信号区分并接收下来。TDD双工方式的上下行链路信道都采用相同的频率,上下行信道占用不同的时隙,利用时间转换开关的转换实现上下行双向通信,通过时间转换开关的灵活设置,可以较好的支持上下行不对称业务。基于TDD[7]双工的组网形式可以根据现场情况不同分为两种形式,一种方法如图4所示,是以指挥箱为中心,实现周围多点覆盖,多个前端图像数据采集点信息同时接入指挥箱;另一种方法是如图5所示,以某一个或两个点为中继,通过多跳传输,实现远距离覆盖。

2多种语音网络互联技术

语音通信是系统不可或缺的一部分,作为语音通信的核心技术-多种语音网络互联技术是项目攻克的又一难关。多种语音网络互联技术[8]的功能是实现集群、电台、对讲机、手机、固定电话、网络电话等多种语音通信网络的互连互通,本系统充分考虑不同制式的通信方式的接口定义,做到接口统一,实现较好的语音质量。其设计原理是采集对讲机、集群、手机等通信终端的模拟信号,采样后转换成数字信号,进一步打包成网络数据包,在IP层上实现各种语音网络的互连互通。和Voip网关比较,异种语音互连通信模块增加了对无线电台和GSM/CDMA的支持。需要注意的是,在实际应用中,对讲机/电台的种类较多,其通话的语音大小差别较大,因此如何兼容不同功率的输入终端是研究的难点。异种语音互连通信模块的结构框图如图6所示。

篇(4)

关键词:音视频信号;同步技术

中图分类号:TN919.8文献标识码:A文章编号:1007-9599 (2012) 06-0000-02

进入21世纪以后,计算机网络技术以及宽带通信技术得到了飞速发展,同时它也为多媒体通信技术的发展奠定了基础。就目前而言,多媒体在不同领域都得到了广泛的应用,例如视频会议、远程教学、视频电话以及远程低码率媒体协同工作等等。而媒体间的同步技术就是支持这些多媒体能够正常应用的一个关键技术。如果要实现音频和视频的同步,就需要使音视频信号的同步采集、压缩、传输以及同步播放等问题得到很好地需要解决,而解决这些问题的最终目的就是实现客户端的图像和声音的同步播放。

一、音视频系统中的同步技术的概念

对于音视频系统的同步技术,是指具有两种或者两种以上的多媒体事件按照一定的时间顺序关系进行播放,同时也可以用来实现多个媒体事件在时间域中的播放机制或过程的协调工作。采用同步技术可以控制并协调两种或者两种以上的媒体事件,在其同步播放的过程中其内在本质或由指定所决定的进展和联系。

我们如果按照时间关系来对同步进行划分的话,可将同步划分为三类:媒体流之间的同步、媒体流内的同步以及媒体对象之间的同步。这三类同步是组成多媒体同步的三个主要层次,并且媒体流内的同步是在同一个时间相关媒体流内而进行的。我们可以发现,由于文字、图像等与时间无关的媒体,并不存在这种所谓的同步问题。

二、应用音视频信号同步技术的重要性

目前,由于许多时间相关性数据类型被引入多媒体系统,在建立过程中这些多媒体数据的时间相关性往往被隐含,特别是对于活动视频的图像序列,很多情况下都是由用户自己定义的。在多媒体系统中就必须体现时间相关性必须体现,此外由于存储、通信和计算会导致系统延迟,在数据演示过程中也是必须克服的。对于以上的这些特定要求,都迫使我们引进先进的同步技术来加以解决。

三、MPEG音视频同步压缩方法

(一)MPEG的标准

目前,MPEG标准主要可分为五个,分别为MPEG-1、MPEG-2、MPEG-4、MPEG-7以及MPEG-21等。我们常常说的MPEG标准的视频压缩编码技术,它是利用了具有运动补偿功能的帧间压缩编码技术,从而达到了减小时间冗余度的目的;并且也利用了DCT技术,实现减小图像空间冗余度的目的;还利用了熵编码,这就使其在信息表示方面实现减小统计冗余度的目的。这些技术的运用,使其压缩性能得到很大增强。

(二)MPEG-4的优点

(1)MPEG-4的优点在于它可以在低带宽等条件设计算法,这样就使得MPEG4的压缩比更高,从而就达到了低码率的视频传输的效果。并且它可以使用公用电话线来进行连续传输视频,图像的质量也是可以保证的,这一点是其它技术做不到的。

(2)可以很大程度上节省存储空间。如果在同样的条件下,经过编码处理的图像文件就会越小,相对而言所占用的存储空间也就越小。和MPEG-1、MPEG-2相比MPEG-4算法更加优化,因而它的压缩效率更高。

(3)所传送的图像质量好。由于MPEG4的最高图像清晰度为768X576,基本上达到DVD的画面效果。此外,相对于其它的压缩技术来说,MPEG4算法上的不具有局限性,它可以保证画面中出现快速运动的人或者物体等的图像质量不会下降,从而使画面清晰度得到保证。

四、关于MPEG-4音视频的同步方案的设计与实现

(一)对音视频的同步系统的硬件进行设计

对于系统硬件的设计,该系统在pSOS实时嵌入式操作系统下运行,所用的开发语言是C语言。能够选择使用的软件包有以下几种:IADK和NDK集成应用开发包以及DVE-2开发板自带的板支持包BSP。对于DVE-2板来说,它集成了音视频采集模块等部件,并且可以把音视频信号储存在闪存里,或者可以通过以太网、PCI、RS232或者JTAG接口来对外传输,它的设计是为了满足当前数字音视频以及网络传输为核心的DSP发展需要。目前DVE-2的应用范围很广,它包括了MPEG/JPEG视频/图像的压缩、解压以及视频电话与视频会议等等。

(二)制订MPEG-4基本码流的同步方案

同步层打包,是指流在同步层中的一个基本码流被映射成一个带有时间标记的数据包序列,它是将基本的流数据进行整理在一起后,把其变成访问单元AU或者访问单元的一部分,每路同步层对应相应的一路基本流。基本码流接口就是很好地对打包信息的抽象接口进行描述,而打包信息用来在产生基本码流的实体和同步层之间的交换信息的。

我们所说的同步层打包流,是通过一种传输机制被传输的,而且该传输机制并不是在MPEG-4的标准范围之内,它仅仅只在DMIF应用接口(DAI)中被描述,而DAI可以对同步层和传输机制间对指定的信息进行交换,该种传输机制就是同步层产生的数据包的组帧。

对于SL数据包,它是这样的数据包,即同步层指定基本码流数据进行打包,然后打包成访问单元或者是把它当成访问单元的一部分的语法。对于一个音频流,一般情况下一个访问单元只对应一个音频帧;同样,对于一个视频流,一般情况下一个访问单元也只对应一个视频帧。而对于AU单元,它们的内容由于不透明性,这就意味着同步层对基本码流数据的打包是以AU单元为单位进行的,并且它是同步层中唯一需要在端到端保护的语义数据。一个SL的数据包,它是由一个数据包和一个包头有效载荷组合而成。对于包头来说,它是可以防止数据丢失的连续性提供检验的方法,并且携带有表示时间戳和相关信息的编码。对于该数据包并不包含长度信息,而长度信息会留给传输协议层加入,因为它需要采用合适的低层协议来进行组帧,不然就是不可以对其进行存储和解码的。

(三)对音视频的同步系统模块进行设计

对于模拟音频信号来说,它是通过使用音频编解码芯片来实现数字音频信号的转换,然后把转换好的信号输入PNXl300,对其进行G.722语音信号的编码。该系统并不需要在板子上同时实现编解码,而只是需要将输入的模拟音频信号通过A/D转换之后,然后把转换好的信号输入PNXl300芯片内编码成G.722的SB.ADPCM码流,该码流加上同步层的包头,就可以形成SL音频包,从而就可以实现和视频的同步。

对视频数据的采集,它是通过一个视频输入定时中断函数VI来实现的。通常我们把视频数据都储存在可以进行高速读写的SDRAM中,这样就可以大幅度地提升系统的实时响应速度,这样也就使其特别适用于实时应用的同步环境。同时,对所采集的数据要经过亚采样,这样就使得采集的数据从Yuv4:2:2格式转换成为YUV4:2:0格式,最后被转换的数据就被送到编码器进行编码。

(四)MPEG-4的音视频同步的实现

为了能够得到想要的流畅的语音以及视频信息,我们首先就应该考虑对多媒体的同步问题进行解决。在一般情况下可以把一个流媒体视频系统划分为五个主要的部分:媒体进行数据的采集、编码的压缩、网络的传输、解码以及媒体表现。为了使音视频同步达到预定的效果,就需要对各个部分采取相应的策略。

作为处在接收端的音频信号与视频信号的同步而言。就需要在收到音频、视频数据之后,把音频、视频数据分别放到语音播放缓冲区和视频播放缓冲区中,并且要定时从音频缓冲区中提取音频数据来进行播放,在视频播放的过程中,如果发现所取出的音频时间戳和视频的时间戳相当的吻合,在这种情况下就可以同时播放相应视频。由于每个人的听觉相对较视觉而言敏感,因此在固定频率声音播放时,如果出现暂时的停顿或者速率忽高忽低都使人难以接受。可知,在对于音视频进行同步处理时,音频数据就应该起到主导的作用,而视频数据就必须以音频作为参考。

五、经验总结

总而言之,随着信息化脚步的不断加快,人们对音频视频信号同步的要求也越来越强烈。而如果想实现音频和视频的同步,就需要使音视频信号的同步采集、压缩、传输以及同步播放这五个主要的部分上下工夫,来解决音视频不同步的问题。

参考文献:

[1]仪雄,余松煜,庄建敏.MPEG-2传输流中的时间信息与音视频同步[J].红外与激光工程,2000

[2]郑庆华.分布式多媒体同步中表现质量的参数计算[J].通讯学报,1999

[3]常义林,杨付正.H.323同步控制实现研究[J].通信学报,2004

篇(5)

能源行业应用需求良好扩展兼容才能满足沟通

能源机构需要跨市跨省甚至跨国沟通处理内部事务,必须具有良好的扩展性与兼容性,不仅可以无缝连接分

布在各地的不同网络,且能够与原有的视频设备实现良好的兼容。

高保真音视频才能广泛应用

能源行业会议众多,经常需要通过音视频交流来协同办公,必须拥有高保真的、品质良好的音视频效果。

传输安全可靠才能安全放心

能源行业的生产和一切业务都把安全放在首位,视频会议系统传输的一切数据也必须安全可靠。

灵活的扩展性与兼容性

不同的地理条件会导致各地的网络情况迥异,对视频会议有一定影响,但由于AVCON网络视频会议系统能适应多种网络接入方式,强大的播服务,跨越内外网,支持通过、网关、路由等各种上网方式,还具有优良的网络支持性、扩展性、互联性和兼容性。同时,AVCON网络视频会议系统能支持多种操作系统,各平台之间实现无缝连接,不需用户更改自己现有的网络,最大程度方便用户的多网络连接与跨系统平台操作。

一流的音视频效果

针对能源机构遍布全国各地、对音视频效果的特殊要求,AVCON网络视频会议系统采用国际领先的H264及自创的X264CBR、X264VBR网络视频编解码技术和G723.1AVCONWB音频多媒体压缩技术,支持TCP、UDP、AUTO方式的音视频传输。同时AVCON网络视频会议系统支持GIPS算法具有高保真的语音品质,具有回音消除、自动增益、噪音抑制、静音检测、平滑处理等功能特点,保证了音视频的清晰流畅圆润,使任何异地或是本地的会议清晰流畅。

无可比拟的安全性与稳定性

1)双重加密,保障安全

AVCON网络视频会议系统使用统一、完备的权限控制体系,保证每一个用户在系统中身份是唯一的。采用H.235加密和128位AES硬件加密技术,可以有效的隔绝来自外部网络的攻击,杜绝信息在传输过程中可能的泄漏情况。另外,双重权限认证,也能保障会议信息不被泄漏,使AVCON网络视频会议系统具有极高的安全性。

2)MCU多级集连、互联完善系统稳定

MCU支持多级集联、网络优化、集连、容错技术,当其中任一个MCU发生崩溃、断电或遭受病毒攻击等意外情况时,其它分MCU可接管已丧失功能的MCU,以保证系统的正常使用。

AVCON网络视频会议系统以其强大的应用功能,为能源行业打造了一套视讯业内性价比最佳的网络视频会议系统。AVCON网络视频会议系统全新感受的音视频效果,将使用户在应用中真实感受多维的工作空间,使协同办公如处一室、异地会议身临其境,大大提高了工作效率。

篇(6)

该系统由前端音视频采集设备、安全监控仪、3G无线传输设备、和指挥中心平台系统组成。前端音视频采集设备将现场音视频信号经过安全监控仪压缩处理后,通过3G无线传输设备回传监控指挥中心平台,监控指挥中心平台对接收到的音视频信号经解码后储存到存储服务器,相关负责人可以通过Internet网络远程监看施工现场的音视频信号,同时可以与现场作业人员实现双向语音、视频对话,便于指挥中心对现场情况的掌握和控制,并可直接指挥前方人员作业。

2 技术关键点及创新点

基于嵌入式Linux(2.6)操作系统的开发以及相关驱动程序的开发。其中涉及到视频编、解码器,通信转化器。

利用3G无线通信、语音图像编码压缩技术,实现图像、双向语音处理和无线数据传输;

系统集“视频编解码”、“语音编解码”、“无线宽带组网”、“电子技术”、“软件开发”、“环境数据收集”、“远程控制”等多种技术的综合运用;

创新点。监控仪通过3G网络无线视频终端将摄像机采集的现场操作信息、音频信号回传到应急监控中心平台。

具备无线上网的地方随时随地通过远程观看,突破距离限制。

采用3G国际标准,无论你身在何处,只要有3G移动网络覆盖的地方,皆可从指挥中心上监看实时画面。真正做到随时随地,随心所欲。录像存储回放,确保信息完整。

用户可任意选择在摄像机采集端、电脑终端和服务器端,任何一端进行录像。随时在电脑终端上调取某时间段的录像。

逐级加密,确保视频信息的安全。由于视频信息经过高效的压缩、编码、加密、解码,每个步骤操作前加入了严格的身份验证,确保用户信息的安全。可随时在电脑上,进行多画面观看。移动终端业务用户在电脑终端上,可单画面/多画面任意切换观看,最多可达16路不同画面。

采用标准H.264压缩技术,画面更清晰,图像更流畅。

支持的网络协议包括TCP/IP、DHCP、PPPOE、HTTP、DDNS等。接入的网络类型有电信、移动、联通、LAN、internet等具有固定或动态IP地址的专网或公网。

3 典型的应用前景分析

基建现场应用分析:

变电站基建施工现场安装安全自动监控仪,可视范围覆盖了整个施工现场,视频信号可通过3G通信网络实现远传。

主要实现:了解现场的施工进度、施工工序、安全措施以及施工人员工作状况等信息,便于及时发现问题,解决问题,对施工安全、质量、进度进行全面监控;及时了解施工现场情况,并且应能协助相关部门检查是否有违章作业、违规操作等行为,加强监管的力度;进出口要道是工地安全管理。

生产作业现场应用分析:

便携式安全自动监控仪将现代科技与具体的生产实践相结合,可将现场作业的视频、音频传输到集控中心、值长、安检部门等相关部门、领导。

主要实现:对工作前准备情况的监视;对人员分工情况的监视;对危险点的预控措施的监视;对作业流程的监视;对现场的远程指挥;对间隔误闯的预警提示。

线路巡检、抢修现场应用分析:

在处置电网事故时,依赖于电力应急预案,电力公司各有关单位迅速行动,按照各自职责积极进行事故抢修和联动处置。进行抢修时可利用3G无线网络实现现场图像实时回传,抢修作业车辆及现场配备EW6016便携式安全自动监控仪,应急指挥中心能够远程观测抢修现场状况、组织专家远程诊断,并及时与事故抢修现场沟通,提高抢修效率。

主要实现:实时监测应急事件的发展及处理过程;实时动态跟踪事故现场;实时显示抢修人员及预备队的部署情况;动态跟踪应急储备物资的准备情况;远程专家诊断;现场指挥;为领导决策提供依据;

4 推广应用的意义

通过建设基建远程监控系统,加强了基建工程施工现场的安全、质量和进度的管控,加强了基建工程的标准化管理,提高了基建标准化管理水平。主要体现在以下方面:⑴公司领导、基建相关部门负责人通过登录系统管理平台,可以远程查看基建现场各监测点图像,实现了远程对现场工作的监督管理;⑵基建工程现场施工过程的实时记录;⑶基建工程现场突发事件的远程指挥;⑷提高了基建工程现场的建筑材料、设备等财产的安全;⑸对施工现场作业过程中的重要环节提供事后分析依据。

篇(7)

在现有的即时通信系统中,实现音视频通信的核心组件包括音视频处理框架和即时通信协议两个部分。音视处理框架集成了音视频采集、音视频编解码、音视频分流控制、音视频数据流网络拥塞控制等技术模块,能够完成音视频数据流的采集、编码、分流等基本处理流程;即时通信协议则负责为音视频数据协商传输通道,并且在协商好的传输通道上建立对应的连接,从而为音视频数据的顺畅传输提供保障。

1即时通信协议

即时通信协议是进行即时通信必须遵循的信息规范,主要负责完成用户信息传输通道协商,客户端与服务器通信信令传输控制等任务。XMPP是主流即时通信协议之一,是基于可扩展标记语言(XML)的协议,其继承了在XML的高可扩展性,可以通过发送扩展的信息来处理用户需求。目前最常用的即时通信协议体系主要是SIP和XMPP协议体系,两者都可以完成音视频通信功能。另外,一些商业公司自行开发私有的即时通信协议实现了相对封闭的通信环境,例如QQ和MSN。XMPP协议是个总称,包括核心协议,扩展协议等。

核心协议只规定了很小、很基本的一些功能,大部分功能都是在扩展协议中规定的。实际上,XMPP协议只是作为协商协议应用,真正的P2P连接和实时通信是通过其扩展协议实现的。Jingle就是典型的扩展协议案例。Jingle[6]是Google开发的XMPP协议上的扩展,其解决了在XMPP协议体系下点对点的P2P连接问题。Jingle协议提供了多种传输方式用于数据传输,而针对多媒体数据的最为常见的模式是两种UDP传输方式。一种传输模型是RAWUDP[9],RAWUDP是在UDP协议上发送媒体数据包的传输通道模型,可以实现在同一局域网下的P2P连接,没有网络穿越功能,无法实现远程通信;另一种模型则是功能更为强大的ICE-UDP[8],ICE-UDP也是在UDP协议上发送媒体数据包,并且可以实现具有防火墙的网络穿越和ICE连接性检查,实现远程通信。ICE是标准的建立P2P连接性检查的协议,其自身不能独立工作,必需在信号通道的协调下建立连接,而XMPP协议就可以作为ICE通道协商的协议标准。

基于Jingle/XMPP协议实现的即时通信框图如图1所示。Jingle通过XMPP完成P2P通道的协商任务,同时通过Jingle协议建立P2P通道并进行连接性检查,然后建立并完成RTP会话,从而完成音视频通信。如果选择ICE-UDP通道传输模型进行RTP视频数据传输,XMPP服务器可以使用STUN[2]服务器收集用户的地址,包括NAT[3]后面的私有地址以及NAT与互联网连接的公共地址,并且以此为基础建立映射机制,完成会话参与者跟具体的网络地址间的转换和NAT穿越。

2音视频处理框架

即时通信系统中的音视频处理框架主要为用户提供一组多媒体数据处理的接口,用户可以用这些接口实现从多媒体采集卡上获得数据,进行压缩编码、格式转换、数据封包等一系列操作,从而完成多媒体的实时处理传输功能,大大简化多媒体处理的复杂性。目前具有二次开发功能的音视频处理框架包括Gstreamer,Directshow,Opencore等。其中DirectShow是微软公司在ActiveMovie和VideoforWindows基础上推出的基于COM的流媒体处理开发包。运用DirectShow可以很方便地从支持Windows驱动模型的采集卡上捕获数据,并进行相应的后期处理乃至存储到文件中。OpenCore则是手机操作系统Android的多媒体核心,OpenCore的代码非常庞大,是一个基于C++的实现,定义了全功能的操作系统移植层,各种基本的功能均被封装成类的形式,各层次之间的接口多使用继承等方式。而基于Linux平台的GStreamer则是完全开源的多媒体框架库,利用其可以构建一系列媒体处理模块,包括从简单的Ogg播放功能到复杂的音频混音和视频非线性编辑处理。Gstreamer应用非常广泛,大多数手机平台及个人电脑Linux平台均采用Gstreamer进行音视频处理开发。

2.1Gstreamer音视频处理

Gstreamer通过其模块化设计理念,更加便于构建流媒体应用程序。它将各个模块封装起来,以元件的形式提供给用户使用。用户可以利用库中原有的元件进行应用程序的编程,同样也可以编写元件,然后插入到库中,以便日后调用时使用。如果只利用库中的元件来实现特定功能,只需要采用模块化的方式编写应用程序[4]。Gstreamer实现局域网内简单多媒体音视频传输发送端的框图如图2所示。对于视频数据流,Gstreamer在发送端将摄像头(v4l2src1)采集的数据依次经过色度空间转换(ffmpegcsp1)、H263视频编码(ffenc_h263p1)、RTP[1]载荷头添加(rtph263ppay1),在gstrtpbin中实现实时传输协议(RTP)和实时传输控制协议(RTCP)数据包整合,并添加发送报告的背景时钟时间戳,便于在接受端进行音视频同步播放,然后发到UDP端口(udpsink)。在接收端,从UDP端口截获的数据依次经过RTP和RTCP数据包解析、RTP载荷头解码、H263解码器解码视频数据、色度空间转换,最后经过视频显示插件显示到窗口中。其中gstrtpbin是进行RTP会话管理的核心组件,可以完成RTP数据包传输控制、RTCP数据包生成、冲突检测、音视频分流等任务。

2.2Farsight视频会议框架

通过Gstreamer开发库中的基础元件可以完成音视频处理的功能,并且可以进行简单的局域网内视频通信。但是,在视频会议等复杂应用中经常包含多个多媒体会话,而且多媒体会话之间的协调非常复杂,需要通过更为高层的处理框架来实现会话管理的功能。Farsight是以Gstreamer为基础开发的视频会议框架,它能够提供一套完整的为多媒体流协议编写插件的应用程序接口,同时还为用户提供API调用这些插件。即时通信应用程序可以使用Farsight进行音视频会议,而无须担心底层的数据流和NAT穿越的问题。因为Farsight[5]是以Gstre-amer为基础进行开发,所以开发新的元件能够和已有的Gstreamer元件整合,实现完成视频会议功能的多媒体框架。Farsight可以包含多路音视频会话流,包含多个会话参与者,具有强大的音视频会话管理功能。它通过模块化设计为许多即时通信软件提供音视频会议的服务,大大扩展了多媒体处理的功能,并且可以实现更为强大的视频会议功能。目前很多即时通信客户端软件都采用Farsight完成音视频通信。本文以Gstreamer/Farsight音视频处理框架为重点,详述其内部结构及功能实现。

Farsight中包括4个核心概念:会议(Conference)、会话(Session)、参与者(Participant)、流(Stream)。会话参与者是指多媒体数据源,可以是音频或视频等;会话则代表一路音频或视频会话,通常有一个媒体类型和一个输出端;会议则代表一个多媒体会议,可以包含多路会话,并且完成多路会话的协调管理;当参与者加入到会话中,就将多媒体数据引入会话中,使得数据能够流动,从而构成数据流。另外,Farsight实现了网络层的抽象,即将网络抽象为一个发射器对象,当数据流被创建时就会建立发射器对象,然后通过设置发射器参数确定发送的目的地址。实际上,Farsight并没有参与多媒体数据的采集和打包工作,它只是为多媒体数据流传输到网络端进行发送提供了一个通道,并且对通道进行协调管理,保证不同的会话参与者与其特定的数据流绑定以防止收发混淆。

Farsight实现RTP视频会议的结构如图3所示,其中FsRTPConference是Farsight框架下的一种插件,主要的RTP会话管理功能都在这个组件中实现。FsRTPConference中可以同时存在多路FsSession,每一路FsSession因参与者或音媒体源的不同代表不同的多媒体会话。编解码器在双方建立连接前无法确定,只有当通信双方的客户端协商之后,才会根据具体的编解码器名字调用并进行插件的连接。

Farsight通过将gstrtpbin封装到FsRTPConference中,添加一些其他的必要组件,实现RTP会话。RTP管理器主要由gstrtpbin负责完成RTP会话管理的操作。在发送端,视频源和音频源通过Sink接入到会话中,编解码器协商成功后,将编码器与数据源和过滤元件连接,然后通过RTP混合器将音视频数据发送到RTP管理器中,完成RTCP数据包的生成以及RTP会话的管理。最后,经过数据发射器将数据发送到相应的数据通道中。在接收端,数据流同样要经过类似的信息解码过程得到音视频数据。在发送端,数据发射器在Farsight中通常有多种插件选择,例如多播UDP插件、Libnice插件等,目的是为了实现底层数据传输的连接性检查。Libnice是实现了ICE和STUN协议规范的软件库,开发者以此为基础完成nice插件,可以实现基于ICE的数据发送。但是Libnice中只定义了如何在P2P连接确立后进行连接性检查,以及如何在确定的P2P连接上进行数据传输的网络穿越,并没有定义如何进行P2P连接,即P2P通道的协商任务。Jingle协议规范则定义了P2P通道建立连接及通道协商的任务。目前,Jin-gle协议已经在Libpurple(多协议会话开发库)中实现。

3即时通信系统中音视频通信的实现

为了开发的便捷,Pidgin软件的开发者将负责通信部分与图形用户界面部分分开,分离出来的核心代码构成即时通信客户端开发的核心部分,被称为Libpurple。这个程序库已被Adium与Proteus这些客户端使用。完成分离后,开发者将有可能以各自的图形程序库编写自己的客户端接口。在Libpurple中,为实现多媒体通信,开发者将基于Farsight的多媒体处理框架进行继承和封装,实现即时通信协议,并提供接口供用户使用,用户可利用应用程序接口编写程序实现网络层的连接。使用者可以使用Libpur-ple直接编写即时通信程序的核心代码,并构建应用程序。

同时,Libpurple实现了许多即时通信协议的通信,例如MSN,XMPP,AIM等协议,同时完成了媒体后端流处理与相应即时通信协议的协同工作。Libpurple在Farsight的基础上进行开发,实现了一套具备自身特点的流媒体模式。通过对Lipurple库的理解分析[10],得到了Libpurple实现音视频数据流控制及会话管理的方法,如图4所示。图4中Src是音视频数据源,传输到FsSession进行音视频流整合、RTCP包生成、数据流管理等操作。Vol-ume和level则分别表示音频的音量与消息控制插件。Libpurple采用FsSession做会话管理,并在FsSession的基础上添加Gstreamer基础元件进行控制,完成自己需要的功能。FsSession通过选择不同的连接通道,将音视频数据流通过发送器进行发送。

Libpurple中实现了Jingle协议进行RTP通信的规范,并提供两种数据通道,RAWUDP和ICE-UDP供用户使用。在进行具体RTP视频通信时,程序根据不同情况选择不同的通道使用。图4选择RAWUDP作为数据发送通道,用户也可以选择其他通道进行数据发送。为了与Jingle协议合作完成音视频通信,Libpurple建立了一个组件对象purplemedia,这个对象在Farsight组件中提取相关的参数信息,例如编解码器信息、发送目的地址等,并传递给Jingle协议,便于Jingle协议进行通道协商。当有新的即时通信协议需要利用Farsight完成视频通信时,开发者往往需要以Libpurple为基础进行开发,完成即时通信协议在Libpurple上的移植,以实现视频通信。在众多采用Libpurple库开发的即时通信软件客户端中,Pidgin是最成功的,也是少数几个可以实现音视频通信的案例。Pidgin是一款支持多协议客户端的图形化即时通信应用程序,它可以使用AIM,Jabber,MSN,Yahoo等即时通信软件的帐号进行登录。并采用Libpurple作为开发库,利用图形开发工具包编写用户界面及各种事件提醒和任务管理,从而实现在多种即时通信协议基础上的音视频通信。