1音频指纹模板特征提取算法
首先将音频指纹用于音乐检索中。音频指纹是音频内容关键特征的一种压缩、紧凑的表示,音频指纹特征提取函数F将数据冗余较大的音频波形空间映射到指纹空间。音频指纹应具有鲁棒性,即使存在由于压缩算法、传输信道的差异造成的信号畸变,也可以用其在海量未知音频数据中检索音频片段。所以,音频指纹特征提取的一个重要的技术指标是当音频信号发生畸变时,音频指纹特征也应与非畸变的特征有极大的相似性。对于两段音频X,Y来说,存在一个门限值T,使得当X,Y很相似时,|F(X)-F(Y)|<T;而当X,Y不相似时,|F(X)-F(Y)|>T。特征提取流程如图1所示。
2基于音频指纹的模板匹配方法
待检索的音频数据库特征提取方法和音频模板提取方法相同,本文中搜索的粒度为3秒的音频片段,首先将检索模板按照3秒窗长划分为片段,片段移动为1.5秒,每个片段包含188帧,对每一帧提取一个32bit的指纹条,共188个指纹条。因此一个音频块由18832比特的特征构成。设音频库共有N个文件待检索,一个模板音频块的匹配过程如下:1)初始化i=0;2)若i>N,表明已经完成对整个音频库的搜索,退出;否则,对音频库中的第i个文件,进行如图xxx所示的匹配过程。设第i个文件共含有nFrmi帧,则在第i个模板中会有(nFrmi-188+1)次匹配过程。每一次的匹配程度通过BER来衡量。设BERij是在第i个模板中的第j次匹配,其中,N为模板库中的模板数。则在模板i中的最佳匹配为:3)若MinBERi<Threshold,说明找到了与检索项匹配的模板,输出结果,i=i+1,跳转到第2步。
3基于音频模板的广播电视广告检索与统计系统
广播电视广告为消费者和生产者之间架起了沟通的桥梁,但是日益增长的广告数量对虚假广告、违法广告的监管造成了很大的压力。音频模板检索可以很好的解决这一问题,首先通过建立非法广告的“黑名单”数据库,然后通过在广播电视音频数据中查询黑名单,达到自动监测非法广告播出情况的目的。此外,广告检索的另外一个应用是统计厂商的广告投放播出情况,生成广告统计报表,该数据对于公司市场决策可以起到非常重要的辅助作用。基于音频模板的广告检索统计系统可以自动的方式统计和监控广播电视中的广告内容,并节省了大量的人力成本。1)广告检索并行系统框架。广告检索系统在应用时需要处理大量乃至海量的音频数据,如一个直辖市的广播电视监测台每天就需要监测大约16个频道的节目内容,用单机单线程处理方式满足不了如此大量的数据处理需求,本文的广告检索系统是运行在并行计算系统平台下。该系统集成了稳定、高效、可扩展的集群并行计算运行环境,支持多CPU按照任务粒度并行计算。其中,广告音频模板检索程序按照通用引擎接口包装,通过计算节点调用引擎服务。调度器负责计算节点的负载均衡以及差错处理,首先从任务数据库中获取待处理的任务列表,将单个任务分发给计算节点进行广告音频检索任务的计算,当计算节点计算完成后,返回结果给调度器,由调度器进行结果的解析和入库。广告音频模板检索计算引擎的流程如下图所示,通过一个开关值区分要做的工作是模板特征提取还是模板搜索。对于待检索的广告片段,首先对其进行音频特征提取,训练成为音频模板文件。查询时将待检索的文件切分为固定长度的片段,然后与模板库中的广告利用音频指纹进行一一比对。2)人机交互界面。广告检索的人机交互界面如图5所示,系统采用J2EE技术和多层结构设计支持跨平台应用,全浏览器(B/S)模式,零客户端维护,适合各类企业应用。系统提供了友好快捷的操作界面,利用提供的快捷操作功能,操作员能够快速地确认各广告检索结果以及相应的起点和终点。功能说明如下:(1)系统支持广播、电视节目中多种媒体格式。(2)通过点击检索出的广告列表中的某个广告,系统能迅速定位到所选中的时间点并播放该媒体文件。(3)通过键盘快捷键和便捷的鼠标操作,用户可以方便的浏览审核检索出的结果,并可以手工调整自动检测出来的广告边界点,减少广告分类统计时由机器统计造成的误差。
4小结
本文讨论了基于音频指纹的音频模板检索技术,基于该技术的广播电视广告监测系统目前已经在国家广电总局监测中心和部分省市监测台得到了实际应用,从效果来看大大降低了人工检查新广告的工作量,受到了使用者的广泛好评。
作者:冉军 单位:重庆广播电视监测台
文章為用戶上傳,僅供非商業瀏覽。發布者:Lomu,轉轉請註明出處: https://www.daogebangong.com/zh-Hant/articles/detail/pve5mp054ktg.html
评论列表(196条)
测试