欢迎来到CL境外营销平台,平台经营Instagram、Facebook、YouTube、TIKTOK、Twitter粉丝、点赞、播放量服务、客服微信:coolfensi 24小时在线欢迎咨询购买!
公告:
欢迎来到CL境外营销平台,平台经营Instagram、Facebook、YouTube、TIKTOK、Twitter粉丝、点赞、播放量服务、客服微信:coolfensi 24小时在线欢迎咨询购买!

youtube涨粉丝 --youtube资讯

首页 YouTube   作者:coolfensi  2022年12月12日  热度:37  评论:0     
时间:2022-12-12 19:42   热度:37° 

(原标题:Youtube自动字幕系统已能识别环境音,但国内还在依靠字幕组)

本文作者:叨叨

在国内,下载好电影后,再去字幕网站搜索外挂字幕,已经是影迷们的固有动作。这种习惯的养成,归功于近10年来逐渐形成的野生网络字幕组,用业余时间为影迷们贡献了大量、快速的免费字幕。

相比国内的野生字幕组,谷歌的技术宅们在2009年为Youtube上线了一个自动字幕系统(Automatic Captioning System),借助人工智能技术,在视频里实时生成字幕。时隔7年后,YouTube宣布已经有10亿多条视频采用了该系统生成的字幕,而全球日活跃用户也达1500万。

Google给定的视频中,可以在设置中选择开启自动字幕,之后视频下方会随着视频中的人声,逐个显示对应字幕。另外,在字幕开启菜单中,也有自动翻译的选项,包括中文繁体、简体在内的上百种语言均可翻译。

此外,雷锋网(公众号:雷锋网)3月23日还报道过,由Accessibility、Sound Understanding和YouTube三个团队共同完成了,通过深度神经网络(DNN)模型,在自动字幕增加音效信息的技术,进一步提升了观众的看片体验。

而Youtube的自动字幕系统,在很大程度上实现了视频观看的无障碍,尤其是听不到声音的聋人,也能通过自动生成的字幕进行高质量的视频信息获取。

Google Sound Understanding团队,此前曾负责AudioSet数据集,致力于教学机器,通过建立状态机器学习模型,生成大规模的音频事件数据集,并定义声音之间存在的层次关系,来准确地感知音频。

目前,国内主流视频网站均未推出过自动字幕系统,不过在坊间流传着一个能够自动生成字幕的软件——Autosub,最初该软件只帮助字幕组成员自动对轴,后来的更新版本调用了谷歌的API,支持自动生成字幕,不过效果不佳,此后鲜有更新。

雷锋网还了解到,2011年《电子学报》的一篇论文称,以《新闻联播》为语料进行训练,实现了音频提取、音频分类与切分、说话人识别、大词汇量连续语音识别、视频文件播放、文本字幕自动生成等功能,从而实现全自动中文新闻字幕生成。但此论文中并未提及是否可以做到实时。

这项技术的难点在于,一方面一条视频中的声音有很多,包括对白和混合在一起非常复杂的环境声,要辨别哪个声音是我们想要的,并把几个同时产生的声音区分开来相当不易;另一方面视频实时字幕生成,需要在极短的时间内做出反馈,对于计算速度考验巨大。

针对分辨声音而言,搜狗CEO王小川就表示过,目前语音识别已经有了较高的准确度,接近实用,但还有很多的限制。比如需要安静的环境,当有噪音的时候同时有两个人说话机器就搞不定了。搜狗的做法是预先录制,比如在汽车环境里面,预先录制发动机引擎的声音,把没有见过的环境变成机器能够见过的环境,就能够做识别。针对计算速度而言,则需要依靠硬件和算法的进步。

现在能实现的程度,需要归功于过去几年间,DNN技术、Residual/Highway 网络技术和粗粒度建模单元技术的进展。但环境音非常复杂,想要把所有的独立声音预先录下来,是一项巨大的工程。即便是谷歌自动字幕系统的研究人员们,也只是选取了鼓掌、音乐、笑声三种语义清楚的背景声。

视频之外,在语音转文字这项技术上,国内外企业多有涉及。比如微软帮助聋人通话实时将语音转换为文字的RogerVoice,比如百度新近推出的SwiftScribe、再如国内企业科大讯飞等,还有各类录音、速记应用程序,都能够不同程度的支持语音转文字的技术。一般来说环境越安静,识别的准确率越高。

科大讯飞相关人士向雷锋网表示,视频字幕需求分为两类,一类为已录制视频的字幕配置,另一类为直播视频的字幕配置,科大讯飞的识别技术均可实现上述两类字幕需求。

目前讯飞开放平台已对外提供第一种已录制视频字幕配置需求的"语音转写"产品,准确率可达95%,而对于第二种直播视频的字幕配置产品将在今年年中对外提供。