先说个笑话:如果你听着吹哨声就能“看见”球,没错——这不是魔法,只是技术的玩笑和现实的结合。
如今信息化浪潮正让我们惊讶:你可能在家里睡觉,突然听到“啦啦啦”,这可不是小狗叫,而是满场的欢呼声、射门的尖叫,甚至是裁判的哨声。YouTube、B站、虎牙等流媒体平台,都支持为盲人开启“语音描述”功能。所谓语音描述,就是在视频播放时插入专业旁白,详细阐述画面中的动作、位置、时间流逝,让听觉成为新的“视觉”。
说到语音描述,最火的就要数“Google Live Transcribe”。它配合“Narrative” AI 的场景识别,能在慢慢辨认球员、球队、比分的同时,给盲人实时的“字画”。想象一下,足球场上出现一名闪电般的前锋,他以极高的速度冲刺,旁白立即解释:“对手右边墙面,……啊!(字幕)”(翻译成声音)这可不是随便口播,而是算法抓取语言模型,解读事件并以自然语气讲述的“看见”之道。
我们再切到手机端的工作。iOS 的拍摄功能自从“Visual Recognition”升级后,连手机的后摄都能马上给你“文字漫游”。按住拍摄,美颜弹出“没遮住球进好了”,而且它还能把“球从左向右跑过后叶子”转化为一段充满动感的音频。据说苹果在开发“Vision API”时,就把盲人看球的需求列进优先级。简直就是把你听到的声波打上了高分辨率地图。
如果你在想“那不是在玩游戏?”你可别小看。算是现实版《球星模拟》——球场是“无形的大片”,而你手里的遥控器其实是“思维 DSP”。吱呀,球员站上前,球门变得更像你的耳钉,所有动作都被变成手机音效‘嘭’和‘嘎嘎’,让你一边跟着节奏,一边从根本上感受球迷体验。这大概是某云端服务商“声轨库”在做的事情,用千种声效来谱写足球节拍。
从硬件层面,盲人可以用的是“无线音频接收器”。比方说,训练场的运动员可以把自己的相机和麦克风连到蓝牙耳机,让监控摄像头通过云端实时传输音频到盲人耳机。隐形摄像机会在球门附近发出“嗡嗡”声,旁边的跑动形成“咚咚”节拍。此技术已经在纽约某体育俱乐部试用,产生的效果让盲人几乎“雨打风吹”也能感受场上气氛。俱乐部还给会员发了一条微信小程序:每一秒钟都有对应的“高忠实度”语音文字,你等不等,先听先看。
还有“伴随语音导航”。当“盲人子女”在观看集锦时,系统会把关键字推流到“导航提示”。说出来,不就是一句关键信息吗?比如,“领球改进曲线”,或者“随声走锦标赛”。球场地图
布洛克是减重打UFC的嘛?布洛克·莱斯纳参加WWE联盟是...
本届世界杯所带来的经济效益1、本届世界杯,即便不算票务收...
曝齐达内执教巴黎首个条件是签C罗,他为何会有这样的条件?...
今天阿莫来给大家分享一些关于河北省柔道冠军徐志鹏2008年奥运中国冠...
今天阿莫来给大家分享一些关于国家羽毛球女队总教练国家羽毛球女队主教练...