top of page

小物件都会偷听你说话

当你打算说出心底最深藏的秘密时,要小心身边有没有绿色植物或薯片包,看似安静的它们,很可能会透露你的秘密。

美国麻省理工学院(MIT)、微软和Adobe的研究人员共同开发一种新的技术,可以通过分析视频中物体的极小振动,来重新组成音频信号。在一项实验中,他们成功利用一段在4.6米外隔音玻璃后面拍摄的薯片包装振动录像,还原出可以辨认的人的声音。研究人员使用的技术是一种用于分析微小振动的视频处理算法,可以将很小的振动放大,如同显微镜一样。

在另一个实验中,研究人员用扬声器对一株盆栽植物发出“玛莉有一只小羊羔”的语音,用高速摄像机拍摄无声录像,再利用处理算法进行分析,从肉眼看不到的微小振动中提取音频信号,并还原声音。在其他实验中,他们还成功地从铝箔、一杯水的水面振动的录像中,还原出音频信号。

据美国有线新闻网(CNN)报导,参与此项目、来自微软的迈克尔•鲁宾斯坦(Michael Rubinstein)说:“起初,我们不能肯定这是可能的,因为这些震动是如此微小,所以我们采用了扬声器,并用声音让一些物体振动,用高速摄像机拍摄这些物体。我们很快发现,视频中存在音频信号,可以用技术把它提取出来。”

他说:“我们和这些物件说话,或对它们大声喊叫好多次,这是很有趣的实验。”

研究论文将在今年国际图形学年会(Siggraph)上发布。据MIT新闻报导,论文第一作者、MIT电气工程和计算机科学研究生艾比•戴维斯(Abe Davis)介绍:“当声波接触到物体时,会引起物体的振动。这种振动是一个十分不明显的视觉信号,肉眼一般是看不到的。”

这项技术也有局限性,从视频中重构音频信息要求视频每秒的帧数要高于音频信号的频率,每秒的帧数高,还原的音频质量就好。

在一些实验中,研究者使用了高速摄像机,每秒可以捕捉2,000到6,000帧图像,大大快于智能手机每秒60帧的速度,但离最好的商业高速摄像机每秒100,000帧的速度还相距甚远。

在另一些实验中,研究者们仅使用普通数码相机。虽然这样重构出来的音频不如利用高速摄像机还原的音频保真度高,但已经足矣辨别出讲话者的性别和人数,如果能配合足够精确的讲话者声学特性,人们甚至可以辨别出说话者的身份。

并不是每一种物体对细微声音敏感。鲁宾斯坦表示,最成功的视觉窃听物品是那些轻便、硬质的物体,如塑料袋、泡沫杯、锡纸,水和植物,但像砖头等重物就很难达到效果。

运用在侦破领域现实版好莱坞惊悚片

这项技术目前处于概念阶段,但人们可以想到它的应用前景。侦探们可以利用摄像机替代窃听器和扩音器。

除了犯罪领域,鲁宾斯坦表示,也许我们可以通过音乐厅或录音室视频,检测它们的声学系统;我们也可以通过太空望远镜,在声波无法传递的空间,还原太空中的声音。

戴维斯则更关心该技术是否可能成为一种“新的成像方式”。他说:“从物体上还原声音,这一过程不仅为我们提供大量关于物体周围的声音信息,也提供很多物体本身的信息,因为不同物体对声波会有不同反应。”

在未来的实验中,研究者已经开始尝试利用短脉冲声波来判断物体材料和结构特点。

加州大学伯克利分校电气工程与计算机科学教授阿莱克西•艾弗罗斯(Alexei Efros)表示,这项研究让人耳目一新。他说:“作为科学家,有时我们也看电影,如007这类影片,会认为这些只是好莱坞的戏剧效果,太不现实。但是,真就有人做到这种不可思议的事。这个研究结果就像好莱坞惊悚片,看到监控录像资料里有包薯片在振动,然后就看到凶手已经承认自己有罪。”

艾弗罗斯也认为,利用这一技术来分析材料特性是卓越有效的应用,他补充说:“肯定还有令人意想不到的应用。很高兴能看到这种富有创造性的研究。”

鲁宾斯坦表示,目前还无需担心这项技术对人们隐私的潜在风险。


Featured Posts
Check back soon
Once posts are published, you’ll see them here.
Recent Posts
Archive
Search By Tags
No tags yet.
Follow Us
  • Facebook Basic Square
  • Twitter Basic Square
  • Google+ Basic Square
bottom of page