1234
需用时 02:28
从薯片包装的振动看出你说了什么

IvyP/译)来自美国麻省理工学院、微软和Adobe的研究者开发了一种可以通过分析视频中物体的极小振动来重构出音频信号的算法。在一项实验中,他们成功地利用一段在4.6米外隔音玻璃后拍摄的薯片包装振动的录像,还原出了可以辨认的人声。在其他实验中,他们还成功地从铝箔、一杯水的水面、甚至是盆栽叶片振动的录像中还原出了音频信号。研究论文将在今年的国际图形学年会(Siggraph)上发布。论文第一作者,麻省理工学院电气工程和计算机科学研究生艾比·戴维斯(Abe Davis)介绍道:“当声波接触到物体时,会引起物体的振动。这种振动是一个十分不明显的视觉信号,肉眼一般是看不到的。”

从视频中重构音频信息要求视频每秒的帧数要高于音频信号的频率。在一些实验中,研究者使用了高速摄像机,每秒可以捕捉2000到6000帧图像。这比智能手机每秒60帧的速度快得多,不过离最好的商业高速摄像机每秒10万帧的速度还相距甚远。

在另一些实验中,研究者们仅使用了普通的数码相机。由于多数相机的传感器存在一个设计缺陷,这就使研究者可以从每秒60帧的视频中推测出高频振动的信息。虽然这样重构出来的音频不如利用高速摄像机还原的音频保真度高,但已经足矣辨别出讲话者的性别、人数,如果能配合足够精确的讲话者的声学特性,人们甚至可以辨别出说话者的身份。

实验过程和原理。视频来源:mit.edu

研究者在论文中写道,他们测量了实验中所用的物体的各项机械性能,结果显示声音引起的振动在视觉上的变化仅为大约0.1微米。这相当于特写图片中一个像素的五千分之一。不过从单个像素的色值随时间的变化,可以推测出小于一个像素的运动。例如,假设一张图在两个区域内有明显的界限,一边是红色,另一边是蓝色。但在这条界限上,相机的感应器同时接收红色和蓝色两种光,所以它会将两者平均产生紫色。如果随着逐帧变化,蓝色区域逐渐推进红色区域,即使移动小于一个像素,产生的紫色也会更偏蓝。这种颜色变化中即包含了界限移动的信息。

然而,有时图像中的某些界限会比较模糊,其宽度会超过一个像素。于是研究者们借鉴了之前一项研究中所用的技术,开发了新算法来放大视频中极小的变化,这就使他们得以观察到了极其微小的运动,比如新生儿的呼吸,或是脉搏的跳动。

显然,这一技术能够用于执法和法医学领域,然而戴维斯更关心这种技术是否有可能成为一种“新的成像方式”。他表示:“我们从物体上还原声音,这一过程不仅为我们提供了大量关于物体周围的声音的信息,同时也提供了很多物体本身的信息,因为不同的物体对声波会有不同的反应。”研究者已经开始尝试利用短脉冲声波来判断物体的材料和结构特点。

来自加州大学伯克利分校的电气工程与计算机科学教授阿莱克西·艾弗罗斯(Alexei Efros)说:“这项研究让人耳目一新。作为科学家,有时后我们看像007这种电影的时候,会认为这些只是好莱坞的戏剧效果,太不实际了。然而这次就真的有人做到了这种不可思议的事。这个研究结果真像是恐怖片里的桥段——你看到监控录像资料里有包薯片在振动,然后你就能知道杀手对他犯下的罪行供认不讳。”

艾弗罗斯也认为利用这一技术来分析材料特性会是一个十分有价值的应用,然而他补充道:“我肯定将来会有更加让人意想不到的应用。我觉得好科学的标志就是,最开始人们做的时候就是为了好玩,然后某天才发现它有意料之外的用处。我很高兴能看到这种富有创造性的研究。”(编辑:球藻怪)

文章题图:mit.edu

The End

发布于2014-08-05, 本文版权属于果壳网(guokr.com),禁止转载。如有需要,请联系果壳

举报这篇文章

Larry Hardesty

麻省理工学院新闻办公室计算机科学领域作者

pic