狗狗视角看世界,用视觉数据预测狗的行为

对该论文的详细解读。


传统的计算机视觉研究专注于分类、识别、检测及分割等子任务;当去解决一般的计算机视觉问题时,研究人员一般会将这些功能进行有机的组合。但这种研究方法所得出的结果一直与期望结果有较大的差距。本文的作者受近期「行为和交互在视觉理解中作用」研究工作的启发,他们将视觉智能(visual

intelligence)问题定义为:在这种定义下,作者认为要像一个视觉智能体在视觉世界中那样去学习。作为该项研究的切入口,他们选择一只狗作为视觉代理。相比于人类,狗有一个简单的行为空间,这使任务能更容易地处理;而另一方面,它们能够清楚地表现出视觉智能,识别食物、障碍物、其他人类和动物,并对这些输入作出反应。

在实验中,Kiana

Ehsani团队通过狗的自我视角录制的视频数据,加上将传感器安装在狗的关节处收集来的动作数据,构建了数据集DECADE(Dataset of Ego-Centric Actions in a Dog

cell都会输出六个关节的运动数据。他们将此作为下一个时间片的输入,这就使得神经网络可以根据之前的状态进行调整。同时他们还将行为出现的概率这一数据也作下一时间片的输入。这会使当前时间片中的低概率行为在行动序列中进一步导致高概率行为,这样就可以保证未来行为的多样性。将在ImageNet上训练的网络结果与在DECADE上训练的网络进行比较,评估指标为IOU。

6. 总结Kiana Ehsani团队选择直接从目标对象视角建模,他们用从狗的视角拍摄的视频来训练模型,最终的目标是让自己的模型可以预测随后的行动,可以像狗一样去规划自己的行为来完成目标。他们的工作是端到端建模的第一步,这种方法不需要手动标记的数据或拥有具体语义的数据。不仅如此,它还可以在多对象和多场景下应用去获取有价值的信息。

雷锋网认为,他们的方法还有许多有待拓展的地方。一方面是,本文实现的模型只接受视觉输入,属于CV问题,但事实上它完全可以拓展到其他领域,例如实现听觉、触觉等的输入;此外,当前模型仍只是针对一条狗的行为建模,那么是否可以拓展到多条狗的情形呢?

无论如何,采用主人公视角的数据集来训练模型,这种思想独特且有深刻意义,属于一种新颖的CV task。

雷锋网原创文章,未经授权禁止转载。详情见。

哈士奇神一样的狗,你们天天说我是智障,还不是喜欢我养我!

原创文章,作者:贝小妹,如若转载,请注明出处:https://www.beipet.com/1783.html

分享本页
返回顶部