专栏文章

AI ProCon圆满落幕——计算机视觉技术专题报告内容介绍

夜落星起 2019-09-13

2019 年 9 月 7 日，由新一代人工智能产业技术创新战略联盟（AITISA）指导，鹏城实验室、北京智源人工智能研究院支持，专业中文IT技术社区 CSDN 主办的 2019 中国 AI 开发者大会（AI ProCon 2019）迎来了重头戏，机器学习、自然语言处理、计算机视觉、AI+DevOps 和AI+小程序五大技术专场先后开讲，近 40 位行业专家和技术专家带来了精彩分享。如下为计算机视觉方向的专题介绍。

快手硅谷实验室负责人王华彦以《端上视觉技术的极致效率及其短视频应用实践》为题做了演讲。

王华彦表示，端上视觉短视频的应用场景带来的技术挑战有三方面：

第一是不可控的复杂场景和环境；
第二是极为有限的移动设备计算资源；
第三是由于所有应用都是时效性很强的。

为了解决这些挑战，快手的解决方案和研究方向有四个要素：

第一是运用高度结构化的模型和充分利用先验知识；
第二是面对计算资源的紧缺，需要充分发掘各种冗余来提高算法的推理效率；
第三是用高度结构化的信息表示提高学习算法利用数据的效率;
第四是快速开发和部署的需要。

在他看来，如果希望像人一样高效地从很少的数据或者虚拟的数据中学习，就需要有分解的本事，把视觉信息分解为形状轮廓信息和颜色纹理的信息，才能在不同样本中有效建立联系，从而提高学习的效率。

百度视觉技术部主任架构师、视频基础技术团队技术负责人文石磊为现场观众介绍了互联网视频基础技术探索和应用。基于百度丰富的视频应用场景，什么样的技术来支撑应用？文石磊解释，与互联网视频相关的技术分为视频理解、视频编辑、算力优化。视频理解分三个内容，第一是视频分类/检测/摘要/垂类，第二是做多模态融合和知识图谱，我们看到视频内容不仅有图像还有语音、标题，这些不同的信息资源该怎么融合，基于视频得到的标签如何结合构建好的知识图谱都是热门内容。

商汤科技研究总监石建萍则以《视觉感知驱动的量产自动驾驶》为题主要介绍了商汤在智能驾驶上的主要方向，第一是非常重要的ADAS驾驶辅助系统的量产方向，以模块级别装到汽车上，要达到精确识别检测，预警及时且准确率高，车规级标准，灵活易部署；第二是做自动驾驶的研发，以计算机视觉为主、多传感器融合的自动驾驶解决方案。第三是基础技术，包括大数据、自研深度学习系统、自研FPGA计算平台。

图森未来合伙人&首席科学家王乃岩分享了图森未来无人驾驶技术实践。

为什么图森未来会选择卡车货运的场景？王乃岩解释称，一个最重要的原因是商业场景是成立的，对于出租车来说场景很复杂，至少是一个城市的级别，对于干线运输来说需求非常简单，在一条道路上从A点到B点不会有多样化的需求，简化的需求恰恰是AI落地非常重要的因素，卡车货运会是自动驾驶行业尤其高级别自动驾驶行业中最希望率先落地的场景。

图森未来把无人车系统分为四部分，感知、定位、路径规划、车辆控制。感知过程中，要做的是融合不同传感器完成感知车辆周围环境和状态，为后面的决策规划输出合适表示。在定位阶段，不同于拿出手机做导航的定位，他们在无人车做的定位是遥感车辆相对道路的基准。再往下的模块是路径规划，首先是融合前面两个模块输出做出下一步行驶决策，然后根据这样的决策会生出一条车辆可知性的最优轨迹。最后一部分是车辆控制，执行规划计划的轨迹，输出车辆控制量。

旷视研究院主任研究员、基础模型组负责人张祥雨分享了高效轻量级深度模型的研究与实践。

他提到了六点高效模型设计的基本思路，旷视会使用这六种甚至更多的方案综合进行模型的设计。

在他看来，目前在轻量级模型设计这个领域基于模型搜索的方法已经成为了目前的主流，也是最重要的研究方向。在实践中会发现模型搜索对设备适配尤其是寻找对于具体设备上运行时间最快、功耗最少的模型，相对于人工有非常大的优势，但是也有很多问题，搜索空间现在还是依靠人工设计，搜索空间的设计非常依赖经验，并且没有好的指导原则，这是未来的研究方向和难点。

华为云OCR人工智能高级算法工程师王晶讲述了文字识别服务的技术实践、底层框架及应用场景。

他认为，不只是OCR产品，而是所有人工智能产品或其他产品都需要走这样的路。第一条路是要持续突破新场景，要识别分子式，希望把证件类和票据类的APR归一，很多公司都希望用一个模型包打天下，省时省力。其次是推理和训练速度要持续优化，因为训练速度的提高意味着产品更快的迭代，而推理速度的提高意味着成本更可控。

Google研发产品经理杨民光分享了Google的开源跨平台多媒体机器学习模型应用框架MediaPipe。MediaPipe是一个针对机器学习工程师和研发人员的多媒体机器学习落地框架，用来帮助建立感知流水线。这个框架从2012年就开始研发，在谷歌内部用来做视频和音频方面的落地场景，比如YouTube每分钟上传两三千个小时的视频，Google要用机器模型看这个视频是否有黄色和暴力，处理视频的正是MediaPipe。

全部专题链接

https://blog.csdn.net/weixin_42232219/article/details/100644707

# aiprocon # csdn # 快手 # 百度 # 商汤科技 # 长文章

版权归作者所有，转载请注明出处

夜落星起关注

热度 6

LOFTER-网易轻博