商品识别成AI新浪潮戴剑彬博士道出技术实情-千龙网·中国首都网

化繁为简，是科技发展的核心目的之一，在零售行业，消费和运营流程的简化、人员结构的优化，在一次次的技术变革中获得不断的突破。近几年，人工智能图像识别技术带动新零售经历了新一轮升级，其中极具科技感与未来感的人脸识别技术开始深入我们的生活。而在智慧零售的背后，图像识别的另一个分支——商品识别技术可能并不为人熟知，但却同样承载着线下零售数字化的重任。

9月3日晚，智东西公开课邀请到在商品识别领域有丰富经验的海深科技创始人、CEO戴剑彬博士，就商品识别在零售行业的应用，进行了详细讲解，并现场解答众多相关从业者在实际应用中遇到的难题。

以下为课程内容实录。

一、图像识别的应用场景，以及对零售行业的变革

1.以图搜图，拍照购物

说到图像识别，大家可能马上能想到以图搜图的方式，也就是“拍照购”。这个想法出现的很早，在零几年的时候就有很多公司开始做这方面的尝试。

美国硅谷的snaptell，他们早在零六年的时候就开始做拍照购物的应用场景，他们做的大部分是一些书籍和CD类的简单物品识别，2009年被Amazon收购。2015年Amazon收购了另一家做图像识别相关的华人公司Orbeus。到2016年后，像Google、Pinterest、Instagram，都开发了一些类似的功能。

国内，淘宝是比较早开始涉及这个领域的。2014年，淘宝自己开始研发了拍立淘的功能，而另一家电商巨头——京东，在2017年上线的“拍照购”采用的是海深科技的算法。同时海深科技还服务了小红书、搜狗图像搜索等一些一线的互联网企业。

2.货架排面管理

货架排面管理的需求主要来自品牌方，以前会有巡店的业务需求。比如商品摆到货架上，需要知道占了多大的排面，是不是整齐摆放，以前是派员工巡店，后来是通过拍照的方式。现在出现了很多众包公司，专门帮助品牌方拍摄门店的照片。

照片收到后如何处理是一个问题，如果以人力来处理这些照片效率很低，无法及时反馈，所以在这样的场景下，商品识别技术有很大的应用需求。众包公司负责拍照的人差异很大，拍照的方式、用的相机、照片的像素都不一样，回传图片后审核，可能一周后发现有不符合要求的门店，需要再次跑到店里去解决。如果能在拍照后，实时通过图像识别知道这个结果，对众包的人员来说，是非常高效和节省成本的方式。

这个领域有一家公司叫TRAX，他们用的是一个机器人来巡店，这是一家目前有一定规模的公司，总部在新加坡，核心研发人员是以色列的，与以色列的几个学校在联合做这个项目。国内目前也有一些同行在做类似的自动货架拍摄的相关项目。

3.无人超市

说到无人超市，Amazon Go是近几年都很火的。当然，Amazon Go用到的核心技术不止是图像识别，更不止于商品识别。他们采取了很多手段，包括他们称之为smart shelf，是采用了重力感应技术，也有红外技术，顶部是摄像头用来跟拍店里的用户，也做了很多Re-ID的工作。

Amazon Go的方案成本非常高，核心难点是人与货的关联。图像识别的一个核心技术就是Re-ID——人的跟踪，他们用了一些像红外技术这样的辅助手段来探测手的位置，用重量感应来判断商品是否被拿起来，然后后摄像头来跟踪人的位置。

我们也在研发类似的技术，目前在与百联合作尝试落地，但总体还是一个计算量非常大而且成本很高的项目。但是Amazon Go具体核心算法是怎么做的，我们也只能是一些猜测，他们做了这么长时间，很多技术细节都是很值得研究的。Amazon Go是一个开放性的环境，虽然做了很多定制性的优化，但整个店面环境以及与人的交互，实际问题是非常难解决的。

4.无人零售柜

现在出现了一些无人零售柜，跟无人超市相比，是一个更小的单元，环境是更可控的。从应用场景来看，很多人会跟以前传统的贩卖机Vending Machine去比较，其实在我的理解下它是一个新的形态，更像一个小的便利店，但是是一个更灵活的形态，商品的品类和摆放也会更自由，这是跟传统贩卖机最大的区别。

现在无人零售柜的技术实现有静态图像和动态视觉两种，海深科技采用的是静态的方案，就是在关门之后拍照，跟关门前的图片进行对比，确认用户拿走哪些商品。因为这个方案用的是云端服务，所以成本会比较低。而动态视频无论是线上传输还是本地计算，都会产生更高的成本，而且准确率无法保证。

5.无人结算台

目前我们还在做的另一个设备，是无人结算台。这样的产品也有几家公司在做，我们的不同点是，它是一个半封闭的场景，周围的环境影响会更小，在技术实现上会更有优势。目前的深度学习模型的泛化能力还是比较有限的，我们会通过一些物理手段，或者其他技术手段来对环境做一些控制，会更有利于技术实现，或者是效率、准确率的提升。

无人结算台的商业化落地还在探索阶段，并且还是会有一些限制。比如说很大的商品，都没有办法放到这个结算台上，当然也没有办法做结算。未来的结算会以什么样的方式，是人工的，还是需要把商品放在一个设备里，还是像Amazon Go这样的完全无感知的结算方式，我们都不知道。当然，从长远来看，Amozon Go的方式肯定是一个方向，但是短期内商业化落地是非常困难的，最大的问题就是过高的成本。

6.线下数字化

在线上，所有的用户信息是数字化的，比如购物时，浏览过什么商品，点击、停留时长、购买等等信息都是有记录的。这方面今日头条号称是做的最好的，给用户的内容推荐相对比较精准。对电商来说，这样的数字化数据可以帮助优化运营策略，是很重要的一个方面。

在线下，用户信息的数字化是很困难的。最早的时候，线下数字化是用探针的方式来做。探针最大的问题就是精度，定位不准确，即使是用两三个点来共同定位，也只能简单定位人的位置，误差还是比较大。

2017年开始，很多公司开始通过视频分析用户的行为，来做线下数字化。有一家海外数一数二的连锁店希望跟我们合作，去做用户路径跟踪、人与物的交互分析。这有点像Amazon Go的技术，但是他们需要做到结算，这样的线下数字化只是做数据分析。

除此之外，线下还有两个很大的需求就是防盗和员工管理。防盗的需求比较清晰，员工管理其实也很重要，比如员工与客户沟通的热情，甚至员工的异常行为等等。

做线下数字化的原因是什么呢？其实无人店的核心不是有人和无人，而是强制的会员制。Costaco为什么这么火爆，他做的最好的就是明确的用户定位+会员制，然后只服务于这个群体。无人店通过强制的会员制，去绘制用户画像，对他进行精准定位，然后可以打通线上和线下，以定制化的服务来优化商品、提高客单价。我觉得这是零售行业的趋势，也是线下数字化的意义。

二、商品识别的技术难点

1.人脸识别难还是商品识别难

首先这个问题不是很科学，任何一个问题都可以变得容易，也可以很难。人脸识别一般是比较配合的，像第一个图，相对来说难度会比较低，现在方案也比较成熟。那如果大街上，下着雨，半遮着脸，距离很远，清晰度很低，这样识别难度就很大了。那如果是看着后脑勺希望把人识别出来，就显然不太合理。

商品识别也是类似，一个商品摆在面前来区分是比较容易的，但实际的场景中就会很困难。比如第二张图的排面，这还是我们做过的项目里相对容易的，因为摆的很整齐。第三张图的难度就很大了，这是一个非常极端的例子。农夫山泉和可乐都是红色的盖子，饮料的颜色是不同的，但左下角只露出了一个盖子，就非常难识别了。所以人脸识别和商品识别哪个更难这个问题，需要从不同的角度来看待。

2.准确率 = 70%*数据+30%*算法

提升识别准确率，核心是两个部分，数据和算法。我们都非常关注的算法层面，可能只占30%的比例，数据可能要占70%。

3.目标检测往往是更难的

目标检测其实比识别更难，大部分的时间我们花在做目标检测上。零售行业的排面检测相对要求还不会特别高，多一个小一个框不会构成大的问题。但比如像我们智能柜的场景，商品识别是用来做结算的，要求100%准确，特别是密集摆放的情况下，难度就很高。

实际的场景中除了密集摆放，还会有倾倒重叠的情况出现。像下图中的重叠，我们目前能够识别，但如果出现一个商品比较长，另一个商品完全覆盖把商品截成两段，人可以通过联想知道是同一个商品，但是机器会识别为两个商品。

再比如说商店的排面，上图左上角的牛奶只露出了不到1/20，商品识别很可能会出错，所以这不能只依靠商品识别来做。人会通过推理来判别，那么商品识别中也许可以增加近似的技术手段来优化整个方案。

4.物体的重识别Re-ID

一般物体的识别，我们更多的解决的是一个摄像头下的商品识别，还有一个常见但更复杂的场景，就是在更大的区域下，可能需要两个摄像头协同拍摄，每张图分别拍到一部分，两张图还有重合的部分。如何在这样的情况下精准地识别，我们团队去年花了整整一年的时间，解决了这个问题。

很多人马上想到的是把两张图进行拼接，但实际拼不起来，商品有高有矮，两张图也是不同的角度。实际要如何解决呢？其实跟人的推理方法是一样的。首先我们比较确定的是一些边缘的信息，比如两张图分别有哪些靠近边缘，找到一些关键点，也就是说，哪些商品在两张图里是同一个。简单地说，人是如何理解这两个画面，那么让算法也近似地去理解。

三、智能零售解决方案工程化落地关键

1.数据标注的优化

之前也提到，数据的重要程度非常高，如何提升数据质量，采集、标注数据策略的优化，在什么场景下做采集，都是非常重要的方面。而后期，当数据达到一定量的时候，如何实现数据工程化高效采集，也成为需要考虑的方面。

数据的采集没有捷径，高质量的数据一定需要花费很多时间。同时，优质的数据采集和标注平台，也是非常重要的。一个优质的数据平台的开发，本身就可以成为一个独立的产品。

我们也尝试过3D建模，成本相抵会更低，可以迅速把准确率提升到90%，甚至95%以上，但是要达到99%以上接近100%的水平，3D建模是不够的，还是需要采集更多有效的数据。

2.场景限定与优化

现在深度学习的能力其实还是有限，泛化能力还比较弱，只针对一些限定的场景会有比较好的结果。就像之前我们提到两个例子，一个是Amazon Go，一个是我们的智能柜，整体的环境还是定制化的。比如外界的灯光、阳光造成的光线差异，摄像头的更换导致的色差，都会是影响结果的原因。

因而目前的商业落地，场景的限定与优化是比较重要的，在深度学习还没有达到一定强度的时候，外界的辅助手段可能是提升效果的重要辅助方式，场景、算法、应用、硬件都需要协同配合。

3.数据共享

图像识别能有今天的发展，很大程度上受益于李飞飞教授主持的ImageNet大量标注图片数据集，可以说是现在所有图像识别最根本的基础。

同样的道理，由于商品种类的繁多性，靠一个公司或者团体的能力，很难提升算法的泛化能力，也就是单一算法只能适用于非常有限的场景，很难形成规模化效应。其实我们这个行业也是类似，在数据层面其实可以合作共赢的方式来推进整个行业的良性发展，数据共享和算法开放将会成为人工智能发展的一个重要趋势。

讲师介绍

戴剑彬博士，海深科技创始人、CEO，深度学习资深专家，曾在Oracle，Yahoo!等硅谷著名互联网公司长期从事机器学习算法的研发。在百度美国研究所期间与深度学习世界顶级专家吴恩达教授合作共事两年，在超大规模深度模型的架构和优化领域有世界前沿性成果。2016年6月回国创建海深科技。

智东西公开课介绍

智东西公开课，专注讲解新兴技术创新与应用。智东西公开课隶属于智能产业媒体与创新服务平台“智一科技”，旗下有主题系列课、企业专场、专栏以及技术社群，目前重点关注的新兴技术包括人工智能、AI芯片、RISC-V、自动驾驶、AIoT，涉及行业覆盖互联网、汽车、半导体、智能家居、新零售、机器人、安防等等。