想体验无人商店,看懂英特尔的AI底气

2019-07-06 02:23栏目:技术支撑
TAG:

在您的既有IT基础上,按需构建人工智能更高效。人工智能,从至强开始。点击搭乘至强特快专列,即刻开启您的人工智能之旅吧。返回搜狐,查看更多

而在美国,大多数企业客户更愿意在“非常成熟”时才部署 AI 解决方案,且相关产品最好是由 ISV、OEM 或者 CSP 负责提供并支持。另外,国内人工智能解决方案的规模,尤其是投入生产的规模,相对来说比美国的很多用户要更大一些。

京东的技术团队接下图像分析这个任务后,一开始,他们曾尝试使用图形处理单元(GPU)创建特征匹配应用,然而并不顺利,因为在扩展性上遇到很多问题,必须手工管理众多设备和系统,手工处理负载均衡和容错;而且在数据处理过程中还出现很多延迟,不足以支持生产环境需求。

自开源以来,BigDL 项目一直在持续改进,目前已经发布到 0.8.0 版本。

责任编辑:

马子雅还提到,目前 Spark 在英特尔的服务器硬件上优化是最好的,这也是 BigDL 和 Analytics Zoo 最大的优势之一。

京东在基于英特尔至强处理器 E5-2650 v4 的服务器上运行 BigDL,完成深度学习提取图片特征过程。Big DL同时支持横向扩展,只要添加新的标准英特尔至强处理器服务器,就能够实现高效横向扩展,延展到数百乃至数千台服务器。京东使用了带有 1200 个逻辑内核的高度并行架构,大幅加快了从数据库中读取图像数据的流程,整体性能提高了 3.83 倍。性能的提升,也要归功于英特尔在核心算法层面的优化。BigDL 使用英特尔数学核心函数库MKL 和并行计算技术,充分发挥了至强处理器的性能。

在库层面,英特尔持续对各类库 / 基元(例如英特尔 MKL/MKL-DNN、clDNN、DAAL 以及英特尔 Python 发行版等)进行优化。另外还推出了 nGraph 编译器,旨在使各类框架能够在任意目标硬件之上实现最佳性能。

图片 1

以业界广泛使用的大数据框架 Apache Spark 为例,英特尔一直是 Spark 开源社区的活跃贡献者。在围绕 Spark 的大数据分析技术,比如实时流式分析、高级图分析、机器学习等方面,英特尔高级首席工程师、大数据技术全球 CTO 戴金权所领导的团队始终处在业界领先地位。他们为很多大型互联网公司提供了大数据分析的技术支持。比如 2012 年,戴金权团队帮助优酷使用 Spark 做分布式的大数据分析,使得其图分析的效率提高了 13 倍以上。他们还帮助腾讯在 Spark 上构建大规模稀疏机器学习模型,将模型规模的量级提高了十倍以上,模型的训练速度提高了四倍以上。

在大数据分析领域,Apache Spark项目已经成为事实上的标准。该项目起始于加州大学伯克利分校,几个创始人后来成立了Databricks公司,成立五年来,专门提供大数据分析服务。在分布式机器学习领域,他们也选择了 BigDL 项目,与本身的原生Spark技术集成,提升Spark在模型训练,预测和调优方面的表现。

第三大痛点在于 AI 技能组合的供需之间存在巨大的鸿沟。由于这种差距的客观存在,任何一家企业或者个人都无法轻松地使用 AI 技术。在过去几年,有越来越多的学术课程与行业研讨活动正在试图缩小这种差距。但截至目前,我们可能还需要一段时间才能迎来真正能够立刻投入生产的技能成熟的员工队伍。谈谈人工智能行业和未来趋势

毫无疑问,京东是中国零售领域的领军企业,技术上,京东同样具有前瞻性思维,前文提到的京东的无人商店和无人超市刷脸完成购物,就是一个很好的证明。

持续改进:降低开发门槛,提高训练与推理性能

原标题:想体验无人商店?去京东他们家直接刷脸!

在工具层面,英特尔提供大量生产力工具,用以加速数据科学家与开发人员的 AI 开发进程。包括:英特尔深度学习 Studio、英特尔深度学习开发套件、英特尔 OpenVINO 工具包、英特尔 Movidius 软件开发套件等。

家门口刷脸购物不是梦

图片 2

当然有,京东选择了更神奇的方法:选好商品后,你可以把它们挨个放在智能结算台上,其中有集成摄像头,借助京东这些年积累的实拍数据,利用图像识别技术完成结算,当你走出结算通道后,人脸识别、智能摄像头等技术就会自动完成付款啦。

为了让更多的大数据用户、数据工程师、数据科学家、数据分析师能够更好地在已有大数据平台上使用人工智能技术,2016 年底,英特尔开源了基于 Spark 的分布式深度学习框架 BigDL,此后不久又在 Spark、TensorFlow、Keras 和 BigDL 之上构建了大数据分析 AI 平台 Analytics Zoo。通过这两个开源项目,英特尔正在推动先进的 AI 技术能更好地让广大用户使用。开源框架和平台:BigDL 与 Analytics Zoo

2018年1月,亚马逊在西雅图的无人超市对外营业,吸引北美媒体和市民众多眼球。不过他们不知道,2017年10月,中国的在线零售巨头京东的无人商店和无人超市已经对外开放了。更有趣的是,在京东的无人商店和无人超市里,当你选好自己要买的东西之后,只需“刷脸”就能完成支付过程,钱包什么的,完全不用拿出来啦。

在芯片层面,英特尔提供广泛的技术方案,包括通用型芯片到专用型芯片等,涵盖由边缘到数据中心的广泛领域。CPU、GPU、加速器、FPGA、内存 / 存储、互连以及安全硬件等都在英特尔的业务范畴之内。

京东大数据平台部负责人,京东副总裁翁志介绍,“顾客的方便,来自于京东长期以来在AI和大数据方向的技术积累,集成各种传感器的智能货架、智能结算台、智能价签、智能摄像头等多种智能技术,贡献良多。”

落地:实际采用情况超出预期

京东公司成立二十年,在线商城已经运行了十四年。这么多年下来,京东积累了一个庞大的在售产品目录,产品图像多达数亿张。它们都保存在分布式大数据存储库 Apache HBase中,用Hadoop框架加以处理。为了满足客户在各种场景下的不同需求,京东希望可以匹配、提取不同产品图像中的特征。比如,客户逛街时发现一款自己喜欢的咖啡杯,只要拍下来,京东就可以根据照片为客户找到满足他要求的咖啡杯。对于京东自己来说,还可以利用图像识别和匹配功能,与其他网站上的产品进行匹配,京东就可以调整自己的定价策略,强化自己的竞争力。此外,京东还对外提供公共云服务,类似功能还可以提供给公共云的客户,帮助他们开发符合自己需求的全新图像分析应用云平台。现在,在京东对外开放的技术能力中,“图片质量检测”和“以图搜图”功能已经可以对外提供给其他开发团队使用了。

为了降低数据科学家的开发门槛,BigDL 加入了对 Scala 与 Python 的支持,同时通过 Jupyter Notebook 集成实现对数据分析结果的探索、共享与讨论,并集成 Tensorboard 以实现 BigDL 程序行为的可视化呈现。

借助 BigDL 框架,京东还在自己已有的通用硬件上使用 Caffe、Torch 和 TensorFlow 等框架中的预训练模型,这让他们以更快的速度测试和推出新服务,同时无需投入专用硬件。也就是说,不需要购买、运行独立的 GPU 集群。京东可以重复使用现有的硬件资源,从而降低了总体拥有成本。结合Apache Hadoop 和 Spark 框架来处理资源管理工作,未来能够更轻松地开发新应用,同时保持高效性能。

Analytics Zoo 最大的优势是能够在现有基于 Spark 与英特尔至强服务器的基础设施之上无缝运行各类主流深度学习框架和模型(包括 TensorFlow、Keras、caffe 以及 BigDL 等),客户可以选择使用适合自身需求的深度学习框架做模型训练,无需购买或者设置不同的硬件基础设施。

在购物的整个过程中,结算环节是重点,更是难点。顾客选择的商品,品类多种多样,包装彼此不同,如何保证在尽量短的时间之内确定商品的具体品类和价格?除了扫描条码之外,还有其他方法吗?

Analytics Zoo 还囊括有大量经过预训练的深度学习模型(例如图像分析模型、文本处理模型、文本匹配模型、异常检测模型以及用于序列预测的序列到序列模型等);其拥有高级 API,能够简化应用程序开发流程;它还能够以非常简单的方式建立端到端分析 /AI 流水线并实现生产化,整个流水线能够在 Spark/Hadoop 集群之上实现扩展,从而进行分布式训练与推理,降低训练用基础设施的独立成本,同时节约训练基础设施与分析基础设施之间的集成开发成本。

后来,京东决定基于现有的服务器和通用处理器架构开展工作,而且取得了显著成效。他们的图像数据存储服务器基于英特尔至强处理器 E5 家族,技术团队使用 BigDL 深度学习库来部署 Caffe 模型,性能提升了3.83倍,这让京东将来可以更快捷地提供基于图片的全新服务。

马子雅早前曾在采访中表示,英特尔致力于为客户提供最好的服务,而非单纯的硬件或软件。对于这一点,马子雅再次强调,英特尔是一家人工智能技术解决方案供应商,致力于为客户提供完整的全栈式人工智能解决方案。

图片 3

在平台层面,英特尔提供多种一站式、全堆栈且用户友好的系统方案,可由客户快速部署并加以使用。例如,英特尔 Deep Learning 云 / 系统(原名为 Nervana Platform with Nervana Cloud 以及 Nervana appliance)就是一套“一站式”系统,旨在缩短深度学习客户的开发周期。

《福布斯》专门撰文报道:京东希望使用当今最先进的技术创新开发新的解决方案,创建面向未来的零售运营体系;京东正在推动人工智能、大数据和机器人技术的发展,为第四次工业革命建立零售业的基础设施。到那一天,你在家门口的便利店和超市里面就能直接刷脸买东西啦。

为了提高训练与推理性能,BigDL 集成了 MKL-DNN 作为 CNN 模型的替代执行引擎。MKL-DNN 能够提供更强大的训练 / 推理性能,而且内存占用量也有所降低。在某些 CNN 模型中,MKL-DNN 使吞吐量提高了 2 倍。

图片 4

接下来,Analytics Zoo 和 BigDL 还会在功能多样性和多平台性能上做更多的优化。英特尔正在着手为其添加更为强大的推理支持能力(如基于 Flink 与 Spark streaming 的流式推理等)、更多模型与特征(例如 Transformer、BERT 以及序列推荐等),外加更多针对不同硬件平台的优化方案(例如 VNNI 等等)。

分析图像,提取特征,还得靠通用架构

初衷:填补大数据分析与 AI 结合的空白点

AI 不再停留在实验室里

第二,分析与 AI 技术正在融入大数据平台。为了实现生产应用,AI 方案需要配备端到端分析流水线,其中 80% 的资源被用于数据摄取、清洁与预处理、管理以及可视化等等;只有 20% 专注于训练与推理。英特尔将利用自身在大数据与分析领域的领导地位,提供统一的生产级平台,将数据科学生态系统引入大数据平台。同时不断改进特定数据科学项目的单节点性能,例如 pandas、scikit-learn、DAAL 以及 Spark SQL 等,提高大数据平台上 Python 项目的横向扩展效率,并将关键计算密集型算法转交由加速器负责处理。

第三,未来新的用户场景更需要端到端解决方案的支持,且可能涉及从边缘 / 客户端到数据中心的整个体系。据 IDC 预测,未来 45% 的数据将在边缘进行管理和分析。边缘端的智能 / 推理方案将使实时决策成为可能,从而显著节约网络带宽与数据中心存储 / 计算带来的成本。

近年来,互联网数据飞速增长,据英特尔统计:目前全球有超过一半的数据是在过去两年内产生的,而这其中只有不到 2% 是真正经过分析并产生价值的。英特尔近日在全球多地召开的发布会上推出了一系列以数据为中心的产品组合,包括第二代至强可扩展处理器、傲腾数据中心内存和存储解决方案、Agilex FPGA、以太网 800 适配器。正是为了应对数据激增的变化,英特尔为数据传输、存储、计算和处理提供了一套完整的解决方案。而在这套解决方案里,硬件并非全部。

近年来,许多公司都开始尝试在他们的分析流程中添加 AI 功能,但真正应用到生产环境却进展缓慢。实际上,深度学习模型的训练和推理只是整个流程的一部分,要构建和应用深度学习模型,还需要数据导入、数据清洗、特征提取、对整个集群资源的管理和各个应用之间的资源共享等,这些工作事实上占据了机器学习或者深度学习这样一个工业级生产应用开发大部分的时间和资源。而这样一套基础设施部署之后,再推倒重来是不现实的。

推出以来,Analytics Zoo 已经被阿里巴巴、百度、腾讯、京东、亚马逊以及微软等 CSP 采用,得到了浪潮、戴尔以及以及宝信等 OEM 厂商和 ISV 企业的青睐。马子雅向我们透露,在过去六七个月的时间里,英特尔已经直接帮助约 35 家企业客户部署落地 Analytics Zoo(例如 Mastercard、Office Depot、CERN、世界银行、西班牙电信、美的、韵达等等),几乎是一个月 5~6 家的速度。这还没有将阿里、百度、亚马逊、戴尔、浪潮等合作伙伴平台上使用 Analytics Zoo 的用户算在其中。

采访嘉宾介绍

如今的深度学习和 AI 领域,优秀的算法和框架数不胜数,但英特尔的 BigDL 和 Analytics Zoo 选择了一个颇具独特性的切入点,那就专为已有大数据集群的场景设计。如果企业已经构建了一定规模的大数据集群,要在这个集群之上做机器学习 / 深度学习模型的训练,BigDL 可能是唯一的解决方案。马子雅表示,也正因为如此,BigDL 和 Analytics Zoo 的应用和推广情况比最初预计的还要好,“比我们想象的快得多”。

马子雅目前所在的 IAGS/SSP 部门,其主要职责就是为在英特尔平台上运行各类大数据分析与 AI 解决方案的客户提供最佳体验,让硬件性能更优。其中一项核心任务就是与整个生态系统合作,立足英特尔的硬件对大数据分析 /AI 堆栈进行优化,从而提供更出色的性能、安全性与可扩展性。

版权声明:本文由奥门新萄京娱乐场发布于技术支撑,转载请注明出处:想体验无人商店,看懂英特尔的AI底气