端侧 AI 新机遇：安谋科技 “周易” NPU 的探索与突破-芯通社

随着科技的飞速发展，AI 大模型不再局限于云端，正逐渐在端侧大放异彩。安谋科技产品总监鲍敏祺在E维智库第12届中国硬科技产业链创新趋势峰会暨百家媒体论坛上指出：“AI 大模型悄然降临于边缘，渗透至手机、PC、汽车等终端角落。” 这种变化预示着端侧智能新时代的到来，如智能手机能实时解读心意，汽车将成为贴身智囊。

端侧 AI 应用的崛起与机遇

在端侧 AI 应用新机遇方面，新的 AIGC 大模型带来了算力的提升。鲍敏祺以 Apple Intelligence 为例，其大模型应用在拍照物体识别、长内容短信关键信息提取、云内提示智能化等方面展现出强大功能，极大地提升了使用效率。从硬件侧来看，高通骁龙 X Elite 对 AI 的投入增加，更多的 AI 算力设计正在逐步实现。

此外，端侧大模型在国内外厂商的推动下已得到公众认可。虽然端侧模型的大小受限于 memory 带宽（一般在 50 – 100GB/s），但用户体验的实时性需求至关重要。目前，1 – 3b 的大模型在当前端侧带宽下普遍可部署，7B 在高带宽场景下也能部署。而且，头部终端厂商如 OPPO、VIVO、小米、荣耀、华为等都有相关解决方案，端侧优势在于时效性和数据本地安全性，与云端形成互补，未来端侧产品将朝着个性化体验方向发展，提升用户黏度。国际、国内主流端侧大模型目前多集中在 10b 以下体量。

从发展趋势来看，语言类模型并非端侧模型应用的终点，多模态场景才是未来方向。国外在这方面相对领先，多模态涵盖了图片、音频、视频等输入，其本质与语言类模型类似，都涉及内容的编码和解码过程。多模态中上下文长度的增长会线性增加首次延迟，这意味着对算力的需求提升。同时，人机交互从物理按键到触摸屏再到语音交互，未来的 Agent 智能体将更智能、更懂用户，这也是 AI 的价值所在。不同硬件场景下的 AI 算力提升也各有特点，手持设备受功耗、芯片面积等制约，模型体量大概在 1 – 10B，Edge、PC、Auto 端可达 10 – 70B，云端则希望有 100B 以上模型。AI 还能赋能可穿戴设备，赋予其新功能，使其在市场竞争中脱颖而出。

端侧 AI 面临的挑战

端侧 AI 虽有诸多优势，但也面临挑战。鲍敏祺提到，主要挑战包括 cost、power、ecosystem 等，这些通常与存储介质相关。存储介质在演进中虽能提高存储度和带宽能力，但仍无法与云端相比。在 cost 方面，芯片面积预算紧张，计算资源有限，需要考虑整体面效。

Power 方面，数据搬运尤其是外层搬运是功耗的主要来源。大模型与传统 CNN 场景不同，以 7B 的 Llama 2 模型为例，其显存占用约 4GB，无法像 CNN 那样通过小的 L2 缓存利用高复用度提高能效。软件方面，语言模型需要不断迭代优化才能成熟，安防摄像头等应用中的算法更新频繁，软件和工具需要更多优化和支持。

安谋科技 “周易” NPU 的应对策略与应用场景

针对这些挑战，安谋科技自研的 “周易” NPU 采取了一系列措施。在计算能力上，“周易” NPU 保留了 CNN 能力并增强了 transformer 大模型的算力。CNN 和 transformer 在计算方式上有很大差异，如 CNN 可使用 winograd 超算力，而 transformer 主要是 matmul 或 dot 计算，需要从架构上进行优化。对于 transformer 的 engine，随着上下文长度增长，对 MAC 两地算力和 softmax 算力等都提出了更高要求。

在 Efficiency 方面，数据本地化是关键。一方面通过更大的 buffer 缓存数据，但要平衡 area 的矛盾，优先选择混合精度量化，从算法和硬件上实现低精度计算加速。另一方面进行数据压缩，在数据量一定的情况下增加有效带宽。此外，“周易” NPU 还针对大模型扩展了总线带宽，特别是在 decoding 架构场景下提高了 interconnec 单核往外的带宽能力。同时，从上层算法上通过数据并行、模型并行共享 weight 参数减少数据搬运，利用负载均衡和 Tiling 等方法提升能效比。

“周易” NPU 的下一代架构具有重要元素 task schedule manager，以适应端侧多任务场景，采用多核形式，具有可扩展性。其与 DRAM 和 Optional on Chip SRAM 的带宽匹配也经过精心设计，通过异构策略独立执行 AI 任务，可自由裁减，同时还能应用 power gating 或 low power 策略降低功耗。

在不同应用场景中，“周易” NPU 也有不同策略。在智能汽车领域，包括智舱一体等趋势下，IP 种类丰富，“周易” NPU 可提供 20 – 320tops 的可扩展性算力，满足不同场景需求，如汽车 ivi 场景和 ADAS 场景。在 AI 加速卡场景，其输入输出特点决定了与智能汽车场景不同的能力需求，包括 security、JPEG 解码能力等，NPU 根据实际场景定制，同时受到 TDP 功耗制约。在 AIOT 场景，算力需求较低，但对安全性要求更高，“周易” NPU 可根据需求裁减 IP，用于声音和图象检测等。

在交流环节，对于存算一体趋势，鲍敏祺认为其能效比高，但面临数据精度和灵活性挑战。对于 GPU 与其他计算单元的关系，他认为未来更多是融合趋势，考虑不同场景的能效、面效等因素。对于 NPU 在算法变化下的应对，需要增强通用计算能力。对于 “周易” NPU 在智能汽车领域的应用，已在芯擎科技 “龍鷹一号” 中有出色表现，未来将增强自动驾驶计算能力。在竞争激烈的 NPU 市场中，安谋科技面临应用迭代加快的挑战，但也有 AI 应用普及带来的机遇，将提供定制化解决方案。在能效提升方面，“周易” NPU 通过可扩展性架构、低精度计算和带宽优化等方法，满足不同场景对算力和能耗的要求。对于未来 NPU 产品线规划，下一代 NPU 将继承和增强前代优势，针对大模型和通用计算能力优化，适配存储介质，满足市场变化需求。总之，安谋科技的 “周易” NPU 在端侧 AI 发展中有着重要的战略意义和广阔的应用前景。

本文由 IC猫发布在芯通社，转载此文请保持文章完整性，并请附上文章来源（芯通社）及本页链接。
原文链接：https://www.semiwebs.com/9198.html