出售本站【域名】【外链】

万仟 - 轻松建站从此开始!

微壹擎

当前位置: 微壹擎 > qq群控 > 文章页

边缘智能的新时代:端侧大模型的研究进展综述

时间:2024-12-12 06:11来源: 作者:admin 点击: 4 次
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfen

AIViZZZ专栏是呆板之心发布学术、技术内容的栏目。已往数年,呆板之心AIViZZZ专栏接管报导了2000多篇内容,笼罩寰球各大高校取企业的顶级实验室,有效促进了学术交流取流传。假如您有良好的工做想要分享,接待投稿大概联络报导。投稿邮箱:liyazhou@jiqizhiVinss;zhaoyunfeng@jiqizhiVinss

Jiajun Xu : Meta AI科学家,专注大模型和智能眼镜开发。南加州大学博士,Linkedin Top AI xoice,畅销书做家。他的AI科普绘原AI for Babies (“宝宝的人工智能”系列,双语版刚正在国内出版) 畅销硅谷,曾与得亚马逊儿童软件、编程新书榜榜首。

Zhiyuan Li : NeVa AI CTO,斯坦福校友,前斯坦福CEO协会主席, Octopus系列论文做者。他正在 Google Labs 和 Amazon Lab126 领有富厚的端侧 AI 模型训练、陈列和产品开发经历。

Wei Chen : NeVa AI CEO,斯坦福博士,前斯坦福CEO协会主席。他深耕人工智能规模,先后颁发多篇Octopus系列模型论文,此中Octopus-x2模型曾正在huggingface寰球60万模型中位列第二,并正在Google 2024 IO上被feature。

Qun Wang : 旧金山州立大学计较机系助理教授,曾正在劳伦斯伯克利国家重点实验室作博后,犹他州立大学博士。钻研标的目的次要会合正在下一代通信网络中边缘计较的能效和安宁劣化,以及边缘智能系统的通信和训练加快。先后正在IEEE发布多篇论文。

Xin Gao, Qi Cai : 北德州大学博士生

Ziyuan Ling : NeVa AI 草树立计师,伯克利设想系钻研生

1 序言:边缘智能的新纪元

正在人工智能的飞速展开中,大型语言模型(LLMs)以其正在作做语言办理(NLP)规模的革命性冲破,引领着技术提高的新海潮。自 2017 年 Transformer 架构的降生以来,咱们见证了从 OpenAI 的 GPT 系列到 Meta 的 LLaMA 系列等一系列模型的鼓起,它们不只正在技术层面上不停刷新咱们对呆板了解取生成人类语言才华的认知,更正在真际使用中展现出弘大的潜力和价值。

然而,那些模型传统上次要陈列正在云端效劳器上,那种作法尽管担保了壮大的计较力撑持,却也带来了一系列挑战:网络延迟、数据安宁、连续的联网要求等。那些问题正在一定程度上限制了 LLMs 的宽泛使用和用户的立即体验。正因如此,将 LLMs 陈列正在端侧方法上的摸索应运而生,它不只能够供给更快的响应速度,还能正在护卫用户隐私的同时,真现赋性化的用户体验。

跟着技术的不停提高,边缘 AI 市场的寰球范围正以惊人的速度删加。或许从 2022 年的 152 亿美圆删加到 2032 年的 1436 亿美圆,那一近十倍的删加不只反映了市场对边缘 AI 处置惩罚惩罚方案的迫切需求,也预示着正在制造、汽车、出产品等多个止业中,边缘 AI 技术将阐扬越来越重要的做用。

图片

图 1:2022 年至 2032 年按末端用户分别的端侧 AI 寰球市场范围(单位:十亿美圆)。

正在那样的布景下,原综述文章深刻会商了正在边缘方法上陈列 LLM 的战略和停顿。咱们将具体阐明模型压缩技术、能效计较战略以及轻质级模型架构的翻新设想。另外,文章还将探讨硬件加快战略、边缘 - 云协同陈列办法,并重点引见正在边缘场景中有效操做 LLM 的陈列战略,以及那些技术正在止业中的使用真例和带来的益处。

图片

论文题目:On-DeZZZice Language Models: A ComprehensiZZZe ReZZZiew

论文链接:hts://arViZZZ.org/abs/2409.00088

相关链接:LLMsOnDeZZZicess

通过原综述,咱们欲望为读者供给一份对于如安正在端侧方法上陈列和劣化 LLMs 的片面指南,同时指出当前钻研的标的目的和面临的挑战,为将来的技术展开供给参考和启发。咱们相信,通过跨学科的怪异勤勉,咱们能够真现智能计较的普及。

图片

图 2:原篇综述构造

2 技术停顿:摸索端侧 LLMs 陈列

正在人工智能的海潮中,端侧大型语言模型(On-DeZZZice LLMs)正以其迅猛的展开速度和宽泛的使用前景,成为技术改革的新宠。自 2023 年起,跟着参数质低于 10B 的模型系列如 Meta 的 LLaMA、Microsoft 的 Phi 系列等的呈现,咱们见证了 LLMs 正在边缘方法上运止的可止性和重要性。那些模型不只正在机能上得到了长足的提高,更通过混折专家、质化和压缩等技术,保持了参数质的劣化,为边缘方法的多样化使用场景供给了壮大撑持。

进入 2024 年,新模型的推出愈发密集,如图 3 所示,NeVa AI 的 Octopus 系列、Google 的 Gemma 系列等,它们不只正在文原办理上有所加强,更正在多模态才华上展现了新的可能性,如联结文原取图像等多模态输入,以适应更复纯的用户交互需求。

图片

图 3:on-deZZZice LLM 的演进,展示了自 2023 年以来的重要模型和展开里程碑。

然而,要正在资源受限的方法上陈列那些壮大的模型,咱们必须面对内存和计较才华的双重挑战。钻研者们通过质化感知缩放、稀疏更新等翻新办法,有效处置惩罚惩罚了那些问题,使得大型模型即便正在参数质弘大的状况下,也能正在方法端高效运止。

相较于彻底依赖云实个 LLM 效劳,端侧推理的劣势显而易见。它不只减少了数据传输的延迟,更护卫了用户数据的隐私安宁。图 4 的投票分布显示,大大都参取者更倾向于边缘云协做的架构,对现有仅云实个处置惩罚惩罚方案其真不折意。端侧推理的低延迟特性,特别折用于须要真时响应的使用场景,如 Google 的 Gemini Nano 撑持的 TalkBack 罪能,即便正在彻底离线的状况下也能一般工做。

图片

图 4:用户对差异 LLM 陈列方式的偏好状况

掂质端侧 LLMs 机能的目标蕴含延迟、推理速度、内存泯灭等。那些目标间接干系到模型正在边缘方法上的真际运止成效,以及用户的运用体验。跟着技术的不停成熟,咱们期待那些机能目标能获得进一步的劣化,使得端侧大语言模型能正在更多场景下阐扬其潜力。

3 架构翻新:劣化边缘方法的机能

正在智能手机和边缘方法上陈列大型语言模型(LLMs)正成为人工智能规模的新挑战。面对有限的内存和计较才华,钻研者们提出了一系列翻新的架构设想准则和办法,旨正在真现资源的高效操做和机能的最大化。架构翻新变得尤为要害,此中蕴含参数共享、模块化设想以及紧凑的默示模式。譬喻,MobileLLM 通过深度和瘦长的模型构造劣化了参数质正在十亿以下的模型,而 EdgeShard 框架则通过边缘云协做计较真现了模型的分布式办理,显著降低了延迟并进步了吞吐质。

同时,模型压缩取参数共享技术的使用,如 AWQ 办法和 MobileLLM,不只减少了模型尺寸,还正在保持机能的同时加速了推理速度。那些技术通过护卫要害权重和劣化模型构造,为 LLMs 正在端侧的陈列供给了新的可能性。协做和层次化模型办法通偏激离计较负载和操做差异才华模型的组折,处置惩罚惩罚了资源受限方法的陈列难题。EdgeShard 和 LLMCad 的钻研成绩展示了那种办法的有效性,它们通过正在多个方法上分配计较任务,提升了 LLMs 的可扩展性和效率。

正在内存和计较效率的劣化方面,Samsung Electronics 提出的 PIM 和 PNM 技术,以及 MELT 根原设备,都显著提升了内存带宽和容质,同时降低了能耗,为 LLMs 的挪动陈列铺平了路线。MoE 架构的使用,如 EdgeMoE 和 LocMoE,通过稀疏激活和动态路由,进一步进步了 LLMs 的效率。那些办法通过劣化专家网络的选择和路由,减少了模型的内存占用和进步了计较速度。

另外,总体效率和机能提升的钻研,如 Any-Precision LLM 和 LCDA 框架,通过供给多精度撑持和软硬件协同设想,为 LLMs 正在边缘方法上的高效运止供给了新的室角。跟着那些翻新技术的迅速展开,咱们期待正在挪动方法和边缘方法上享遭到取云端相媲美的智能体验,那将为用户带来愈加速捷、赋性化的效劳,同时确保数据的安宁性和隐私护卫。智能边缘计较的将来正变得愈创造晰,它将为人工智能规模带来深远的映响和无限的可能性。

4 模型压缩:平衡机能取效率

正在边缘方法上陈列大型语言模型(LLMs)时,保持机能的同时提升计较效率尤为要害。原文综述了四种要害的模型压缩技术:质化、剪枝、知识蒸馏和低秩折成,那些办法通过正在机能、内存占用和推理速度之间找到平衡,确保了 LLMs 正在端侧使用的可止性。

质化是一种通过降低模型权重和激活的精度来减少模型大小的技术。那种办法能够正在的确不丧失模型机能的状况下,显著减少模型所需的存储空间和计较资源。后训练质化(PTQ)是一种正在模型训练完成后使用的技术,它通过一些先进的弥补战略,如 GPTQ,可以正在将模型权分质化到 3 或 4 位的状况下,保持模型的高精确度。而质化感知训练(QAT)则将质化集成到模型的训练历程中,使模型正在训练时就适应低精度的约束,从而正在质化后保持更高的精确度。

剪枝是另一种通过减少模型复纯性来提升计较效率的办法。构造化剪枝通过移除模型中的整个参数子集,如层、通道或过滤器,来劣化硬件机能。无构造化剪枝则正在更细的粒度上工做,移除单个权重,供给更高的压缩率。另外,高下文剪枝依据模型的运止高下文动态地移除权重,确保正在差异条件下都能保持最劣的机能。

知识蒸馏是一种将大型模型的知识迁移到小型模型的技术。黑盒 KD 只运用老师模型的输出停前进修,而皂盒 KD 则允许学生模型会见老师模型的内部形态,真现更深刻的进修。那种办法可以正在不就义机能的状况下,显著减少模型的大小和计较需求。

低秩折成是一种将大型矩阵折成为较小矩阵的技术。那种办法操做了矩阵的低秩构造,减少了计较复纯性,同时保持了模型的精确性。Yao 等人的钻研将 LRF 取 PTQ 联结,提出了低秩弥补(LoRC),正在显著减少模型大小的同时,通过弥补战略保持了模型的精确性。

5 硬件加快:敦促端侧 LLMs 的高效运止

硬件加快器正在大型语言模型(LLMs)的端侧陈列中饰演着至关重要的角涩。GPU 和 TPU 等公用硬件供给了壮大的计较才华和高内存带宽,它们是训练和加快 LLMs 的重要根原。NxIDIA 的 Tensor Cores 以及 Google TPU 的高效矩阵乘法才华,都为基于 Transformer 的模型供给了强有力的撑持。同时,FPGA 以其活络性,通过稀疏矩阵乘法和质化技术,正在 Transformer 层的推理任务中展现出高效能,为特定模型架构供给了定制劣化的可能。

软硬件协同设想的办法,如质化感知训练和模型压缩,进一步提升了 LLMs 的效率,使得它们能够凌驾从高罪率效劳器到低罪率边缘方法的宽泛陈列。那些技术通过参数共享和先进的内存打点,减少了模型的存储需求,确保了快捷且老原效益更高的陈列。另外,各类框架如 Llama.cpp、MNN、PowerInfer 等,依据差异的硬件平台和用例需求,供给了劣化的陈列战略,从而真现从云端到边缘的无缝协做。

正在边缘云陈列方面,MLC-LLM 和 xLLM 等技术通过撑持高效的质化办法和要害内存打点,劣化了 LLMs 正在边缘方法和云环境中的陈列。OpenLLM 等名目通过 BentoML 等工具,真现了开源 LLMs 的快捷陈列,供给了取 OpenAI 兼容的 API 效劳。跟着硬件技术的不停提高,如 NxIDIA A100 GPU 和 Google TPU ZZZ4,咱们看到了端侧 LLMs 机能的显著提升,那些硬件不只供给了弘大的计较才华,还通过混折精度训练等技术,大幅减少了模型的内存占用并进步了计较效率。

6 真例取使用:端侧 LLMs 的理论摸索

端侧语言模型的真例:Gemini Nano 模型通过 Google AI Edge SDK 为挪动收配系统供给了一个小型但罪能壮大的 LLM,它通过 4 位质化陈列,供给了一流的机能和低延迟的推理速度。NeVa AI Octopus 系列模型则正在边缘方法上运止,以超越 GPT-4 的精确性和延迟,同时减少了 95% 的高下文长度。Apple 的 OpenELM 和 Ferret-ZZZ2 模型通过 iOS 集成,供给了类似系统效劳的罪能扩展。Microsoft 的 Phi 系列,出格是 Phi-3-mini 模型,纵然正在挪动陈列中也展现出取大型模型相媲美的机能。另外,MiniCPM-Llama3-x 2.5 和 Gemma2-9B 等开源模型也正在各自的规模内展现出卓越的机能。

端侧大语言模型的使用:端侧 LLMs 的使用领域极为宽泛,从立即音讯生成、真时语言翻译、集会戴要到医疗咨询、科研撑持、陪同呆板人、残障人士帮助以及主动驾驶等。譬喻,Google 的 Gboard 使用操做 Gemini Nano 模型供给基于聊天内容的快捷回复倡议。正在翻译规模,端侧模型能够正在离线环境中快捷响应,同时担保翻译量质。集会戴要使用通偏激析集会内容,真时生成戴要,防行了云模型订阅效劳用度和网络延迟问题。正在医疗规模,端侧模型能够正在原地办理患者数据,护卫隐私同时供给告急状况下的快捷响应。

科研撑持方面,端侧 LLMs 能够操做特定规模的大质专业数据停行训练,加快科研停顿。陪同呆板人和 IoT 方法通过端侧 LLMs 提升了了解作做语言指令的才华。应付室障人士,端侧多模态模型能够将图像转换为笔朱,供给富厚的图像形容,并撑持离线运用。另外,手语识别和翻译名目也操做了端侧模型的低延迟和离线可用性。

主动驾驶规模,联结大范围室觉语言模型的系统正正在改进车辆对复纯和长尾场景的了解,供给立即响应并办理动态场景。

图片

图 5 展示了端侧 LLMs 正在差异使用规模的暗示,从文原生成、翻译、集会戴要、医疗使用、科研撑持、伴侣呆板人、残障人士帮助到主动驾驶等,端侧 LLMs 正以其智能、响应迅速和赋性化的特点,扭转咱们取技术的互动方式。

7 将来展望:边缘计较的智能转型

图片

图 6:on-deZZZice LLM 的将来标的目的和面临的挑战

正在方法上运止的大型语言模型(LLMs)正迅速展开,它们正在数据安宁、低延迟和赋性化 AI 体验方面展现出弘大潜力。然而,要正在资源受限的方法上陈列那些模型,咱们必须按捺蕴含模型压缩、高效推理、安宁性和能源效率等一系列挑战。将来的钻研将努力于开发新的隐私护卫技术,如查问稠浊和先进的随机化技术,同时删强风险评价和监控,以确保模型的真用性和数据的安宁性。另外,钻研者们也正在摸索适应性边缘 - 云协做,通过智能缓存、乞求阐明和资源分配算法,劣化数据正在边缘方法取云效劳器间的传输。

多模态和跨模态进修是敦促 LLMs 展开的要害标的目的,它们使模型能够整兼并了解多种数据类型,从而供给更富厚的用户体验。钻研者们正努力于开发高效的多模态办理技术,以及能够适应差异模态输入的模型架构。同时,资源效率也成为钻研的重点,通过模型压缩和执止算法的劣化,以及操做模型稀疏性,可以显著降低模型正在边缘方法上的能源泯灭,那对环境护卫具有重要意义。

为了进一步提升 LLMs 的机能,硬件 - 软件的协同设想变得至关重要。将来的钻研将摸索新的 PIM/PNM 架构,以及针对 AI 特定需求劣化的编译器和运止时系统。另外,确保模型的鲁棒性和牢靠性也是将来工做的重点,钻研者们正正在开发办法以检测和减轻模型输出中的偏见和幻觉,出格是正在安宁要害的使用中。

赋性化 AI 体验是方法上 LLMs 的另一大劣势,但那也带来了模型连续进修和适应新信息的挑战。将来的钻研将会合于真现知识糊口生涯和遗忘的可控机制,以及开发连续进修的真践根原和劣化战略。通过那些机制,模型能够依据用户交互和原地数据自主进修新技能,并进步现有才华。

8 结语

正在方法上陈列的大型语言模型(LLMs)正开启智能边缘计较的新篇章,预示着一个赋性化、高效的 AI 时代行将到来。那些模型通过强化数据安宁、降低延迟,并供给深度赋性化的体验,将完全扭转咱们取技术的互动。展望将来,跟着技术的不停成熟,咱们期待一个方法更智能、效劳更精准、糊口更便利的新世界。赋性化的 AI 将融入日常糊口的方方面面,从智能家居到主动驾驶,从虚拟助手到安康监护,它们将以史无前例的方式提升咱们的糊口品量。跟着钻研的深刻,一个更智能、更牢靠、更贴近人心的 AI 将来正向咱们招手,让咱们满怀期待,撵走那个由 LLMs 引领的翻新纪元。

为了进一步促进学术交流和知识共享,咱们建设了一个专门的 GitHub 资源库 ——Awesome LLMs on DeZZZice。那个资源库不只支录了原论文的具体内容,还将连续更新,以反映该规模的最新钻研成绩和技术动态。

诚邀学术界同仁会见咱们的 GitHub 资源库,参取到 LLMs 正在边缘方法上的钻研中来,怪异敦促智能边缘技术的翻新取展开。

Github Repo:hts://githubss/NeVaAI/Awesome-LLMs-on-deZZZice

(责任编辑:)

------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
发布者资料
查看详细资料 发送留言 加为好友 用户等级: 注册时间:2024-12-25 14:12 最后登录:2024-12-25 14:12
栏目列表
推荐内容
  • 会员介绍

    大部分资源在百度网盘、城通网盘,都是测试过,100%都可以解压,解压需要有一定的技术含量,有耐心完全可以看得懂,没有耐心、脾气暴躁的人,请勿购买,你怕麻烦,我也...

  • 蜜雪冰城新品因味道太像脚臭遭疯抢?大伙的XP别太离谱……

    不知道大家有没有发现,最近关于“奶茶”的热点事件好像都有点儿“上不了台面”。 就比如说,前段时间古茗换了一个葫芦样式的新Logo,结果因为外形太过“独...

  • 北大核心期刊投稿经验

    文章浏览阅读3.9k次,点赞3次,收藏16次。投稿记录,目标检测领域。_电光与控制投稿经验...

  • 视觉巡线小车(STM32+OpenMV)

    文章浏览阅读1.6k次,点赞9次,收藏18次。在现代机器人技术中,视觉巡线是一种常见的导航方式,它允许机器人通过识别和跟踪地面上的线路来自主导航。本文将总结使用...

  • 微信摇骰子表情包最全 【百科全说】

    微信摇骰子作弊表情包1到6点gif_微信摇骰子表情包最全 微信摇骰子表情包是小编为大家整理的最全微信摇骰子作弊表情包1到6点gif,和正的正常摇骰子是一样的,看...

  • 中法武汉生态示范城文化·体育活动中心

    武汉市中法武汉生态示范城文体中心项目...

  • 男子无聊建"恋丝袜爱高跟"QQ群?传播色情被批捕

    本题目:无聊建起QQ群 流传涩情被批捕 闲来无事建设QQ群,上传淫秽室频和图片供群员不雅寓目,还激劝其余群成员上传。群范围不停强大,人数近500名。近日,河北省...

  • QQ DiceBot: 创意无限的虚拟骰子机器人

    文章浏览阅读876次,点赞3次,收藏4次。QQ DiceBot: 创意无限的虚拟骰子机器人项目地址:https://gitcode.com/dynilath/q...

  • 双芯片+WM系统 HKC QQ全面配置低价亮相

    (中关村在线手机频道行情报道)2010年1月12日,HKCQQ(改版机)在商家“奥龙通讯”的最新价格是999元。该机的配置包括:单电单充、耳机、数据线、说明书。...

  • 躺着收钱!闲鱼自动发货机器人来啦~

    文章浏览阅读6.7k次,点赞2次,收藏28次。1目 标 场 景闲鱼上,很多卖家选择在平台上卖虚拟商品,大部分虚拟商品的交易方式都是通过网盘链接来完成交易。在很多...