编译 | 朱可轩
编辑 | 陈彩娴
不久前,苹果苹果在全球开发者大会(wwdc)上推出了最新个人智能系统 apple intelligence,大模多维度评可以深度集成到 ios 18、型最新论ipados 18 和 macos sequoia 中,模型引起了 ai 业内人士、测出尤其是苹果端侧智能领域的讨论。
苹果在 2024 年的大模多维度评一系列工艺动作,被戏称为苹果为端侧 ai 所设计的型最新论“开卷考试”,即:大模型时代,模型ai 工艺应如何在手机、测出平板等端侧设备上运营,苹果让手机变得更智能?大模多维度评
近日,苹果团队又在 arxiv 上更新了关于 apple intelligence 的型最新论最新论文,其中介绍了苹果用在 apple intelligence 上的模型两个基础语言模型,包括:一个在设备端运行的测出大约 30 亿参数的语言模型 afm-on-device,以及一个在私有云端服务上运行的大规模支持器语言模型 afm-server。
论文链接:https://arxiv.org/pdf/2407.21075
根据该论文,苹果开发的端侧大模型在语言理解、指令跟随、推理、写作与工具使用等多个任务上都有出色表现。同时,在保护客户信息隐私与保障上,苹果强调在后训练阶段不会使用客户的个人信息进行训练。
结果显示,苹果的 afm 模型在指令遵循层面皆优于其他大模型,同时,从写作写作能力来看,在摘要总结方面,afm 模型无论是端侧还是私有云也均要好于其他。而在保障性评估时,afm 模型也比其他模型要更为负责。但是值得一提的是,afm 模型的数学能力整体上来看较为一般。
研究发现
人类评估
在人类评估中,在端侧,afm 仅输于 llama-3-8b ,而与其他模型相比显然更优。据论文介绍,afm 与 phi-3-mini 相比,模型尺寸小了 25%,而胜率达47.7% ,afm 甚至超出参数数量为两倍多的 gemma-7b 和 mistral-7b。而在私有云上,与gpt-3.5相比时,afm 也具有一定竞争力,胜率超 50%。
指令遵循
在指令级(instruction-level)与提示级(prompt-level)的评估中,无论是端侧还是私有云上,均为 afm 模型表现最好。其指令级的得分分别为 85.7% 和 88.5%,而提示级的得分则分别为 79.3% 和 83.0%。
此外,苹果还使用了 alpacaeval 2.0 lc 和 arena hard 作为基准进行评估。在私有云上,这两项测试中均为 gpt-4 的表现最优,其中,在 arena hard 测试中,gpt-4 的得分甚至倍超 afm。在端侧的 alpacaeval 2.0 lc 测试中,则为 gemma-7b 评分最优,afm 模型紧随其后。
工具使用
苹果还测试了在调用工具使用基准测试中 afm 模型的表现,分别从简单(simple)、多重(multiple)、并行(parallel)、并行多重(parallel multiple)、相关性(relevance)和平均(average)几个纬度展开。
整体来看,afm-server 表现较优,从测试结果上来看,在简单、多重、相关性、平均性维度中,afm-server 均得分最高,分别为91.0、95.5、91.3、89.5。在并行多重维度中,afm-server 得分 85.0,仅次于 gemini-1.5-pro-0514 的 88.0,且领先于 gpt-4 与 gpt-3.5。
但 afm-on-device 表现则较为一般,在多重、并行多重、相关性及平均维度中,均要稍逊于 gpt-4 和 gemini-1.5-pro-0514。除此之外,在并行维度中,afm-server 和 afm-on-device 的表现情况则都较为一般。
写作能力分两块,一块是摘要总结,一块是长作文。其中,afm 模型主要在摘要总结上表现较好,在端侧的表现优于 mistral-7b、gemma-7b、phi-3-mini 与 gemma-2b,在私有云上则优于 gpt-4、mixtral-8x22b、dbrx instruct 与 gpt-3.5:
数学能力上,苹果 afm 模型的表现则一般,仅在端侧 math 基准上高于 llama-3-8b、phi-3 mini、gemma-7b 与 mistral-7b,gsm8k 是 8-shot、math 是 4-shot:
负责任的 ai
在文本摘要总结功能中,苹果团队将 afm 模型在邮件、信息与通知这三个应用上作了测试,分别从 5 个维度(仇恨言论、歧视、违法、色情、暴力)来评估模型的“好”与“差”。研究显示,苹果的 afm 模型在“好”维度的表现均高于 gemma-7b、phi-3-8b 与 llama-3-8b:
保障性评测
在有害输出上,苹果 afm-on-device 的得分为 7.5%、afm-server 的得分为 6.3%,得分越低、效果越好,远远高于 gemma-7b、gemma-7b、phi-3-mini、llama-3-8b 与 mistral-7b(其余得分均在 10% 以上):
在保障提示词上,人类评估,苹果的 afm-on-device 模型表现优于 gemma-7b、gemma-7b、phi-3-mini、llama-3-8b 与 mistral-7b,afm-server 模型的表现也要远超 gpt-3.5、gpt-4 和 llama-3-70b:雷峰网(公众号:雷峰网)雷峰网
雷峰网757399.com澳门的版权文章,未经授权禁止转载。详情见转载须知。