微软公布SLM小语言AI模型最新成员Phi-3-vision 参数量42亿

发布日期：2024-05-27

134 次

5 月 26 日消息，微软近日公布了旗下小语言 AI 模型家族（SLM）最新成员 "Phi-3-vision"，这款模型主打 " 视觉能力 "，能够理解图文内容，同时据称可以在移动平台上流畅高效运行。

据介绍，Phi-3-vision 是微软 Phi-3 家族首款多模态模型，该模型的文字理解能力基于 Phi-3-mini，同时也具备 Phi-3-mini 的轻量特点，能够在移动平台 / 嵌入终端中运行；该模型参数量为 42 亿，大于 Phi-3-mini（3.8B），但小于 Phi-3-small（7B），上下文长度为 128k token，训练期间为 2024 年 2 月至 4 月。

Phi-3-vision 模型的最大特色正如其名，主要支持 " 图文识别能力 "，号称能够理解现实世界的图片含义，还能快速识别提取图片中的文字。

微软表示，Phi-3-vision 特别适合办公场合，开发人员特别优化了该模型在识别图表和方块图 ( Block diagram ) 方面的理解能力，据称可以利用用户输入的信息进行推论，同时还能做出一系列结论，为企业提供战略建议，号称 " 效果比肩大模型 "。

在模型训练方面，微软声称 Phi-3-vision 是由 " 多种类型图片及文字数据训练而成 "，包括一系列 " 经过严选的公开内容 "，例如 " 教科书等级 " 教育材料、代码、图文标注数据、现实世界知识、图表图片、聊天格式等内容，从而确保模型输入内容的多样性。为了确保隐私，微软声称他们所使用的训练数据 " 可追溯 " 不包含任何个人信息。

性能方面，微软提供了 Phi-3-vision 相较于字节跳动 Llama3-Llava-Next（8B）、微软研究院和威斯康星大学、哥伦比亚大学合作的 LlaVA-1.6（7B）、阿里巴巴通义千问 QWEN-VL-Chat 模型等竞品模型的比较图表，其中显示 Phi-3-vision 模型在多个项目上表现优异。

版权声明：本站内容除特别声明的原创文章之外，转载内容只为传递更多信息，并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题，请及时通过电子邮件或电话通知我们，以便迅速采取适当措施，避免给双方造成不必要的经济损失。联系电话：020-2204 2442,邮箱：Sales@greentest.com.cn。

上一篇: AI计算机或可在极端环境中运行，如金星
下一篇: 中国联通重磅发布元景经济大模型致力成为您身边的“AI经济助手”

为您精选

英特尔微软联合定义AI PC：须配有Copilot物理按键

3 月 27 日消息，英特尔在台北举办的开发者活动中宣布了其AI PC加速计划的两项新扩展内容，包括一个新的 PC 开发者计划，以及···

更新日期：2024-03-27 297 次
Windows设备大规模瘫痪影响深远：美国呼吁拆分微软

7月21日消息，据国外媒体报道，近日全球范围内Windows设备出现大规模瘫痪事件，不仅导致飞机停飞、医院服务中断，更暴露了全···

更新日期：2024-07-22 88 次
微软中国回应Windows电脑全球大规模蓝屏,占比不到1% 正积极帮助客户恢复

7月21日消息，近日Windows电脑大规模蓝屏事件持续引发关注。微软全球首席传播官Frank X· Shaw通过微软中国发布官方声明表示···

更新日期：2024-07-22 59 次
消息称联发科在为微软AI电脑设计ARM架构芯片

6月12日消息，据三位知情人士透露，联发科正在开发一款基于ARM架构的个人电脑芯片，该芯片将运行微软Windows操作系统。上个月···

更新日期：2024-06-13 110 次
微软拟在瑞典投资32亿美元持续发力欧洲AI和云计算

据最新报道，微软公司宣布了一项重大投资计划：将在瑞典投资32亿美元，用于人工智能和云计算基础设施的建设。这笔投资标志着···

更新日期：2024-06-04 115 次