马斯克旗下xAI开源Grok 1.0大模型丨苹果推出300亿参数多模态大模型丨苹果收购AI系统小型化研究公司-AI奇点网

2024-03-18 09:07 Altman

马斯克旗下xAI开源Grok 1.0大模型丨苹果推出300亿参数多模态大模型丨苹果收购AI系统小型化研究公司

AI奇点网2024年3月18日报道丨AI资讯早报

马斯克旗下xAI开源Grok 1.0大模型

当地时间3月17日，马斯克信守诺言，赶在本周的最后时刻开源旗下大模型。马斯克的AI创企xAI正式发布备受期待大模型Grok-1。据专家分析，其参数量达到了3140亿，远超OpenAI前年发布的GPT-3.5的1750亿规模。

这是世界上迄今参数量最大的开源大语言模型，遵照Apache 2.0协议开放模型权重和架构。

Grok-1是一个混合专家（Mixture-of-Experts，MOE）大模型，这种MOE架构重点在于提高大模型的训练和推理效率，形象地理解，MOE就像把各个领域的“专家”集合到了一起，遇到任务派发给不同领域的专家，最后汇总结论，提升效率。决定每个专家做什么的是被称为“门控网络”的机制。

目前，xAI已经将Grok-1的权重和架构在GitHub上开源。

苹果推出300亿参数多模态大模型

刚刚宣布放弃造车项目的苹果公司，在当今的人工智能(AI)竞赛中落伍了。为了摆脱窘境，苹果近期放弃了造车项目，正在全面转向生成式AI领域，并且很快有了新动作，推出了一款被命名为「MM1」的多模态大模型。

MM1的独特之处在于其庞大的规模和架构创新，包括密集的模型和混合专家模型。研发团队称，MM1不仅在预训练指标中是“最先进的”，并且在一系列已建立的多模态基准测试中，经过微调后也保持了“有竞争力的”性能。

据了解，MM1最高参数量为300亿，支持增强的上下文学习和多图像推理，在多模态基准测试中表现较好。尽管MM1的整体性能还没有完全超过谷歌的Gemini和OpenAI的GPT-4，但它被认为是苹果在AI方面的一次重大飞跃。

苹果收购AI系统小型化研究公司

根据彭博社报道，苹果公司在今年年初收购了一家加拿大AI创企DarwinAI，这家创企的首席科学家连同数十名员工已经加入了苹果的AI部门。这也是苹果已知收购的第33家AI公司。截止2023年底，苹果总共收购了32家AI公司，是当今知名科技公司中收购人工智能研究机构数量最多的大厂。

DarwinAI开发的AI技术主要用于工业制造过程中的印刷电路板（PCB）视觉检测领域，他们的核心技术优势主要是把AI系统做的更小型化，同时兼顾较高的处理速度。

这其实刚好正中苹果下怀，彭博社报道认为，苹果一直致力于做的就是在终端设备商本地运行AI大模型，而不是放在云端，因此DarwinAI的技术优势对苹果来说，经过评估之后很可能会有所帮助。

GPT-3.5 Turbo参数规模被扒：大约只有70亿

据外媒报道，来自南加州大学的最新研究显示，他们使用一种反向的攻击方法，花费不到 1000 美元就把最新版 gpt-3.5-turbo 模型的大概模样给呈现出来。南加大团队三位作者破解出了未公布的 gpt-3.5-turbo 嵌入向量维度（embedding size）为 4096 或 4608，通过这个数据可以推算出 GPT-3.5 的大概参数规模。

根据目前已知的开源大模型，比如 Llama 和 Mistral，嵌入式向量维度在 4096 的时候，参数规模大约为 7B 参数规模。其它比例的话，就会造成网络过宽或过窄，已被证明对模型性能不利。

因此南加大团队指出，可以反向倒推 gpt-3.5-turbo 的参数规模也在 7B 左右，除非是专家模型 MoE 架构可能不同。

美图吴欣鸿：原本以为类似Sora的产品2-3年后才能实现

3月15日，美图公司披露2023年业绩报告，总收入27亿元，同比增长29.3%。经调整后归属于母公司权益持有人净利润3.7亿元，同比增长233.2%。美图CEO欣鸿在业绩会上表示，AI 原生工作流会是未来非常巨大的机会，美图会致力于 AI 原生应用的进一步打造。同时他还强调，美图不会做通用大模型，但美图会针对不同垂直场景的需求做模型的训练和微调。

吴欣鸿透露，Sora 给了行业较大的心理冲击，原本以为这样的能力会在 2-3 年后才能实现。Sora 也让美图反省了视觉大模型的底层架构，紧急升级了模型的底层框架，重新投入到图像和视频模型的训练。他认为，垂直场景支撑创新的 AI 原生应用还有约 2 年的窗口期。

Altman 工作人员

AI奇点网主编