2024-03-18 09:07 Altman

马斯克旗下xAI开源Grok 1.0大模型丨苹果推出300亿参数多模态大模型丨苹果收购AI系统小型化研究公司

AI奇点网2024年3月18日报道丨AI资讯早报

马斯克旗下xAI开源Grok 1.0大模型

当地时间3月17日,马斯克信守诺言,赶在本周的最后时刻开源旗下大模型。马斯克的AI创企xAI正式发布备受期待大模型Grok-1。据专家分析,其参数量达到了3140亿,远超OpenAI前年发布的GPT-3.5的1750亿规模。

这是世界上迄今参数量最大的开源大语言模型,遵照Apache 2.0协议开放模型权重和架构。

图片

Grok-1是一个混合专家(Mixture-of-Experts,MOE)大模型,这种MOE架构重点在于提高大模型的训练和推理效率,形象地理解,MOE就像把各个领域的“专家”集合到了一起,遇到任务派发给不同领域的专家,最后汇总结论,提升效率。决定每个专家做什么的是被称为“门控网络”的机制。

目前,xAI已经将Grok-1的权重和架构在GitHub上开源。

苹果推出300亿参数多模态大模型

刚刚宣布放弃造车项目的苹果公司,在当今的人工智能(AI)竞赛中落伍了。为了摆脱窘境,苹果近期放弃了造车项目,正在全面转向生成式AI领域,并且很快有了新动作,推出了一款被命名为「MM1」的多模态大模型。

MM1的独特之处在于其庞大的规模和架构创新,包括密集的模型和混合专家模型。研发团队称,MM1不仅在预训练指标中是“最先进的”,并且在一系列已建立的多模态基准测试中,经过微调后也保持了“有竞争力的”性能。

据了解,MM1最高参数量为300亿,支持增强的上下文学习和多图像推理,在多模态基准测试中表现较好。尽管MM1的整体性能还没有完全超过谷歌的Gemini和OpenAI的GPT-4,但它被认为是苹果在AI方面的一次重大飞跃。

苹果收购AI系统小型化研究公司

根据彭博社报道,苹果公司在今年年初收购了一家加拿大AI创企DarwinAI,这家创企的首席科学家连同数十名员工已经加入了苹果的AI部门。这也是苹果已知收购的第33家AI公司。截止2023年底,苹果总共收购了32家AI公司,是当今知名科技公司中收购人工智能研究机构数量最多的大厂。

DarwinAI开发的AI技术主要用于工业制造过程中的印刷电路板(PCB)视觉检测领域,他们的核心技术优势主要是把AI系统做的更小型化,同时兼顾较高的处理速度。

这其实刚好正中苹果下怀,彭博社报道认为,苹果一直致力于做的就是在终端设备商本地运行AI大模型,而不是放在云端,因此DarwinAI的技术优势对苹果来说,经过评估之后很可能会有所帮助。

GPT-3.5 Turbo参数规模被扒:大约只有70亿

据外媒报道,来自南加州大学的最新研究显示,他们使用一种反向的攻击方法,花费不到 1000 美元就把最新版 gpt-3.5-turbo 模型的大概模样给呈现出来。南加大团队三位作者破解出了未公布的 gpt-3.5-turbo 嵌入向量维度(embedding size)为 4096 或 4608,通过这个数据可以推算出 GPT-3.5 的大概参数规模。

根据目前已知的开源大模型,比如 Llama 和 Mistral,嵌入式向量维度在 4096 的时候,参数规模大约为 7B 参数规模。其它比例的话,就会造成网络过宽或过窄,已被证明对模型性能不利。

因此南加大团队指出,可以反向倒推 gpt-3.5-turbo 的参数规模也在 7B 左右,除非是专家模型 MoE 架构可能不同。

美图吴欣鸿:原本以为类似Sora的产品2-3年后才能实现

3月15日,美图公司披露2023年业绩报告,总收入27亿元,同比增长29.3%。经调整后归属于母公司权益持有人净利润3.7亿元,同比增长233.2%。美图CEO欣鸿在业绩会上表示,AI 原生工作流会是未来非常巨大的机会,美图会致力于 AI 原生应用的进一步打造。同时他还强调,美图不会做通用大模型,但美图会针对不同垂直场景的需求做模型的训练和微调。

吴欣鸿透露,Sora 给了行业较大的心理冲击,原本以为这样的能力会在 2-3 年后才能实现。Sora 也让美图反省了视觉大模型的底层架构,紧急升级了模型的底层框架,重新投入到图像和视频模型的训练。他认为,垂直场景支撑创新的 AI 原生应用还有约 2 年的窗口期。

Altman 工作人员

AI奇点网主编