2024-04-26 14:24 雷小军

科大讯飞发布星火大模型V3.5版本春季更新:升级128K长文本Tokens,垂类知识问答超越GPT-4 Turbo

AI奇点网4月26日报道丨4月26日上午,科大讯飞发布星火大模型V3.5春季更新。星火大模型V3.5首个模型版本在今年1月30日发布,是首个国产全栈式算力训练的多模态大模型,七大核心能力全面提升,数学、语言理解、语音交互能力超GPT-4 Turbo。

科大讯飞董事长刘庆峰宣布,科大讯飞正式发布旗下首个长文本、长图文、长语音的大模型。

图片

本次发布会上,科大讯飞展示了首个多模态能力的星火图文识别大模型,可以支持多达31种类型的各色文档图像识别。

还推出了一款基于星火大模型的AI应用「星火合同助手」,可以帮助行政人员审核合约的时候,规避司法风险、提炼合同重点信息等,并支持一键起草合同文件。

另外针对企业投标开发的「星火智能评标助手」应用也得到升级,让企业投标、选标、竞标更便捷高效。

除此之外,科大讯飞还发布了新版的数字人声合成大模型,内置在「星火APP」,支持“多情感超拟人合成”和“一句话声音复刻”。

图片

刘庆峰透露,「星火APP」是目前国内通用大模型安卓客户端下载量第一的应用软件,超过9600万次。

垂类知识问答,星火超越GPT-4 Turbo

随着今年Kimi大模型200万 Tokens「长文本」走红国内。

据介绍,星火大模型经历了多次迭代后,在春季更新的V3.5版本也迎来了近期备受瞩目的「长文本」能力。

包括长文档信息抽取、长文档知识问答、长文档归纳总结、长文档文本生成等。

图片

图片

大模型「长文本」上下文窗口吞吐Tokens性能达到GPT-4 Turbo今年4月发布的新版的97%。

在多个垂直领域的知识问答任务上,星火大模型「长文本」总体水平超过GPT-4 Turbo。

图像多模态识别覆盖31种场景、18种版面要素

经过多年积累,科大讯飞首次推出讯飞星火图文识别大模型。

图文识别大模型可以处理非常复杂的版面分析,可以结合篇章的语义和文字的理解能力进一步提升,而且可以覆盖更多专用领域的特殊的专业符号。

图片

据介绍,目前星火图文识别大模型支持31种最常见的生活办公应用场景。

以教育行业来说,比如书刊、学术论文、专利、报纸、海报、产品白皮书、PPT文档全面实现识别。往宽了说,甚至是餐厅的菜单等生活场景均实现了覆盖,易用性大幅提升。

图片

针对大场景里边的小细节,最常见的18种文档的版面要素也可实现识别与处理。

例如页眉、页脚、标题、栏目、段落、表格、插图等等要素,甚至还包括比较难、但很实用的公式、印章、二维码、手写材料等。

支持128K长文本、长图文、长语音上传识别

更长的大模型Tokens可以让AI系统记住更多的信息点,并且回复更加丰富且精准的内容。

星火大模型升级支持更长的Tokens字段,长度比肩GPT-4 Turbo的128K。

在发布会上,科大讯飞提取了一段董事长刘庆峰与新东方创始人俞敏洪的访谈节目上传到大模型作为案例。

多模态能力加持的星火大模型可以针对这个42M的音频文件进行了快速的信息读取,并且归纳出用户的提问。

在很多的场景下,我们需要从小说、论文等长文本文档,以及超长的录音、工作会议、采访中获得数据信息,包括各种的发布会、教培视频资料提取知识信息。

星火大模型已经升级「长文本」能力,把讯飞多年累积的语音识别和翻译技术结合起来,可对中英文资料进行快速内容提取。

图片

需要注意的是,上传的音视频文件尺寸有所限制,不得超过1GB。

首发多情感人声合成,一句话完成声音复刻

最后来看一下「星火APP」的重点更新功能。

除了同步升级V3.5模型春季更新外,APP内置「超拟人对话」服务,可以通过录制一段音频,仿照人声模拟生成音色。

AI系统可以像真人一样提供丰富情感、生动的口语表达,还有笑声、有语气、有情调等等。

过去三个月,讯飞星火团队不断改进产品功能体验与情绪表达的可感知度,提供了高兴、抱歉、安慰、撒娇、困惑等真人的语气生动表达。

图片

情绪感知度达到了85%以上,可以逼真地模仿不同年龄层、性别的用户音色。

据介绍,目前讯飞星火APP的「超拟人对话」已经可以支持一句话录制,便可生成高拟真度的数字人声。

图片

在发布活动的最后,科大讯飞董事长刘庆峰透露:今年的6月27日,讯飞星火V4.0版本将正式发布。

图片

目前星火大模型V3.5春季更新版本已经上线讯飞星火官网,家人们可以立即开展自主体验。

👇🏻点击下方的AI工具卡片,可以直达官网体验:

雷小军 工作人员

AI奇点网打杂的