近期,DeepSeek 发布DeepSeek-R1 模型及多模态框架Janus-Pro、JanusFlow,模型在小参数、低成本的情况下展现出色的综合性能,腾讯云、华为云以及微软、英伟达等厂商相继上线DeepSeek 模型服务。同时,阿里、字节发布最新多模态模型,国产大模型竞争力持续迭代下商业应用有望加速落地。
DeepSeek 发布多款模型并登陆国内外头部云厂平台,商业应用有望迎来爆发1 月20 日,DeepSeek 正式发布DeepSeek-R1 模型并同步开源模型权重。在模型极少标注数据的情况下,模型在数学、代码、自然语言推理等任务上性能可比肩OpenAI o1 正式版,同时DeepSeek-R1 蒸馏小模型表现优于OpenAI o1-mini。
DeepSeek-R1 API 服务定价为每百万输入tokens 1 元(缓存命中)/ 4 元(缓存未命中),每百万输出tokens 16 元,相较于o1、o1-preview 模型的价格降低了90%以上。近日腾讯云、华为云宣布已上线基于其云服务的DeepSeek-R1 相关服务。微软、英伟达、亚马逊、AMD 等厂商也已上线DeepSeek 模型服务。
1 月28 日,DeepSeek 发布多模态框架Janus-Pro 和JanusFlow,其中Janus-Pro 是一款统一多模态理解与生成的创新框架,通过解耦视觉编码的方式,极大提升了模型在不同任务中的适配性与性能。其中,Janus-Pro 的SigLIP 编码器专门负责理解图像,能提取图像的高层语义特征,并关注图像的整体含义和场景关系;而VQ tokenizer 编码器,专门用于创作,将图像转换为离散的token 序列,这样架构创新使得Janus-Pro 在7B 参数规模下,仅用32 个节点、256 张A100 和14 天的时间就完成训练并取得出色性能表现。
阿里开源视觉AI Agent 模型Qwen2.5-VL,可自动化操作电脑、手机1 月28 日,阿里巴巴发布了最新视觉多模态模型Qwen2.5-VL,与之前版本相比,除了在图像、文本、视频的理解、识别能力更强之外,Qwen2.5-VL 最大特色就是可以直接作为一个视觉Agent 自动化操作电脑、手机。除Agent 能力外,Qwen2.5-VL 升级了视频理解能力,通过FPS 训练和绝对时间编码技术,能理解超长视频,定位秒级事件,还能在长视频中搜索具体事件、总结不同时段要点,帮用户快速提取关键信息。
豆包推出实时语音大模型,在情感理解和情感表达等方面取得显著进展豆包实时语音大模型是一款语音理解和生成一体化的模型,实现了端到端语音对话,主要面向中文语境和场景。依托于语音和语义联合建模,该模型呈现出接近真人的语音表达水准,在语音表现力、控制力、情绪承接方面表现惊艳,并具备低时延、对话中可随时打断等特性。
建议关注标的
AI Agent 应用:科大讯飞、焦点科技、鼎捷数智、彩讯股份、迈富时、拓尔思、泛微网络;
AI 垂类应用:金山办公、万兴科技、昆仑万维、虹软科技、润达医疗、美图公司、商汤-W;
风险提示
1、AI 技术迭代不及预期的风险;2、AI 商业化产品发布不及预期;3、政策不确定性带来的风险;4、下游市场不确定性带来的风险;
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:贺翀 )
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
【广告】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com
最新评论