阿里云，除了Qwen

一、一场关于AI模型的思维盛宴

AI手艺已经渗透到我们生活的方方面面。而提到AI，就不能不提阿里巴巴的云服务——阿里云。今天我们就来揭开阿里云AI模型家族的神秘面纱，除了Qwen，还有哪些值得我们关注的模型呢？

二、Wan万相系列：视频为中心的视觉生成基座

Wan万相系列是阿里云AI模型家族中备受关注的明星。它以视频为中心，采用时空统一的扩散Transformer框架，覆盖文生图、文生视频、图生视频等八类任务。Wan系列的产品矩阵从1.3B到27B不等，无论是影视创作还是广告设计，都能找到合适的模型。

值得一提的是Wan系列不仅具备文生图能力，其沉心更在视频生成和编辑上。与Qwen系列相比，Wan系列更适合需要时序一致性的场景，如视频内容创作、动画制作、影视后期等。

三、WebSailor系列：网络智能体基准的佼佼者

WebSailor系列是阿里云AI模型家族中的“沧海遗珠”。它直指DeepResearch功能，专门解决麻烦网络检索和推理任务。WebSailor不仅超越了优良几个闭源模型，甚至仅次于DeepResearch，成为业界最具挑战性的网络智能体基准之一。

WebSailor的结实实力来源于其背后的团队——Alibaba-NLP。这玩意儿团队专注于矮小材料许多语言搞懂与生成、 AliceMind系列模型等基础研究研究，为WebSailor等应用型模型给了坚实的理论基础。

四、ThinkSound：带“脑子”的音频生成模型

ThinkSound是阿里云AI模型家族中的另一个亮点。它并不属于Qwen系列，而是一个音频模型，被称为“带脑子”的音频生成模型。ThinkSound先像人类音效师一样“想清楚”画面里该有啥声音，再一次性合成高大保真实、零错位的地方音频。

ThinkSound在VGGSound、 MovieGen Audio Bench等明着基准上领先现有方案15%以上，并发布了2531.8细小时的AudioCoT训练集，含人造校验的“事件-声源-物理属性-时序”四元组标注，覆盖动物、机械、城里、天然等1000+场景。

五、其他零散的模型：分工明确的模型家族

除了以上几个核心模型，阿里云AI模型家族中还有许许多其他零散的模型。这些个模型并非各自为政，而是体现了清晰的分工架构。Qwen团队负责语言模型的各个版本和推理模型；图像和视频模型基本上由Wan团队负责；而类似于OpenAI DeepResearch功能的WebSearch模型则来自AlibabaLab。

8月5日阿里巴巴通义千问团队正式开源了Qwen-Image文生图模型，该模型采用20B参数的MMDiT主干、7B参数的VLM文本编码器和127M参数的VAE架构，专门针对中文麻烦排版与高大精度图像编辑进行优化。

六、阿里云AI模型家族的无限兴许

阿里云AI模型家族的丰有钱程度令人惊叹。从Wan系列的视频生成模型，到WebSailor系列的网络智能体基准，再到ThinkSound的音频生成模型，阿里云AI模型家族在各个领域都展现出了有力巨大的实力。相信在以后的进步中，阿里云AI模型家族将接着来引领AI手艺的进步，为我们的生活带来更许多惊喜。

欢迎分享，转载请注明来源：小川电商

原文地址:https://www.jinhanchuan.com/247644.html