阿里语音 AI 团队开源全球首个支持链式推理的音频生成模型 ThinkSound,融合多模态大语言模型与统一音频生成架构,依托 2531.8 小时的 AudioCoT 数据集,实现高保真空间音频生成。其性能优于主流方法,代码和预训练权重已开源,标志着 AI 音频从 “看图配音” 迈向 “结构化理解画面”。
谷歌 AI 视频工具 Veo3 重磅升级,支持单张静态图片生成含音频的高质量视频,可保持角色多镜头一致性,提供推镜头等运镜功能。用户可选择不同质量模型,按对应 credits 消耗资源,展现 AI 在创作领域的潜力。
Hugging Face 推出 30 亿参数的开源模型 SmolLM3,性能超越 Llama-3.2-3B 等同类模型,支持多语言处理与双模式推理(深度思考和非思考)。采用先进 transformer 解码器架构,经三阶段混合训练提升能力,架构细节公开便于研究优化。
阿里通义开源网络智能体 WebSailor,在 BrowseComp 评测集中超越 DeepSeek R1 等闭源模型,推理和检索能力突出。银河证券称 AI Agent 经济已开启,焦点科技、中科金财等企业在该技术应用上布局领先。
Moonvalley 推出的 Marey Realism v1.5 支持原生 1080P 视频生成,基于 100% 授权数据训练规避版权风险。可实现文本到视频、图像到视频生成,精准解读复杂提示,为影视、广告创作提供安全高效工具。
Vidu Q1 的 “参考转视频” 功能支持上传最多七张参考图像,生成 1080p 高视觉一致性视频。通过语义融合和多主体一致性技术,解决场景断裂、角色失真问题,提升创作灵活性与连贯性。
苹果正在开发基于 AI 的 “支持助手”,将集成于 Apple Support 应用,用户联系客服前可获 AI 生成的解决方案,还可能支持文件上传,旨在提升客户服务效率,减少等待时间。
飞书推出知识问答、AI 会议、Aily 等多款 AI 产品,加速企业级 AI 落地,同时发布业界首个 AI 应用成熟度模型,助力企业评估 AI 产品效果。其多维表格性能与 AI 能力提升,支持大规模数据处理。
美国教师联合会联合微软、OpenAI、Anthropic 成立全国人工智能教育学院,提供免费 AI 工具培训,获 2300 万美元资金支持。旨在帮助教师掌握 AI 技术,推动教育民主化,确保技术服务于师生。
昆仑万维推出 Skywork-R1V 3.0,跨模态推理能力卓越,虽训练样本少,但表现接近人类专家水平,展现出强大的多模态处理实力。