3 月 4 日,OpenAI 宣布推出 GPT-5.3 Instant 模型。作为 ChatGPT 日常使用频率最高的模型更新,GPT-5.3 Instant 重点改善了语气、相关性和对话流畅度,旨在提供更准确的回答及更优质的网络搜索整合结果。
该模型在多个方面进行了体验优化。首先,模型大幅减少了不必要的拒答和过度防御性的说教前言,能够更直接地提供有用信息。其次,在调用网络搜索时,GPT-5.3 Instant 能够更好地平衡网络信息与自身知识,减少对搜索结果的过度依赖,避免输出冗长的链接列表。此外,模型进一步修正了过去偶尔出现的生硬或过度预设用户意图的语气,提供了更自然、流畅的交流体验,并在写作任务中展现出更强的连贯性和表现力。在事实准确性方面,根据 OpenAI 的内部评估,在医疗、法律和金融等高风险领域,该模型在使用网络搜索时的幻觉率下降了 26.8%,仅依赖内部知识时下降了 19.7%。
目前,GPT-5.3 Instant 已向所有 ChatGPT 用户开放,开发者也可通过 API 使用 gpt-5.3-chat-latest 访问该模型。针对 Thinking 和 Pro 版本的更新将于近期推出。此外,付费用户在未来三个月内仍可在旧版模型选项中访问 GPT-5.2 Instant,该模型将于 2026 年 6 月 3 日正式退役。
(OpenAI)
3 月 3 日,Google 正式宣布推出 Gemini 3.1 Flash-Lite 模型。该模型基于 Gemini 3 Pro 的架构打造,是目前 Google 旗下最具成本效益的 Gemini 模型,专门针对需要高并发、对延迟敏感的任务(如翻译和数据分类)进行了深度优化。
Gemini 3.1 Flash-Lite 支持文本、代码、图像、音频、视频及 PDF 等原生多模态输入,提供最高 100 万词元 (Token) 的上下文窗口,以及最高 64K 词元的文本输出。与前代的 Gemini 2.0 和 2.5 Flash-Lite 相比,新模型在响应质量、复杂指令遵循以及音频输入质量(如自动语音识别)等关键能力上实现了显著提升,整体性能表现已追平 Gemini 2.5 Flash。
此外,该模型还创新性地引入了灵活的思考支持功能。开发者可以根据具体用例,在极低、低、中、高四个推理级别中进行自由切换,从而在生成响应的质量与速度之间找到最佳平衡点。
目前,Gemini 3.1 Flash-Lite 的公开预览版已经上线,开发者可通过 Google Cloud 的 Vertex AI、Google AI Studio 以及 Gemini API 访问并体验该模型。
(Google DeepMind)
2 月 27 日,Google DeepMind 宣布推出最新图像生成模型 Nano Banana 2 (gemini-3.1-flash-image-preview) 。
该模型将前代 Nano Banana Pro 的高质量与复杂逻辑推理能力,与 Gemini Flash 模型的生成速度相结合,旨在为用户提供更高效的图像创建与编辑体验。
Nano Banana 2 具备先进的世界知识,能够结合网络搜索的实时信息生成准确的图像、信息图表及数据可视化内容。该模型还支持精准的文本渲染与图片内文本翻译功能。
在创作控制方面,模型强化了对复杂指令的遵循能力,支持在单一工作流中保持最多 5 个角色和 14 个物品的特征一致性。此外,模型可输出从 512 px 到 4K 分辨率的多种宽高比图像,并在光影、纹理和细节表现上实现了显著提升。
目前,Nano Banana 2 已开始在多款 Google 产品中逐步上线。在 Gemini 应用中,它将在快速、思考与 Pro 模型选项中取代 Nano Banana Pro 成为默认选项,但高级订阅用户仍可手动切换回 Pro 版本。用户也可在 Google 搜索的 AI 模式和智能镜头 (Lens) 、AI Studio、Gemini API 以及 Google Cloud 的 Vertex AI 中体验该模型。此外,Nano Banana 2 已成为 Flow 工具的默认图像模型,供用户免费使用,并被集成至 Ads 广告服务中。
(Google)
继旗舰模型 Qwen3.5-397B-A17B 首次开源后,Qwen 团队新增发布三款模型: Qwen3.5-122B-A10B、 Qwen3.5-27B (Dense) 与 Qwen3.5-35B-A3B 。上述模型均已在 GitHub、Hugging Face 及魔搭社区提供下载,供研究与微调使用。
同时,与 Qwen3.5-35B-A3B 对齐的托管生产版本 Qwen3.5-Flash API 已正式上线阿里云百炼平台。该版本默认支持 100 万词元 (Token) 的上下文长度,并内置了官方原生工具链,开发者无需额外集成即可直接体验。
同时,与 Qwen3.5-35B-A3B 对齐的托管生产版本 Qwen3.5-Flash API 已正式上线阿里云百炼平台。该版本默认支持 100 万词元 (Token) 的上下文长度,并内置了官方原生工具链,开发者无需额外集成即可直接体验。
Google 宣布推出 Gemini 3.1 Pro 模型
Google 今日宣布推出 Gemini 3.1 Pro 模型。作为 Gemini 3 系列的最新升级,3.1 Pro 进一步提升了核心推理能力,旨在为复杂的工程和研究挑战提供更智能的解决方案。在评估模型解决全新逻辑模式能力的 ARC-AGI-2 基准测试中,Gemini 3.1 Pro 取得了 77.1% 的成绩,其推理性能达到了此前 Gemini 3 Pro 的两倍以上。
即日起,Gemini 3.1 Pro 已开始向多端用户推送预览版:
- 开发者可通过 Google AI Studio、Gemini CLI、代理开发平台 Google Antigravity 以及 Android Studio 访问其 Gemini API。
- 企业用户可通过 Vertex AI 和 Gemini Enterprise 接入使用。
- 消费者方面,Gemini 3.1 Pro 已在 Gemini 应用中向 Google AI Pro 和 Ultra 计划用户开放了更高的使用上限,并独家登陆了面向上述订阅用户的 NotebookLM。
(Google Blog)
Google 今日宣布推出 Gemini 3.1 Pro 模型。作为 Gemini 3 系列的最新升级,3.1 Pro 进一步提升了核心推理能力,旨在为复杂的工程和研究挑战提供更智能的解决方案。在评估模型解决全新逻辑模式能力的 ARC-AGI-2 基准测试中,Gemini 3.1 Pro 取得了 77.1% 的成绩,其推理性能达到了此前 Gemini 3 Pro 的两倍以上。
即日起,Gemini 3.1 Pro 已开始向多端用户推送预览版:
- 开发者可通过 Google AI Studio、Gemini CLI、代理开发平台 Google Antigravity 以及 Android Studio 访问其 Gemini API。
- 企业用户可通过 Vertex AI 和 Gemini Enterprise 接入使用。
- 消费者方面,Gemini 3.1 Pro 已在 Gemini 应用中向 Google AI Pro 和 Ultra 计划用户开放了更高的使用上限,并独家登陆了面向上述订阅用户的 NotebookLM。
(Google Blog)
稍早前,Google 为 Gemini 发布了音乐生成功能,使用其最先进音乐生成模型 Lyria 3,并已在 Gemini 桌面端开启测试。
用户只需输入文字描述或上传图片视频,即可生成 30 秒带歌词的高保真音乐,且支持对风格和人声的精细控制。该功能向 18 岁以上用户开放,生成的所有音轨均嵌入 SynthID 水印以确保可追溯性。
(X)
Anthropic 正式发布 Claude Sonnet 4.6,官方称其为迄今最强的 Sonnet 模型。该模型在编程、长上下文推理、Agent 规划、知识工作及设计等领域全面升级,并提供支持 100 万 token 的上下文窗口(Beta 版)。价格维持每百万 token 输入 3 美元、输出 15 美元不变。
在编程方面,根据 Claude Code 的早期测试,约 70% 的开发者更偏好 Sonnet 4.6 而非上代模型,59% 的用户选择它而非旗舰 Opus 4.5。用户反馈其在修改代码前能更有效阅读上下文,并减少“偷懒”行为。
在计算机使用能力上,OSWorld 基准测试得分从 14.0% 大幅提升至 72.5%,能更有效地处理复杂电子表格和多步网页表单任务。据外部评估,Sonnet 4.6 在部分真实工作任务基准上略微优于 Opus 4.6。
Anthropic 同步推出改进版 Web Search 和 Web Fetch 工具,通过代码执行对搜索结果进行动态过滤,官方数据显示平均准确率提升 11%,输入 Token 消耗减少 24%。
Sonnet 4.6 现已上线 API 及各类 AI 应用,免费版 Claude 也可体验 Sonnet 4.6。官方建议,对于大规模代码重构等超复杂任务,Opus 4.6 仍是最佳选择,但对多数任务,Sonnet 4.6 提供了极高性价比。
(Juya)
#推广
💎 特别优惠:
Cubence 是一家稳定高效的 AI 服务中转平台,为 Claude Code、Codex、Gemini 等 AI 工具提供中转服务,有着不错的稳定性和性价比。
Cubence 为 CCH 的使用用户提供了特别的优惠折扣:在购买时使用优惠券
→ 立即访问
💎 特别优惠:
PackyCode 是一家稳定、高效的 API 中转服务商,提供 Claude Code、Codex、Gemini 等多种中转服务。
PackyCode 为本软件的用户提供了特别优惠,使用此链接注册并在充值时填写优惠码
→ 立即访问
💎 特别优惠:
YesCode 是一家低调务实的 AI API 中转服务商,专注于为开发者提供稳定可靠的 Claude、Codex、Gemini 等模型接入服务,以扎实的技术底蕴和持续稳定的服务质量赢得用户信赖。
通过此链接注册即可体验
→ 立即访问
💎 特别优惠:
SSSAiCode 是一家稳定可靠的 API 中转站,致力于提供稳定、可靠、平价的 Claude、CodeX 模型服务。
SSSAiCode 为本软件的用户提供特别优惠,使用此链接注册可长期享受每次 10$ 的购买奖励
→ 立即访问
💎 特别优惠:
Cubence 是一家稳定高效的 AI 服务中转平台,为 Claude Code、Codex、Gemini 等 AI 工具提供中转服务,有着不错的稳定性和性价比。
Cubence 为 CCH 的使用用户提供了特别的优惠折扣:在购买时使用优惠券
DING113CCH,可享受 10% 优惠折扣。 → 立即访问
💎 特别优惠:
PackyCode 是一家稳定、高效的 API 中转服务商,提供 Claude Code、Codex、Gemini 等多种中转服务。
PackyCode 为本软件的用户提供了特别优惠,使用此链接注册并在充值时填写优惠码
WITHCCH,可享受 9 折优惠 → 立即访问
💎 特别优惠:
YesCode 是一家低调务实的 AI API 中转服务商,专注于为开发者提供稳定可靠的 Claude、Codex、Gemini 等模型接入服务,以扎实的技术底蕴和持续稳定的服务质量赢得用户信赖。
通过此链接注册即可体验
→ 立即访问
💎 特别优惠:
SSSAiCode 是一家稳定可靠的 API 中转站,致力于提供稳定、可靠、平价的 Claude、CodeX 模型服务。
SSSAiCode 为本软件的用户提供特别优惠,使用此链接注册可长期享受每次 10$ 的购买奖励
→ 立即访问
2026 年 2 月 12 日,MiniMax 在官网宣布推出 MiniMax-M2.5。官方称,MiniMax-M2.5 经过数十万个真实复杂环境中的大规模强化学习 (Reinforcement Learning, RL) 训练,面向编程、工具调用与搜索、办公等生产力场景,目标是在真实世界任务中提升可交付性与执行效率。
在公开的基准结果中,MiniMax 表示 M2.5 在 SWE-Bench Verified 达到 80.2%,Multi-SWE-Bench 达到 51.3%,BrowseComp 达到 76.3%。编程能力方面,官方强调模型具备「像架构师一样思考和构建」的特征,包括在写代码前先进行功能、结构与用户界面 (User Interface, UI) 的拆解规划,并在超过 10 种语言与多平台全栈工程任务上训练;在不同脚手架的泛化测试中,M2.5 在 Droid 上通过率为 79.7%,在 OpenCode 上通过率为 76.1%。
(MiniMax)
据国内媒体报道,字节跳动火山引擎初步确定 2026 年 2 月 14 日发布豆包大模型的一系列重要升级发布。
本次模型发布涉及豆包大模型 2.0、音视频创作模型 Seedance 2.0、图像创作模型 Seedream 5.0 Preview。
此次升级,豆包大模型 2.0 将正式发布,基础模型能力和企业级 Agent 能力将有大幅提升。
本次模型发布涉及豆包大模型 2.0、音视频创作模型 Seedance 2.0、图像创作模型 Seedream 5.0 Preview。
此次升级,豆包大模型 2.0 将正式发布,基础模型能力和企业级 Agent 能力将有大幅提升。
智谱发布了新一代旗舰基座模型 GLM-5 及其编程强化版 GLM-5-Code。GLM-5 面向 Agentic Engineering 打造,面向复杂系统工程与长程 Agent 任务;GLM-5-Code 则针对真实编程与 Coding Agent 场景强化了工具调用稳定性与前端生成准确性。
在规格方面,文档给出的信息显示,两款模型均为文本输入、文本输出;上下文窗口为 200K,最大输出为 128K 词元 (Token)。
在训练与架构层面, GLM-5 基座参数规模从 355B (激活 32B) 扩展至 744B (激活 40B),预训练数据从 23T 提升至 28.5T;后训练方面引入异步强化学习框架「Slime」与异步智能体强化学习算法;长上下文方面首次集成稀疏注意力机制 (DeepSeek Sparse Attention),以在长文本效果尽量无损的前提下降低部署成本,并提升词元效率 (Token Efficiency)。
在编程与 Agent 评测方面, GLM-5 在 SWE-bench-Verified 获得 77.8 分、在 Terminal Bench 2.0 获得 56.2 分,均为开源模型最高分数,并表示其性能超过 Gemini 3.0 Pro;文档还称其在 BrowseComp、MCP-Atlas 与 τ²-Bench 等基准中取得开源第一,并在内部 Claude Code 评估集合中显著超越 GLM-4.7。
(智谱)
——————
深度求索客服称,「DeepSeek 网页/ APP 正在测试新的长文本模型结构,支持 1M 上下文。
注意:API 服务不变,仍为 V3.2,仅支持 128K 上下文。
感谢各位的持续关注~祝新年快乐」
字节跳动发布 Seedance 2.0
2 月 7 日,字节跳动发布新一代视频生成模型 Seedance 2.0。SuperCLUE 团队随后基于 SuperCLUE-T2V 文生视频 (Text-to-Video, T2V) 基准开展专项测评,并与谷歌 (Google) Veo 3.1 (Veo-3.1-Generate-Preview)、Vidu Q3 等模型对比。
SuperCLUE 公布的结果显示,Seedance 2.0 在 SuperCLUE-T2V 中文原生「文生视频」榜单中排名第一。其关键维度得分包括:视频画质渲染 90.88 分、世界模拟 88.58 分、应用设计 79.26 分、中国文化 70.93 分、影视素材 66.62 分。测评文章同时强调了 Seedance 2.0 在视音频协同、镜头语言组织与材质细节还原等方面的表现,并称其相较前代 Doubao-Seedance-1.5-pro 在多项应用场景维度有明显提升。
SuperCLUE 也指出,Seedance 2.0 仍可能在复杂中文文本生成中出现乱码,且在长文本与多约束提示词理解、镜头衔接自然度以及现实物理逻辑一致性等方面存在改进空间。
2 月 7 日,字节跳动发布新一代视频生成模型 Seedance 2.0。SuperCLUE 团队随后基于 SuperCLUE-T2V 文生视频 (Text-to-Video, T2V) 基准开展专项测评,并与谷歌 (Google) Veo 3.1 (Veo-3.1-Generate-Preview)、Vidu Q3 等模型对比。
SuperCLUE 公布的结果显示,Seedance 2.0 在 SuperCLUE-T2V 中文原生「文生视频」榜单中排名第一。其关键维度得分包括:视频画质渲染 90.88 分、世界模拟 88.58 分、应用设计 79.26 分、中国文化 70.93 分、影视素材 66.62 分。测评文章同时强调了 Seedance 2.0 在视音频协同、镜头语言组织与材质细节还原等方面的表现,并称其相较前代 Doubao-Seedance-1.5-pro 在多项应用场景维度有明显提升。
SuperCLUE 也指出,Seedance 2.0 仍可能在复杂中文文本生成中出现乱码,且在长文本与多约束提示词理解、镜头衔接自然度以及现实物理逻辑一致性等方面存在改进空间。
OpenAI 于 2026 年 2 月 5 日发布了 GPT-5.3-Codex,官方称其为「迄今为止最强大的代理编程模型」。新模型结合了 GPT-5.2-Codex 的编程能力与 GPT-5.2 的推理及专业知识,推理速度较前代提升了 25%。值得注意的是,GPT-5.3-Codex 是首个在自身创造过程中发挥关键作用的模型 ——OpenAI 团队利用其早期版本调试了训练过程、管理了部署流程,并协助分析了测试结果。
在基准测试方面,该模型在 SWE-Bench Pro(真实软件工程)和 Terminal-Bench 2.0(终端操作)中均刷新了行业纪录。除了编写代码,GPT-5.3-Codex 展现了更广泛的「计算机使用」能力,在 OSWorld-Verified 视觉操作测试中得分为 64.7%(人类约为 72%),能够胜任制作 PPT、电子表格分析等非编程类知识工作。目前,该模型已向 ChatGPT Plus 等付费用户开放,API 访问即将推出。
(OpenAI)
Anthropic 发布了其最新旗舰模型 Claude Opus 4.6。新模型在保留前代安全性的基础上,重点提升了编程、长文档处理及多学科推理能力。Opus 4.6 首次在 Opus 系列中引入了 100 万词元(Token)的上下文窗口(Beta 版),并支持最高 128k 词元的输出。在 Terminal-Bench 2.0(代理编程)和 Humanity’s Last Exam(多学科推理)等基准测试中,Opus 4.6 的表现均优于 OpenAI 的 GPT-5.2 及谷歌的 Gemini 3 Pro。
在产品功能层面,Claude Code 现推出「代理团队(Agent teams)」研究预览版,允许开发者创建多个并行工作的智能体来处理代码审查等复杂任务。办公场景方面,Claude 强化了 Excel 集成,并推出了 PowerPoint 插件(预览版),支持用户先在 Excel 中处理数据,随后直接生成符合品牌规范的 PPT 演示文稿。
针对开发者,API 新增了「自适应思考(Adaptive thinking)」功能,模型可根据任务难度自动判断是否启用深度推理;同时推出了「上下文精简(Context compaction)」功能,能够在长对话中自动摘要旧信息以节省空间。定价方面,基础费率保持不变,输入每百万词元 5 美元,输出每百万词元 25 美元;但针对超过 20 万词元的超长提示词,将收取更高的阶梯费用。
(Anthropic)