找回密码
 立即注册
搜索

[评测] 2026 大模型排行榜:10+ 主流 AI 模型实测排名与选型指南

[复制链接]
智慧谋略 发表于 前天 22:10 | 显示全部楼层 |阅读模式
2026 年的大模型格局:没有绝对王者选大模型这件事,在 2026 年反而变得更难了。
不是因为没得选——恰恰相反,选择太多。光是能打的旗舰模型就有六七个,每家都在不同维度上拿第一。Claude 编程最强,Gemini 上下文最长,GPT 最均衡,DeepSeek 性价比炸裂,Kimi 开源生态最活跃……
我从去年底开始跟踪这些模型的 API 表现,到现在测了大概上百个场景。这篇文章把结论整理出来,按三个梯队排名,再按具体使用场景给选型建议。不扯基准跑分的虚数,只聊实际用下来的体感。
第一梯队:旗舰模型(适合核心业务)第一梯队的三个模型在综合能力上明显领先,但各有侧重。
Claude Opus 4.6 — 编程和复杂推理之王Opus 4.6 在代码类任务上的优势是断层级的。SWE-Bench Pro 得分约 62%,比第二名高出不少。写复杂业务逻辑、读大型代码库、做架构重构,目前没有模型能打过它。
100 万 token 的上下文窗口在实际使用中非常稳定,不像有些模型号称支持长上下文但中间内容丢失严重。Opus 的问题是贵——输入 $15、输出 $75 每百万 token,是这个梯队里价格最高的。
如果你的团队每天都在写复杂业务逻辑或做代码审查,Opus 基本是当前唯一解。但别拿它干简单活,太浪费了。Claude API 接入方法可以参考这篇。
GPT-5.4 — 最均衡的通用选手GPT-5.4 今年 3 月发布,带来了 GPT-5.4 Thinking(推理增强)和 GPT-5.4 Pro(高性能)两个变体。在 OpenAI 的 GDPval 综合基准上拿了 83%,各项能力没有明显短板。
实际体验上,GPT-5.4 的指令跟随能力很好,格式化输出稳定,适合需要结构化返回的应用场景。100 万 token 上下文,输入 $2.50、输出 $15,价格适中。
拿不准用什么的时候选 GPT-5.4 一般不会错。GPT-5.4 全系列详解我之前写过一篇。
Gemini 3.1 Pro — 多模态和长上下文的标杆Gemini 3.1 Pro 是目前唯一原生支持文本、图片、音频、视频四模态输入的旗舰模型。200 万 token 的上下文窗口也是全行业最大。在 16 项主流基准中拿了 13 项第一,GPQA Diamond 得分 94.3%,ARC-AGI-2 推理得分 77.1%。
价格是三大旗舰里最有竞争力的:100 万 token 输入只要 $2,输出 $12。如果你的场景涉及大量文档处理或多模态输入,Gemini 3.1 Pro 的性价比远超另外两家。
做视频分析、整仓库代码审查、或者一次性塞进几十万字文档的场景,Gemini 3.1 Pro 基本没有替代品。接入细节见 Gemini 3.1 Pro API 完全指南
旗舰模型对比一览[td]
模型编程(SWE-Bench)推理(GPQA)上下文输入价格输出价格多模态
Claude Opus 4.6⭐ 62%89%1M$15$75文本+图片
GPT-5.457.7%87%1M$2.50$15文本+图片+音频
Gemini 3.1 Pro55%⭐ 94.3%⭐ 2M⭐ $2⭐ $12文本+图片+音频+视频

三大旗舰的深度对比测试见《GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1 Pro 横评》
第二梯队:性价比之王(能力接近旗舰,价格低一个量级)第二梯队的模型让我意外。它们的能力已经非常接近第一梯队,但价格只有十分之一甚至更低。对于大部分场景,这个梯队才是真正的最优解。
DeepSeek V4 — 便宜到不讲道理DeepSeek V4 是今年最让人震惊的模型。万亿参数规模,全部跑在华为昇腾芯片上,没用一张英伟达 GPU。中文理解能力在多个基准上已超过 GPT-5.4,数学和逻辑推理也不输。
价格是真的离谱:输入 $0.28/百万 token,缓存命中后只要 $0.028。用旗舰价格的十分之一拿到 90% 的能力,这就是 DeepSeek V4 的杀手锏。
中文场景或者预算紧张的项目,DeepSeek V4 应该是你第一个试的。接入教程在这
Kimi K2.5 — 编程跑分比 GPT-5.4 还高Kimi K2.5 是月之暗面在 1 月底发布的万亿参数 MoE 模型,每次推理只激活 320 亿参数。在 SWE-Bench 编程测试中拿到 65.6%,比 GPT-5.4 还高,这在国产模型里是头一回。
原生多模态支持(文本+图片),开源权重让你可以自己部署。API 价格比 DeepSeek 贵一些,但编程能力确实突出。
想自己部署模型或者主要写代码用,Kimi K2.5 是当前国产模型里最值得试的。API 接入教程我之前整理过。
MiniMax M2.5 / M2.7 — 快,真的快MiniMax 这两个模型就一个字:快。M2.7 的 highspeed 模式出字速度能把同级别模型甩开一大截,做实时对话产品的话体验差距肉眼可见。M2.5 更偏能力型,SWE-Bench 拿到 80.2%,在开源模型里排前几。
M2.7 输入 $0.30、输出 $1.20 每百万 token。做高并发、低延迟的产品选它。
两款模型的详细对比:MiniMax M2.5 API 教程MiniMax M2.7 API 教程
GLM-5 / GLM-5.1 — 容易被低估的选手GLM-5 在开源 SWE-Bench Verified 上拿到 77.8%,ChatBot Arena Elo 1451,这两个数字放在国产模型里都算拔尖。GLM-5.1 更进一步,编程得分达到 Claude Opus 4.6 的 94.6%,订阅才 $3/月。
智谱的品牌知名度不如 DeepSeek 和 Kimi,但模型能力不该因此被忽略。预算有限的团队值得认真试一下。
性价比梯队对比[td]
模型编程能力中文能力输入价格输出价格特色
DeepSeek V4★★★★⭐ 最强⭐ $0.28$1.12中文之王,缓存后极便宜
Kimi K2.5⭐ 65.6%★★★★$1.00$4.00编程超强,开源可部署
MiniMax M2.7★★★★★★$0.30⭐ $1.20速度最快
GLM-5.1★★★★★★★★$0.50$2.00全能均衡

第三梯队:轻量模型(日常任务的最优选)别小看轻量模型。80% 的 AI 应用场景其实不需要旗舰级能力,用小模型就能搞定,而且成本低两个数量级。
GPT-5.4 Mini & NanoGPT-5.4 Mini 输入 $0.75、输出 $4.50,能力大约是 GPT-5.4 的 70%。日常文本分类、简单摘要、格式转换完全够用。
GPT-5.4 Nano 更极端:输入 $0.20、输出 $1.25,适合高频低复杂度的批量任务。
Gemini 3.1 Flash & Flash LiteFlash 系列继承了 Gemini 的 100 万 token 上下文,但价格只有 Pro 的零头。Flash Lite 输入 $0.25/百万 token,是目前最便宜的长上下文模型。
Claude Haiku 4.5 & Sonnet 4.6Haiku 4.5 是 Claude 家族的轻量版,速度快、价格低。Sonnet 4.6 定位中端,编程能力接近 Opus 但价格只有五分之一(输入 $3、输出 $15)。对于不需要极限能力的编程场景,Sonnet 是最实用的选择。
轻量模型怎么选[td]
场景推荐模型原因
文本分类/标签GPT-5.4 Nano最便宜,简单任务足够
客服自动回复MiniMax M2.7响应速度最快
长文档摘要Gemini 3.1 Flash Lite100 万上下文 + 最低价
日常编程辅助Claude Sonnet 4.6编程能力/价格比最高
批量数据处理DeepSeek V4缓存机制省钱

国产 AI 和 GPT 差距大吗?实话实说这可能是被问得最多的问题了。
一年前我会说”有代差”,但 2026 年这话说不出口了。
先看编程:Kimi K2.5 的 SWE-Bench 65.6%,GPT-5.4 是 57.7%。GLM-5 的 SWE-Bench Verified 77.8%。国产模型在代码生成上已经不是追赶者了。
中文理解就更不用说,DeepSeek V4 在多个中文 NLU 基准上超过 GPT-5.4,中文语料喂得够多,结果理所当然。
多模态方面,Gemini 3.1 Pro 的视频理解暂时没有对手,国产模型在这块确实还差一截。但 Kimi K2.5 的图文理解已经够用了。
还有差距的地方:复杂英文创意写作、极端 edge case、指令跟随的一致性(同一个 prompt 跑十次,国产模型的输出方差更大)。
总的来说,别再迷信”海外的一定比国产强”了。具体场景跑一下就知道谁更合适。
按场景选模型:我的实战建议选模型不该看排行榜谁第一,应该看你的场景需要什么。下面是我踩过坑之后的建议:
做 AI 编程工具第一选择 Claude Sonnet 4.6,能力够强且价格合理。如果要搭配 OpenClaw 这类编程工具,Kimi K2.5 也非常好用。预算充足上 Opus 4.6。
做客服/对话机器人推荐 MiniMax M2.7(响应快)或 GPT-5.4 Mini(稳定)。中文场景加一个 DeepSeek V4 做兜底。别在客服场景用旗舰模型——贵而且响应慢。
做内容生成GPT-5.4 的输出质量和格式控制最好。如果是中文内容,DeepSeek V4 的中文表达更地道。大批量场景用 Batch API + 缓存,成本能砍掉 60% 以上(详细省钱方法)。
做数据分析 / RAG长上下文场景 Gemini 3.1 Pro 最强,200 万 token 的窗口能一次性读入整个代码库或文档集。嵌入模型建议搭配 text-embedding-3-large 或 Gemini 的原生 embedding。
做多模型路由成熟的做法是分级路由:简单任务走 Nano/Flash Lite,中等任务走 Sonnet/DeepSeek V4,复杂任务才上 Opus/GPT-5.4。通过 OfoxAI 这类 API 聚合平台,一个 Key 就能调用所有模型,按需切换,不用管各家的认证和计费差异。
一个 API 调用所有模型说到调用方式,如果你需要同时使用多家模型,挨个注册、充值、管理 API Key 确实烦人。OfoxAI 支持 100+ 模型,兼容 OpenAI、Anthropic、Gemini 三种协议,注册后把 base URL 改成 api.ofox.ai/v1 就行,已有代码基本不用改。
按量计费,没有月费,支持支付宝和微信支付。对于需要多模型的项目来说,这是最省事的方案。
别看排行榜选模型排行榜告诉你谁跑分高,但不告诉你谁适合你的场景。我的建议是反过来:先用最便宜的模型跑通业务逻辑,碰到瓶颈了再换更强的。从 Nano 起步比从 Opus 降级要舒服得多。
拿不准的时候,拿两三个候选模型跑同一批真实业务 prompt,看输出质量。十分钟就能出结论,比研究跑分报告靠谱。

 楼主| 智慧谋略 发表于 前天 22:11 | 显示全部楼层
2026 年,国产 AI 助手已经卷到飞起。Kimi、文心一言、通义千问、豆包、智谱清言……每个都说自己最强。
但说实话,没有绝对的”最好”,只有”最适合”
这篇文章不吹不黑,基于过去一个月的深度使用,从 6 个维度实测对比,帮你找到真正适合你的 AI 助手。

🎯 测评对象          AI 助手      背后公司      核心特点   
              Kimi      月之暗面      长文本处理、文件上传   
          文心一言 4.5      百度      中文理解、多模态   
          通义千问 2.5      阿里      代码能力、生态集成   
          豆包      字节跳动      免费、轻量、语音   
          智谱清言      智谱 AI      学术场景、论文解读   
📊 测评维度1️⃣ 日常对话能力测试问题: “帮我解释一下量子纠缠,用高中生能听懂的话”
          AI 助手      回答质量      亮点      不足   
              Kimi      ⭐⭐⭐⭐      比喻生动,逻辑清晰      偶尔过于冗长   
          文心一言      ⭐⭐⭐⭐⭐      中文表达最自然      无明显短板   
          通义千问      ⭐⭐⭐⭐      结构清晰,有示例      略显正式   
          豆包      ⭐⭐⭐      简洁易懂      深度不够   
          智谱清言      ⭐⭐⭐⭐      学术严谨      对小白略难    ** winner**: 文心一言 —— 中文语境下的表达最自然,像真人聊天。

2️⃣ 长文本处理能力测试场景: 上传 50 页 PDF 论文,要求总结核心观点
          AI 助手      支持长度      总结质量      速度   
              Kimi      200 万字      ⭐⭐⭐⭐⭐      快   
          文心一言      10 万字      ⭐⭐⭐⭐      中等   
          通义千问      50 万字      ⭐⭐⭐⭐      快   
          豆包      5 万字      ⭐⭐⭐      快   
          智谱清言      100 万字      ⭐⭐⭐⭐⭐      中等    ** winner**: Kimi —— 长文本是它的看家本领,200 万字上下文不是吹的。

3️⃣ 代码能力测试任务: “用 Python 写一个带缓存的装饰器,支持 TTL 过期”
          AI 助手      代码质量      注释完整度      可运行性   
              Kimi      ⭐⭐⭐⭐      ⭐⭐⭐⭐      ✅   
          文心一言      ⭐⭐⭐      ⭐⭐⭐      ✅   
          通义千问      ⭐⭐⭐⭐⭐      ⭐⭐⭐⭐⭐      ✅   
          豆包      ⭐⭐      ⭐⭐      ⚠️ 需调整   
          智谱清言      ⭐⭐⭐⭐      ⭐⭐⭐⭐      ✅    ** winner**: 通义千问 —— 阿里系对代码场景优化明显,输出质量稳定。

4️⃣ 多模态能力(图片理解)测试: 上传一张复杂的数据图表,要求解读趋势
          AI 助手      识别准确率      解读深度      速度   
              Kimi      ⭐⭐⭐⭐      ⭐⭐⭐⭐      快   
          文心一言      ⭐⭐⭐⭐⭐      ⭐⭐⭐⭐⭐      中等   
          通义千问      ⭐⭐⭐⭐      ⭐⭐⭐⭐      快   
          豆包      ⭐⭐⭐      ⭐⭐⭐      快   
          智谱清言      ⭐⭐⭐      ⭐⭐⭐⭐      中等    ** winner**: 文心一言 —— 百度的多模态积累深厚,图表解读最到位。

5️⃣ 免费额度与性价比          AI 助手      免费额度      付费价格      性价比   
              Kimi      充足      ¥30/月      ⭐⭐⭐⭐   
          文心一言      有限      ¥50/月      ⭐⭐⭐   
          通义千问      充足      ¥25/月      ⭐⭐⭐⭐⭐   
          豆包      完全免费      -      ⭐⭐⭐⭐⭐   
          智谱清言      有限      ¥40/月      ⭐⭐⭐    ** winner**: 豆包 —— 完全免费,适合预算有限的用户。

6️⃣ 生态集成          AI 助手      移动端      桌面端      API      第三方集成   
              Kimi      ✅      ✅      ✅      中等   
          文心一言      ✅      ✅      ✅      丰富   
          通义千问      ✅      ✅      ✅      非常丰富   
          豆包      ✅      ❌      ✅      中等   
          智谱清言      ✅      ✅      ✅      学术场景    ** winner**: 通义千问 —— 阿里生态加持,集成场景最多。

🏆 综合推荐🥇 全能型选手:通义千问 2.5
  • 适合人群: 开发者、重度用户、阿里生态用户
  • 优势: 代码能力强、生态丰富、性价比高
  • 不足: 中文对话略正式
🥈 长文本专家:Kimi
  • 适合人群: 学生、研究者、需要处理大量文档的用户
  • 优势: 200 万字上下文、文件上传体验好
  • 不足: 代码能力稍弱
🥉 中文对话王:文心一言 4.5
  • 适合人群: 日常聊天、内容创作、多模态需求
  • 优势: 中文表达最自然、多模态能力强
  • 不足: 免费额度有限
💰 免费首选:豆包
  • 适合人群: 预算有限、轻度用户
  • 优势: 完全免费、轻量快速
  • 不足: 深度场景能力有限
📚 学术专用:智谱清言
  • 适合人群: 科研人员、论文写作
  • 优势: 学术场景优化、论文解读专业
  • 不足: 通用场景表现一般

💡 使用建议我的日常组合日常聊天 → 文心一言写代码 → 通义千问读论文 → Kimi / 智谱清言预算有限 → 豆包

不要只用一个。不同场景用不同工具,效率最高。

 楼主| 智慧谋略 发表于 前天 22:12 | 显示全部楼层
2026年的AI大模型赛道,用"神仙打架"来形容毫不夸张。
一边是ChatGPT
、Claude、Gemini这些海外老牌选手持续迭代,一边是DeepSeek、通义千问、Kimi
等国产模型强势崛起。作为一个每天和AI打交道的科技从业者,我花了两周时间系统测试了目前最主流的8款大模型,从日常写作、代码生成、长文档处理到中文语境理解,给大家做一个尽量客观的横向对比。
先说结论: 没有"最好"的模型,只有"最适合你"的模型。不同使用场景下,各家表现差异巨大。

第一梯队:海外三巨头1. ChatGPT(OpenAI)—— 全能型选手,生态最强
最新版本: GPT-5.2
/ GPT-4.1
ChatGPT到2026年已经不只是一个聊天工具了。OpenAI拥有超过9亿周活跃用户,是目前全球认知度最高的AI产品。GPT-5.2在多步推理方面取得了明显突破,而GPT-4.1则提供了100万token的超长上下文窗口,实用性大幅提升。
最大优势: 插件生态无敌,GPTs商店覆盖画图、数据分析、联网搜索等各类场景;实时语音对话的流畅度仍然是独一档的存在。
明显短板: 中文细节偶有偏差;模型版本太多(光GPT系列就有6个以上变体),选择成本高;付费门槛不低,Plus 20美元/月,Pro 200美元/月。
适合人群: 需要"一站式AI平台"的全能型用户、英文办公为主的用户。

2. Claude(Anthropic)—— 编程之王,写作最像人
最新版本: Claude Opus 4.6
/ Claude Sonnet 4.6
如果说ChatGPT是"什么都会一点"的全才,Claude就是"编程和写作两个点拉满"的偏科生。Claude Opus 4.6在SWE-bench代码评测中达到了72.5%的修复成功率,是目前编程能力的天花板。它的上下文窗口也达到了100万token,可以一次性读完几本书。
但Claude最让人印象深刻的其实是它的写作风格——逻辑通顺、文笔自然,几乎没有"AI味"。如果你需要写一篇读起来像人写的文章,Claude是目前最好的选择。
最大优势: 代码能力全球领先;写作质量高,几乎无AI痕迹;Artifacts功能让它成为优秀的交互式开发环境。
明显短板: 创意类脑暴略逊于ChatGPT;国内直接访问需要特殊网络条件。
适合人群: 程序员、技术写作者、需要高质量中英文写作的用户。

3. Gemini(Google)—— 多模态标杆,谷歌生态核心
最新版本: Gemini 3.0 Pro
/ Gemini 2.5 Flash
Google在AI领域的底蕴确实深厚。Gemini是第一个"从训练阶段就原生支持多模态"的模型,理解视频、图片、音频的能力领先同行。上下文窗口更是达到了惊人的200万token,长文档处理方面几乎没有对手。
更关键的是Gemini与Google Workspace的深度打通——如果你日常重度使用Gmail、Google Docs、Google Drive,Gemini基本可以无缝嵌入你的工作流。
最大优势: 多模态理解能力最强;200万token超长上下文;深度集成谷歌全家桶。
明显短板: 国内访问不太稳定;插件生态不如OpenAI完善。
适合人群: 谷歌全家桶重度用户、需要分析长视频/长文档的用户。

第二梯队:国产新锐4. DeepSeek —— 性价比之王,开源界扛把子
最新版本: DeepSeek-V3.2
DeepSeek可能是2025-2026年全球AI界最大的黑马。这家来自中国的公司,用MoE混合专家架构把训练成本打到了GPT级模型的1/10,直接引发了全球大模型降价潮。DeepSeek在GitHub上已经获得超过10万Star,是目前开源模型的绝对王者。
更让人惊讶的是,DeepSeek-V3.2在多语言软件工程评测中达到了70.2%,甚至超过了GPT-5的55.3%。它的中文理解能力也是全球断层领先的水平。
最大优势: 完全免费(网页/APP版);API价格约为GPT的1/10;代码和数学推理能力极强;开源可私有化部署。
明显短板: 创意类内容风格偏单一;偶尔服务稳定性波动。
适合人群: 预算敏感的开发者、理工科学生、企业私有化部署需求。

5. 通义千问 Qwen(阿里)—— 最全面的国产选手
最新版本: Qwen3-Max
通义千问是国产模型中综合能力最均衡的选手。阿里在开源社区(HuggingFace)的影响力巨大,Qwen3系列支持"思考/非思考"双模式切换,适应不同场景需求。相比只专注模型性能的DeepSeek,通义千问更贴近应用层面,功能更全面。
它的视觉识别能力在国产模型中数一数二,能看懂复杂图表,甚至还能帮你自动点餐——阿里生态的联动确实方便。
最大优势: 中文理解扎实;开源生态丰富;图片理解能力强;与阿里系产品联动顺畅。
明显短板: 海外场景适配较弱;跨语言流畅度有提升空间。
适合人群: 国内企业用户、需要处理中文商务文档的人群。

6. Kimi(月之暗面)—— 长文档阅读专家
最新版本: Kimi K2.5
Kimi曾经是国内长文档阅读的开创者,虽然进入2025年后声势相比其他国产模型有所减弱,但在"吃透长文档"这个细分场景上依然有独到优势。你可以直接扔50份PDF给它,它能快速总结核心观点,搜索引用链接也很规范,减少了胡编乱造的概率。
Kimi K2.5还推出了Agent Swarm功能,可以编排100个并行子Agent协同工作,这在复杂任务编排方面走在了前沿。
最大优势: 长文档总结精准;搜索引用规范;界面清爽好用。
明显短板: 通用对话能力不如第一梯队;生态丰富度有限。
适合人群: 金融从业者、学生党、日常需要大量阅读研报/论文的用户。

7. 智谱 GLM(清华系)—— Agent原生,国产芯片适配最强
最新版本: GLM-5 / GLM-5-Turbo
智谱作为清华系AI公司,走了一条与众不同的路——深度适配国产GPU芯片,支持GPU/CPU混合部署。对于算力供应链安全有要求的国内企业来说,这是一个不可忽视的优势。GLM-5采用MIT开源协议,商业友好度极高。
今年3月新发布的GLM-5-Turbo专门强化了Agent能力,在工具调用、指令遵循方面做了深度优化。
最大优势: 国产芯片适配最强;商业开源协议友好;Agent能力突出。
明显短板: 表现稳定性有波动,时好时差;整体知名度不如DeepSeek和Qwen。
适合人群: 对国产算力有需求的企业、Agent开发者。

8. 文心一言 ERNIE(百度)—— 中文知识图谱优势
最新版本: ERNIE 4.0 Turbo
百度文心一言的核心壁垒在于知识图谱与大模型的融合。在中文权威榜单C-Eval和CMMLU上,ERNIE 4.0 Turbo多次表现出色,中文语义理解确实扎实。依托百度搜索的海量中文数据,它在回答中文事实性问题时的准确率较高。
最大优势: 中文知识图谱深厚;与百度生态联动;事实性问答准确。
明显短板: 创造性输出相对保守;整体产品体验不如竞品流畅。
适合人群: 重度百度生态用户、中文知识问答场景。

终极选型指南:按场景选模型
以下是根据实际测试总结的场景推荐表:
使用场景 首选 备选 日常聊天/通用问答 ChatGPT DeepSeek 写代码/Debug Claude DeepSeek 写文章/公文/邮件 Claude ChatGPT 读长文档/研报分析 Kimi Gemini 数学/逻辑推理 DeepSeek ChatGPT (o3) 视频/图片理解 Gemini 通义千问 企业私有化部署 DeepSeek 智谱GLM 预算敏感/免费使用 DeepSeek 通义千问

我的实际使用搭配
分享一下我个人的日常组合,供参考:
主力组合:DeepSeek + Claude
日常快速问答和代码生成用DeepSeek(免费且快),需要高质量写作或复杂编程任务时切换到Claude。两者互补效果非常好——DeepSeek做初步筛选和快速验证,Claude处理需要深度思考的任务。
辅助工具: Kimi用来读长文档和研报,通义千问处理中文图表识别。
这种"主力+辅助"的搭配方式,既控制了成本,又覆盖了绝大多数使用场景。

 楼主| 智慧谋略 发表于 前天 22:13 | 显示全部楼层
https://www.datalearner.com/leaderboards
聚合 ARC-AGI-2、AIME 2025、SWE-bench Verified 等主流评测的实时排名,按综合、数学、编程、Agent 等维度快速筛选。
查看评测基准详情
数据更新于 2026-04-11 22:32:50

懒得打字嘛,点击右侧快捷回复 【右侧内容,后台自定义】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则