美团发布LongCat-Flash-Thinking部分性能近GPT5

访客 2025-09-23 15:09:19 37884 抢沙发

默认

美团发布LongCat-Flash-Thinking技术，其部分性能接近GPT5，LongCat是美团自主研发的产业大模型，旨在通过先进的深度学习技术提升产业智能化水平，此次发布的LongCat-Flash-Thinking模型展现了强大的自然语言处理能力和智能决策能力，有望为行业和用户带来更高效、更便捷的服务体验，这一技术的推出标志着美团在人工智能领域的持续投入和不断突破。

9月23日消息，美团LongCat团队正式发布全新高效推理模型——LongCat-Flash-Thinking。

在保持了LongCat-Flash-Chat极致速度的同时，全新发布的LongCat-Flash-Thinking更强大、更专业。

综合评估显示，LongCat-Flash-Thinking在逻辑、数学、代码、智能体等多个领域的推理任务中，达到了全球开源模型的最先进水平（SOTA），部分任务性能接近闭源模型GPT5-Thinking。

同时，LongCat-Flash-Thinking不仅增强了智能体自主调用工具的能力，还扩展了形式化定理证明能力，成为国内首个同时具备"深度思考+工具调用"与"非形式化+形式化"推理能力相结合的大语言模型。

该团队还表示，尤其在高复杂度的任务（如数学、代码、智能体任务）处理上，新模型具备显著优势。

具体表现如下：

通用推理能力：LongCat-Flash-Thinking具备卓越的通用推理能力，尤其在需要结构化逻辑的任务中表现突出。其在ARC-AGI基准测试中以50.3分超越OpenAI o3、Gemini2.5 Pro等顶尖闭源模型。

数学能力：LongCat-Flash-Thinking在数学推理方面展现出强大实力，跻身当前顶尖模型行列。在更具挑战性的基准测试中优势更加明显——在HMMT和AIME相关基准上取得突破性成绩，超越OpenAI o3，和Qwen3-235B-A22B-Thinking等领先模型水平相当。这些结果印证了其解决复杂、多步骤问题的领先能力。

代码能力：在编程领域，LongCat-Flash-Thinking展现出开源模型最先进的性能（SOTA）与综合实力。在LiveCodeBench上以79.4分显著超越参与评估的开源模型，并与顶级闭源模型GPT-5表现相当，证明其解决高难度编程竞赛问题的卓越能力。在OJBench基准测试中也以40.7的得分保持极强竞争力，并接近领先模型Gemini2.5-Pro的水平。

智能体能力：LongCat-Flash-Thinking在复杂的、工具增强型推理（Tool-augmented Reasoning）方面表现突出，在智能体工具调用（Agentic Tool Use）上展现出强劲能力。其在τ2-Bench上以74.0分刷新开源SOTA成绩，并在包括SWE-Bench、BFCL V3和VitaBench等基准测试中展现出超强竞争力。

ATP形式推理能力：LongCat-Flash-Thinking在MiniF2F-test基准中的pass@1获得67.6的分数，大幅领先所有其他参与评估的模型，在pass@8和pass@32中同样保持了领先优势，凸显其在生成结构化证明和形式化数学推理方面的绝对优势。

目前，LongCat-Flash-Thinking已在HuggingFace、Github全面开源，并在官网可体验。

标签：模型能力基准