美团发布高效推理模型 LongCat-Flash-Thinking，达到 SOTA 水平

企业资讯

Corporate news

媒体报道

Media reports

美团发布高效推理模型 LongCat-Flash-Thinking，达到 SOTA 水平

2025-09-23 09:33:00

【导语】9月22日，美团LongCat团队推出全新高效推理模型LongCat-Flash-Thinking，该模型在逻辑、数学、代码、智能体等多领域推理任务中达全球开源模型顶尖水平，成为国内首个融合“深度思考+工具调用”与“非形式化+形式化”推理能力的大语言模型，在多项权威评测中持续领先。

美团发布高效推理模型 LongCat-Flash-Thinking，达到 SOTA 水平

　　9 月 22 日消息，美团 LongCat 团队正式发布全新高效推理模型 LongCat-Flash-Thinking。

　　官方介绍称，在保持了 LongCat-Flash-Chat 极致速度的同时，全新发布的 LongCat-Flash-Thinking 更强大、更专业。综合评估显示，LongCat-Flash-Thinking 在逻辑、数学、代码、智能体等多个领域的推理任务中，达到了全球开源模型的最先进水平（SOTA）。

　　同(tóng)时(shí)，LongCat-Flash-Thinking 不(bù)仅(jǐn)增(zēng)强(qiáng)了(le)智(zhì)能(néng)体(tǐ)自(zì)主调(diào)用(yòng)工(gōng)具(jù)的(de)能(néng)力(lì)，还(hái)扩(kuò)展(zhǎn)了(le)形(xíng)式(shì)化(huà)定(dìng)理(lǐ)证(zhèng)明(míng)能(néng)力(lì)，成(chéng)为(wèi)国(guó)内(nèi)首(shǒu)个(gè)同(tóng)时(shí)具(jù)备(bèi)「深(shēn)度(dù)思(sī)考(kǎo) + 工(gōng)具(jù)调(diào)用(yòng)」与(yǔ)「非(fēi)形(xíng)式(shì)化(huà) + 形式化」推理能力相结合的大语言模型。团队发现，尤其在超高复杂度的任务（如数学、代码、智能体任务）处理上，LongCat-Flash-Thinking 具备更显著的优势。

　　创新架构，实现高效推理与稳定训练：

　　领域并行强化学习训练方法：为了解决强化学习领域混合训练的稳定性问题，团队设计了一种领域并行方案，将 STEM、代码和智能体任务的优化过程解耦。这一方法采用了多领域并行训练再融合的先进策略，实现模型能力的均衡提升，综合性能达到帕累托最优（Pareto-Optimal）。

　　异步弹性共卡系统：异步弹性共卡系统（DORA）是整个训练的基石。该系统通过弹性共卡调度（Elastic Colocation）与多版本异步流水线（Multi-Version Asynchronous Pipeline）设计，在实现相较于同步 RL 训练框架三倍提速的同时，确保了每条样本的策略一致性。同时，系统进一步实现了高效的 KV 缓存复用，能够支撑万卡规模集群的稳定运行。值得一提的是，在大规模异步强化学习（RL）训练阶段，FLOPs（Floating Point Operations）的投入约为预训练阶段的 20%，为模型(xíng)性(xìng)能(néng)提(tí)升提供了坚实的算力保障。

　　智能体推理框架：为进一步提升模型的智能体推理能力，团队提出了创新性的“双路径推理框架”。该框架能够自主筛选最优查询样本，并通过自动化流程(chéng)将(jiāng)智(zhì)能(néng)体(tǐ)推(tuī)理(lǐ)与(yǔ)工(gōng)具(jù)使(shǐ)用(yòng)相(xiāng)结(jié)合(hé)，使(shǐ)模(mó)型(xíng)能(néng)够(gòu)智(zhì)能(néng)识(shi)别(bié)并(bìng)调(diào)用(yòng)外(wài)部(bù)工(gōng)具(jù)（如(rú)代(dài)码(mǎ)执(zhí)行(xíng)器(qì)、API 等(děng)），从(cóng)而(ér)高(gāo)效(xiào)解(jiě)决(jué)复(fù)杂(zá)任(rèn)务(wu)。基(jī)于(yú) AIME25 实(shí)测(cè)数(shù)据(jù)，LongCat-Flash-Thinking 在(zài)该(gāi)框(kuāng)架(jià)下(xià)展(zhǎn)现出更高效的智能体工具调用（Agentic Tool Use）能力，在确保 90% 准确率的前提下，相较于不使用工具调用节省了 64.5% 的 Tokens（从 19653 到 6965），显著优化了推理过程的资源利用率。

　　形式化推理框架：为(wèi)了(le)克(kè)服(fú)当(dāng)前(qián)开(kāi)源(yuán)通(tōng)用(yòng)大(dà)型(xíng)语(yǔ)言(yán)模(mó)型(xíng)在(zài)形(xíng)式(shì)化(huà)证(zhèng)明(míng)任(rèn)务(wu)中(zhōng)的(de)不(bù)足(zú)，团(tuán)队(duì)针(zhēn)对(duì)形(xíng)式(shì)化(huà)推(tuī)理(lǐ)设(shè)计(jì)了(le)一(yī)套(tào)全新(xīn)的(de)基(jī)于(yú)专(zhuān)家(jiā)迭(dié)代(dài)框(kuāng)架(jià)的(de)数(shù)据(jù)合(hé)成(chéng)方(fāng)法(fǎ)，该(gāi)流(liú)程(chéng)利(lì)用(yòng)集成(chéng)了(le) Lean4 服(fú)务(wu)器(qì)的(de)专(zhuān)家(jiā)迭(dié)代(dài)框(kuāng)架(jià)，生(shēng)成(chéng)经(jīng)过(guò)严(yán)格(gé)验(yàn)证(zhèng)的(de)证(zhèng)明(míng)过(guò)程(chéng)，从(cóng)而(ér)系(xì)统(tǒng)性(xìng)提(tí)升(shēng)模(mó)型(xíng)的(de)形(xíng)式(shì)化(huà)推(tuī)理(lǐ)能(néng)力(lì)。这(zhè)一(yī)创(chuàng)新(xīn)方(fāng)法(fǎ)系(xì)统(tǒng)性(xìng)地(de)增(zēng)强(qiáng)了(le)模(mó)型(xíng)的(de)形(xíng)式(shì)化(huà)推(tuī)理(lǐ)能力，提高了其在学术和工程应用中的可靠性。

　　LongCat-Flash-Thinking 在多项权威评测中刷新纪录，在各类推理任务中均展现出持续领先的性能：

　　通用推理能力：LongCat-Flash-Thinking 具备卓越的通用推理能力，尤其在需要结构化逻辑的任务中表现突出。其在 ARC-AGI 基准测试中以 50.3 分超越 OpenAI o3、Gemini2.5 Pro 等顶尖闭源模型。

　　数学能力：LongCat-Flash-Thinking 在数学推理方面展现出强大实力，跻身当前顶尖模型行列。在更具挑战性的基准测试中优势更加明显 —— 在 HMMT 和 AIME 相关基准上取得突破性成绩，超越 OpenAI o3，和 Qwen3-235B-A22B-Thinking 等领先模型水平相当。这些结果印证了其解决(jué)复(fù)杂(zá)、多(duō)步(bù)骤(zhòu)问(wèn)题(tí)的(de)领(lǐng)先(xiān)能(néng)力(lì)。

　　代(dài)码(mǎ)能(néng)力(lì)：在(zài)编(biān)程(chéng)领(lǐng)域，LongCat-Flash-Thinking 展(zhǎn)现(xiàn)出(chū)开(kāi)源(yuán)模(mó)型最先进的性能（SOTA）与综合实力。在 LiveCodeBench 上以 79.4 分显著超越参与评估的开源模型，并与顶级闭源模型 GPT-5 表现相当，证明其解决高难度编程竞赛问题的卓越能力。在 OJBench 基准测试中也以 40.7 的得分保持极强竞争力，并接近领先模型 Gemini2.5-Pro 的水平。

　　智能体能力：LongCat-Flash-Thinking 在复杂的、工具增强型推理（Tool-augmented Reasoning）方面表现突出，在智能体工具调用（Agentic Tool Use）上展现出强劲能力。其在 τ2-Bench-Airline 上以 67.5 分刷新开源 SOTA 成绩，并在包括 SWE-Bench、BFCL V3 和 VitaBench 等基准测试中展现出超强竞争力。

　　ATP 形式推理能力：LongCat-Flash-Thinking 在 MiniF2F-test 基(jī)准(zhǔn)中(zhōng)的(de) pass@1 获(huò)得(de) 67.6 的(de)超(chāo)高(gāo)分(fēn)数(shù)，大(dà)幅(fú)领(lǐng)先(xiān)所(suǒ)有(yǒu)其(qí)他(tā)参(cān)与(yǔ)评(píng)估(gū)的(de)模(mó)型(xíng)，在(zài) pass@8 和(hé) pass@32 中(zhōng)同(tóng)样(yàng)保(bǎo)持(chí)了(le)领(lǐng)先(xiān)优(yōu)势(shì)，凸(tū)显(xiǎn)其在生成结构化证明和形式化数学推理方面的绝对优势。

- 提供软硬一体化高端视觉检测解决方案