Sakana AI Fugu是什么｜深度解析编排全球顶尖模型的多智能体API的性能、定价与使用方法

Sakana Fugu（将多个 LLM 编排为单一 API 提供的多智能体基座概念图）

图片来源：Sakana AI「Sakana Fugu」官方页面。本文所载图表均引用自 Sakana AI 官方网站。

Sakana AI 于2026年6月22日正式公开了全新 AI 基座 Fugu（河豚），它能将多个大语言模型（LLM）动态编排为单一 API 对外提供。其最大特点在于：不依赖单一前沿模型，而是在内部「指挥（编排）」世界顶级的多个模型协同工作，对外却表现得如同一个模型。

本文将结合官方发布的数据，系统介绍 Sakana Fugu 的工作原理、Fugu 与 Fugu Ultra 的基准测试表现、定价、使用方式，以及它「可避免被特定厂商锁定」的独特价值。

本文数据与图表来源：Sakana AI 官方发布（2026年6月22日）及 Fugu 产品页面。

Sakana Fugu 是什么

Sakana Fugu 是 Sakana AI 开发的多智能体编排基座。从用户视角看，它就是一个 API（而且兼容 OpenAI）；但在其内部，它会根据任务动态调用多个专用模型（智能体），自动完成角色分工、任务委派、结果校验与整合。

像使用单一模型一样简单：模型选择、任务委派等复杂环节全部在内部处理，用户无需感知这些复杂性即可使用。
动态编排多个模型：从智能体「池」中挑选最合适的模型，必要时甚至会递归调用 Fugu 自身。
避免厂商锁定：即便某家供应商限制了访问，也能切换到其他模型继续完成任务。
长会话下人格稳定：即使经历长时间的交互，也能保持一致的应答风格与人格。

Fugu 经过约500名早期用户的 Beta 测试后，于2026年6月22日正式开放（GA）。

为什么 Fugu 在当下备受关注

Fugu 之所以「应运而生」，背景在于前沿模型的供给开始面临地缘政治风险。例如 Anthropic 的最新模型 Fable 5 / Mythos 5，就在2026年6月因美国政府的出口管制指令而被突然停止访问（详情参见 Claude Fable 5 解析文章）。

Fugu 正是针对这种「单一厂商依赖风险」给出的现实答案。由于其设计本就是编排多个模型，即便某家供应商不可用，也能重组智能体池以维持前沿级别的性能——这正是 Sakana 所倡导的「AI 主权（AI sovereignty）」理念。

Fugu 的工作原理（多智能体编排）

正如开头的概念图所示，Fugu 以「指挥者」的身份将 LLM 池（封闭模型、开放模型，以及 Fugu 自身）编排起来，并把任务分派给最合适的模型。其核心源自 Sakana AI 在 ICLR 2026 上发表的两项研究。

Trinity（三位一体）：一个轻量、经进化优化的「协调器」，在多轮交互中指挥多个 LLM。它为各模型分配 Thinker（思考者）、Worker（执行者）、Verifier（校验者）等角色，并根据任务自适应地进行委派。
Conductor（指挥家）：通过强化学习训练，自行发现以自然语言表达的协作策略。它不依赖人工设计的工作流，而是让模型自己学习出虽不显而易见却高效的协作模式。

Fugu 本身也是一个语言模型，专门擅长理解「何时委派任务，以及如何将各专家的输出加以整合」。

相关研究：Sakana Fugu 技术报告（arXiv:2606.21228）、Trinity（arXiv:2512.04695, ICLR 2026）、Conductor（arXiv:2512.04388, ICLR 2026）

Fugu 与 Fugu Ultra 的区别

Fugu 提供两个版本。

模型	特点	适用场景
Fugu	性能与低延迟均衡型	日常工作、编码、代码审查、对话式服务
Fugu Ultra	最大化回答质量，协同更深的智能体池	难度较高的多步骤问题

据称，Fugu Ultra 在工程、科学、推理等各类基准上，已能与 Anthropic 的 Fable 5 和 Mythos Preview「平分秋色」。

Fugu 的基准测试表现

Fugu / Fugu Ultra 与主流模型的基准对比

下表为 Fugu / Fugu Ultra 与 Opus 4.8、Gemini 3.1 Pro、GPT 5.5 的官方基准对比（数值引用自官方表格）。

基准测试	领域	Fugu	Fugu Ultra	Opus 4.8	Gemini 3.1 Pro	GPT 5.5
SWE Bench Pro	智能体编码	59.0	73.7	69.2	54.2	58.6
TerminalBench 2.1	智能体编码	80.2	82.1	74.6	70.3	78.2
LiveCodeBench	编码	92.9	93.2	87.8	88.5	85.3
LiveCodeBench Pro	编码	87.8	90.8	84.8	82.9	88.4
Humanity's Last Exam	多领域推理	47.2	50.0	49.8	44.4	41.4
CharXiv Reasoning	图表推理	85.1	86.6	84.2	83.3	84.1
GPQA-D	科学	95.5	95.5	92.0	94.3	93.6
SciCode	科学编码	60.1	58.7	53.5	58.9	56.1
τ³ Banking	金融智能体	21.7	20.6	20.6	8.4	20.6
Long Context Reasoning	长上下文推理	74.7	73.3	67.7	72.7	74.3
MRCRv2	长上下文检索	86.6	93.6	87.9	84.9	94.8

Fugu 在 GPQA-D（95.5）、LiveCodeBench（93.2）等多个项目上取得最高分；尤其在 SWE Bench Pro 上，Fugu Ultra 以 73.7 超越了 Opus 4.8（69.2）。值得关注的是，尽管采用的是编排多个模型的方式，它却展现出可与单一前沿模型比肩甚至超越的性能。

表格来源：Sakana AI 官方发布（2026年6月22日）

真实用例与用户评价

在 Beta 测试期间，Fugu 被广泛应用于自动数据科学研究、论文复现、网络安全分析、代码审查、专利与文献调研等场景。以下摘录部分官方公布的用户反馈。

代码审查：「在代码审查中，Fugu Ultra 明显优于 GPT-5.5。对于竞品只能找出3处问题的代码，Fugu 指出了20处以上。」（软件工程师）
长会话稳定性：「输出质量与顶级前沿模型相当。此外，即便在长会话中，它的人格（persona）也格外稳定。」（某企业级基座负责人）
安全评估：「仅凭一条范围说明，Fugu 就从侦察、XSS/SQLi 检查、认证审查到报告撰写，端到端地自主完成了整个安全评估。」（安全工程师）

此外，还有报告称在生成魔方求解器、机械 CAD 设计、盲棋（专家级）、股票交易分析（实现 +19.43% 的平均回报）等多步骤高难度任务中，Fugu 的表现超越了 Gemini 3.1 Pro、Opus 4.8 和 GPT 5.5。

Fugu 的定价

Fugu 提供订阅制与按量计费（Pay-as-you-go）两种形态。

订阅制

方案	月费	用量参考
Standard	$20	基准
Pro	$100	约为 Standard 的10倍
Max	$200	约为 Standard 的30倍

按量计费（Fugu Ultra / 模型 ID：fugu-ultra-20260615，每百万 token）

项目	价格	超过 272K 上下文
输入	$5	$10
输出	$30	$45
缓存输入	$0.50	$1.00

官方表示：「即便有多个智能体在运行，费用也不会叠加累计，用户只需按参与其中的最高级别模型支付单一费率。」

Fugu 的使用方式

你也可以通过下方卡片查看 Sakana Fugu 的产品概览。

Sakana Fugu

複数のLLMを動的に束ねて1つのAPIとして提供する、Sakana AIのマルチエージェント基盤。内部で世界トップクラスの専門モデルを指揮（オーケストレーション）し、あたかも1つのモデルのように振る舞う。Fugu / Fugu Ultra の2種を提供し、コーディング・推論・科学の各ベンチマークで単一フロンティアモデルに匹敵・凌駕。OpenAI互換APIで、特定ベンダーへの依存を避けられる「AI主権」志向が特徴。

# 生成式AI（LLM）# AI智能体# 代码生成# 開発・研究支援# 业务效率化

API：以兼容 OpenAI 的 API 形式提供，可通过单一端点访问两个模型（Fugu / Fugu Ultra）。
控制台 / 注册：可在 console.sakana.ai 注册后开始使用。
智能体池配置：可自定义配置，例如将不希望使用的特定模型或供应商从池中排除。

ai-best-search 也介绍了可能被 Fugu 在内部编排调用的主要模型。

查看 Claude 详情

查看 ChatGPT 详情

查看 Gemini 详情

使用须知

可用地区：目前在 EU / EEA 地区尚不可用。
模型更新时机：新前沿模型问世后，预计约2周后池内的模型会随之更新。
后续规划：计划扩展智能体池（新增开放模型及 Sakana 自研模型）、强化长时任务的协同能力，以及增强用户对行为的可控性。

关于 Sakana Fugu 的常见问题（FAQ）

Sakana Fugu 是单一模型吗？

从用户视角看，它可以像单一 API / 单一模型一样使用；但其内部是一个动态编排并协调多个专用 LLM 的「多智能体基座」。

Fugu 与 Fugu Ultra 有什么区别？

Fugu 是性能与延迟的均衡型，面向日常工作；Fugu Ultra 则协同更深的智能体池以最大化回答质量，面向高难度问题。

Fugu 会依赖特定厂商吗？

不会。由于其编排多个模型的设计，即便某家供应商不可用，也能切换路径以维持前沿级别的性能。这正是 Sakana 所倡导的「AI 主权」理念。

Fugu 的费用大概是多少？

订阅制为 Standard $20 / Pro $100 / Max $200（月费）。按量计费方面，Fugu Ultra 的输入为 $5、输出为 $30（每百万 token；超过 272K 上下文时输入 $10、输出 $45）。即便有多个智能体运行，费用也不会叠加累计。

Fugu 兼容哪种 API？

以兼容 OpenAI 的 API 形式提供。可在 console.sakana.ai 注册后开始使用。

在中国可以使用吗？

除 EU / EEA 之外的地区均可使用。

总结

Sakana Fugu 是一个将多个 LLM 动态编排为单一 OpenAI 兼容 API 对外提供的多智能体基座（2026年6月22日正式开放）。
它以 Trinity、Conductor（ICLR 2026）的研究为基础，让模型自身学习出高效的协作模式。
Fugu / Fugu Ultra 在 SWE Bench Pro 73.7、GPQA-D 95.5、LiveCodeBench 93.2 等基准上，展现出可与单一前沿模型比肩甚至超越的性能。
定价方面，订阅制起步价 $20，按量计费为输入 $5 / 输出 $30（每百万 token），且多个智能体运行时费用不会叠加。
在前沿模型供给风险日益加剧的当下，这种可避免被特定厂商锁定的「AI 主权」取向，正引发广泛关注。

不妨将这种编排多个模型的全新思路——Fugu，运用到你自己的业务与产品中去。