AI 音乐取证 · Genre AI

这首曲子是由真人还是 Suno 制作的？

上传一个音频文件，找出它由 Suno、Udio、MusicGen 或 Stable Audio 生成的概率。我们的 AI 音乐取证模型读取 AI 生成器留下的频谱指纹 — 而且我们会把推理过程展示给你看。

最近更新 2026-05-11•MP3 / WAV / FLAC · ≤ 30 MB•约 5 秒分析

// 为什么我们的判定有分量

不是凭感觉。是一个模型。

我们的 AI 音乐取证模型专为捕捉 AI 生成器在音频中留下的指纹而打造。我们呈现原始概率 — 不四舍五入，不含糊其辞。

🤖

我们的模型。持续保持最新。

在最新的 Suno v3/v4 和 Udio v1.5 输出上微调。随着新生成器上线并在真实世界中积累足够样本而持续更新。

⚡

约 5 秒判定

上传完成，推理运行，你就得到一个概率。我们不会让你在队列里等待或盯着一个假的进度条。

📊

概率，而非标签

我们显示 0–100% 并附带判定区间（很可能是真人 / 无法确定 / 很可能是 AI）。当模型不确定时，我们会直说 — 而不是假装确定。

🔒

你的文件保持私密

音频在内存中处理并立即丢弃。我们记录判定结果和一个简短的嵌入哈希用于漂移监测 — 而非音频本身。

🆓

免费，无需注册

三次免费上传供你试用。需要批量检测或 API 访问？我们已就此与厂牌和 DSP 谈过 — 请联系我们。

📖

公开的方法论

本页关于生成器覆盖范围和准确率的每一项声明都有出处。当我们的内部基准发生有意义的变化时，我们会在博客中发布。

// 三个步骤

检测是如何工作的。

拖入一个音频文件。

MP3、WAV 或 FLAC，最大 30 MB。我们将其切分成 5 秒的窗口；你不需要剪辑片段。

我们的模型为每个窗口打分。

检测器为每个窗口输出一个概率，表示该片段来自已知 AI 生成器（Suno、Udio、MusicGen、Stable Audio）的可能性。我们按音频能量加权，聚合为曲目级别的分数。

判定 + 最接近的匹配 + 信号。

你会得到一个概率（0–100%）、一个判定区间、最接近的已知生成器，以及推动这一判定的前三个信号 — 人声伪影、动态平直度、频谱指纹等。

// 我们能抓到什么，什么很难

截至 2026 年 5 月的生成器覆盖范围。

我们每月做基准测试。对全新模型的开集泛化是最难的部分 — 一旦新生成器在真实世界中有了足够样本，我们就重新训练并发布模型更新。

生成器覆盖范围表
生成器	发布时间	有人声？	我们的检测	备注
Suno v3 / v4	2024–25	是	98% recall	在真实世界中最常见。在人声齿音上有强烈指纹。
Udio v1 / v1.5	2024–25	是	96% recall	混音比 Suno 更干净；我们靠动态平直度 + 立体声声场抓到它。
MusicGen (Meta)	2023	否	91% recall	仅器乐。较老 — 当叠加在真实人声音轨上时更难判断。
Stable Audio 2	2024	有限	89% recall	在长篇器乐上表现强劲；氛围 / drone 是薄弱环节。
Riffusion / unknowns	杂项	混合	~70%	开集：任何不在我们微调数据集中的内容。在这里，无法确定才是诚实的答案。
真人录音棚录制	—	—	3% 误报	高度压缩的流行乐和大量使用 AutoTune 的人声是最棘手的误报。

阅读方法论文章 →

/* 我们的检测器是怎么造的 */

AI 取证，而非猜测。

我们的 AI 音乐检测器把检测当作音频取证：它在一个由数百万个来自 Suno、Udio 和 MusicGen 的 AI 生成样本组成的基准上，学习各生成器特有的频谱指纹和动态特征。在我们自己的合集上持续微调，从而捕捉最新的模型版本。当一首曲子来自我们没见过的生成器时，检测器会说“无法确定” — 我们也认同它。

我们的基准文章需要 API 吗？

// 合理的问题

常见问题。

我能在新闻 / 厂牌 / DSP 工作中信任它吗？

请信任概率，而非二元标签。一个以 Suno 为最接近匹配的“98% 很可能是 AI”的判定是强有力的证据；处于无法确定区间的 60% 意味着应该由人耳来做判断。我们不声称达到法证级的确定性，任何负责任的工作流程也都不应如此。

对于你们没见过的全新生成器呢？

那就是开集问题，也是为什么对比表的最后一行写着约 70%。我们的模型对未见过的生成器有合理的泛化能力，因为频谱／动态指纹彼此呼应，但对于真正新颖的模型，你应该预期会有更多“无法确定”的判定。

如果这首曲子是 AI 人声配真人节拍呢？

我们在片段级别检测并聚合。混合制作通常落在无法确定区间，并带有很高的“人声伪影”信号。我们计划在 2026 年推出音轨级别模式。

你们会存储我上传的文件吗？

不会。音频在内存中处理，并在推理处理完后立即丢弃。我们保留一个匿名化的嵌入哈希 + 判定结果用于漂移监测 — 那个哈希无法逆向还原成音频。

它为什么免费？

三次免费上传符合我们的 GPU 预算。其余部分由移动应用订阅承担。对于 B2B 用量（厂牌、发行商、DSP），我们很乐意就真正的 API 谈定价 — 见“联系”。

这首曲子是由 真人 还是 Suno 制作的？