AI音楽フォレンジック · Genre AI

このトラックを作ったのは人間？それともSuno？

音声ファイルをアップロードして、それがSuno、Udio、MusicGen、Stable Audioによって生成された確率を確かめましょう。私たちのAI音楽フォレンジックモデルは、AIジェネレーターが残すスペクトルのフィンガープリントを読み取ります — そしてその根拠もお見せします。

最終更新 2026-05-11•MP3 / WAV / FLAC · ≤ 30 MB•約5秒の解析

// 私たちの判定に価値がある理由

雰囲気チェックじゃない。モデルです。

私たちのAI音楽フォレンジックモデルは、AIジェネレーターが音声に残すフィンガープリントを捉えるために専用に作られています。生の確率をそのまま提示します — 四捨五入も、ごまかしもなし。

🤖

私たちのモデル。常に最新。

最新のSuno v3/v4とUdio v1.5の出力でファインチューニング。新しいジェネレーターが登場し、実環境で十分なサンプルが集まるたびに継続的に更新します。

⚡

約5秒で判定

アップロードが完了し、推論が走り、確率が出ます。順番待ちの列に並ばせたり、偽の進行バーを眺めさせたりはしません。

📊

ラベルじゃなく、確率

判定ゾーン（人間の可能性が高い / 判定不能 / AIの可能性が高い）とともに0〜100%を表示します。モデルが確信を持てないときは、確かなふりをせず、そう言います。

🔒

あなたのファイルは非公開のまま

音声はメモリ上で処理され、すぐに破棄されます。私たちはドリフト監視のために判定と短い埋め込みハッシュを記録します — 音声そのものは記録しません。

🆓

無料、サインアップ不要

お試しの無料アップロード3回。バッチ検出やAPIアクセスが必要ですか？レーベルやDSPともこの件で話をしてきました — ご連絡ください。

📖

オープンな方法論

このページに記載したジェネレーターのカバー範囲や精度に関するすべての主張には出典があります。社内ベンチマークに意味のある変化があれば、ブログで公開します。

// 3ステップ

検出の仕組み。

音声ファイルをドロップ。

MP3、WAV、またはFLACで30 MBまで。5秒のウィンドウに分割するので、クリップをトリミングする必要はありません。

私たちのモデルがすべてのウィンドウをスコアリング。

ディテクターは、そのセグメントが既知のAIジェネレーター（Suno、Udio、MusicGen、Stable Audio）由来である確率をウィンドウごとに出力します。それを音声のエネルギーで重み付けして、トラックレベルのスコアに集約します。

判定 + 最も近い一致 + シグナル。

確率（0〜100%）、判定ゾーン、最も近い既知のジェネレーター、そしてその判断を導いた上位3つのシグナル — ボーカルのアーティファクト、ダイナミクスの平坦さ、スペクトルのフィンガープリントなど — が得られます。

// 何を捉え、何が難しいか

2026年5月時点のジェネレーターカバー範囲。

毎月ベンチマークを行っています。真新しいモデルへのオープンセットの汎化が難しいところです — 新しいジェネレーターが実環境で十分なサンプルを集めたらすぐに再トレーニングし、モデル更新を出します。

ジェネレーターカバー範囲の表
ジェネレーター	リリース	ボーカル？	私たちの検出	備考
Suno v3 / v4	2024–25	あり	98% recall	実環境で最も一般的。ボーカルの歯擦音に強いフィンガープリント。
Udio v1 / v1.5	2024–25	あり	96% recall	Sunoよりクリーンなミックス。ダイナミクスの平坦さ + ステレオイメージで捉えます。
MusicGen (Meta)	2023	なし	91% recall	インストゥルメンタルのみ。より古く — 本物のボーカルステムに重ねられると難しくなります。
Stable Audio 2	2024	限定的	89% recall	長尺のインストゥルメンタルに強い。アンビエント/ドローンが弱点です。
Riffusion / unknowns	その他	混在	~70%	オープンセット: 私たちのファインチューニングデータセットにないものすべて。ここでは「判定不能」が正直な答えです。
人間のスタジオ録音	—	—	3%の偽陽性	過度に圧縮されたポップやAutoTune多めのボーカルが最も厄介な偽陽性です。

方法論の記事を読む →

/* 私たちのディテクターがどう作られているか */

当て推量ではなく、AIフォレンジック。

私たちのAI音楽ディテクターは、検出を音声フォレンジックとして捉えます: Suno、Udio、MusicGenからの数百万のAI生成サンプルのベンチマークにわたって、ジェネレーター固有のスペクトルのフィンガープリントとダイナミクスのシグネチャを学習します。私たち自身のコレクションで継続的にファインチューニングしているので、最新のモデルバージョンも捉えられます。私たちが見たことのないジェネレーター由来のトラックの場合、ディテクターは「判定不能」と言います — そして私たちもそれに同意します。

私たちのベンチマーク記事 APIが必要ですか？

// もっともな質問

FAQ。

ジャーナリズム / レーベル / DSPの仕事でこれを信頼できる？

二択のラベルではなく、確率を信頼してください。Sunoが最も近い一致である「98% AIの可能性が高い」という判定は強力な証拠です。判定不能ゾーンの60%は、人間の耳で判断すべきという意味です。私たちはフォレンジックグレードの確実性を主張しませんし、責任あるワークフローもそうすべきではありません。

まだ見たことのない真新しいジェネレーターはどうなの？

それがオープンセット問題であり、比較表の一番下の行が約70%となっている理由です。スペクトルやダイナミクスのフィンガープリントには共通点があるので、私たちのモデルは未見のジェネレーターにもそれなりに汎化しますが、本当に目新しいモデルでは「判定不能」の判定が増えると考えてください。

AIボーカルを人間のビートに重ねたトラックの場合は？

私たちはセグメントレベルで検出して集約します。ハイブリッドな制作物は通常、「ボーカルのアーティファクト」シグナルが高い状態で判定不能ゾーンに収まります。2026年にはステムレベルのモードを計画しています。

私のアップロードを保存する？

いいえ。音声は推論パスの直後にメモリ上で処理されて破棄されます。ドリフト監視のために匿名化された埋め込みハッシュ + 判定を保持します — そのハッシュは音声に逆変換できません。

なぜ無料なの？

無料アップロード3回は、私たちのGPU予算に収まります。残りはモバイルアプリのサブスクリプションで賄っています。B2Bの大量利用（レーベル、ディストリビューター、DSP）については、本格的なAPIの価格について喜んでお話しします — お問い合わせをご覧ください。

このトラックを作ったのは 人間 ？それともSuno？