31-3. ウマ娘の声をフーリエ変換して比較してみた（③類似度編）

やること
参考文献
類似度の算出（１）
類似度の算出（２）
類似度の算出（３）
考察
おわりに

やること

ウマ娘の声をフーリエ変換して比較する、の最終回です。前回はFFT画像の準備をしました。

いよいよ音声の定量比較です。ポジティブコントロールとネガティブコントロールも用意しているので実験設計の参考にもなるかと思います。

参考文献

FFT画像の類似度の計算にはこちらのサイトを使用しました。

画像類似度チェッカー

画像の類似度と差分を計算し、それを視覚化できるツールです。デザインの微修正などを行った際の領域検出や、画像における微妙な文言の違いの検出などが可能です。

上記のサイトでは、類似度の計算に「二乗誤差」を使用していると書かれています。画像のMSE（Mean Squared Error: 平均二乗誤差）についてはこちらが参考になります。（※サイト内で最小二乗誤差と表記されていますが正しくは平均二乗誤差です）

画像のMSE（最小二乗誤差）の測定カラー画像版（Python+OpenCV） | 技術的特異点

本日は画像品質を評価する評価指標の一つであるMSE（Mean Squared Error: 最小二乗誤差）を紹

類似度の算出（１）

ライス①、ライス②、テイオー、マックイーンのスペクトログラムを各組み合わせで比較しました。全部で６通りです。

ライス① vs ライス②

これがポジティブコントロールです。ほぼ100%になっています。

ライス① vs テイオー

いよいよ気になる結果です。類似度は78.64%

他の組み合わせも実行しました。結果がこちらです。

	ライス①	ライス②	テイオー	マックイーン
ライス①	(100%)	99.31%	78.64%	75.80%
ライス②	–	(100%)	78.61%	75.92%
テイオー	–	–	(100%)	73.90%
マックイーン	–	–	–	(100%)

ポジコンは99%でした。同じ声優が同じフレーズを歌っているから当然ですね。

違うウマ娘同士の類似度は73～79%でした。ちょっと範囲が狭い気がします（？）

類似度の算出（２）

ネガティブコントロールとしてblank画像も用意しているので、それぞれblank画像との類似度も算出してみます。

ライス① vs blank画像

テイオー vs blank画像

先程のテーブルにblank列を追加しました。

	ライス①	ライス②	テイオー	マックイーン	blank
ライス①	(100%)	99.31%	78.64%	75.80%	69.64%
ライス②	–	(100%)	78.61%	75.92%	69.61%
テイオー	–	–	(100%)	73.90%	68.37%
マックイーン	–	–	–	(100%)	65.41%
blank	–	–	–	–	(100%)

blank画像との類似度は低くなることを想定していて、ネガコンのつもりで加えています。それでも65～70%の類似度が出てしまうのですね。

類似度の算出（３）

違うウマ娘同士の類似度が73～79%でした。差を分かりやすくするために、ネガコンの値を考慮して65～100%の範囲を引き伸ばして新たに0～100点にするという規格化を行ってみます。

変換式はこちらです。（S:類似度、score:新たに算出する類似スコア）

$\begin{equation*} \begin{split} score = 100 \times \frac{S - 65}{35} \end{split} \end{equation*}$

結果がこちらです。

	ライス①	ライス②	テイオー	マックイーン
ライス①	–	98点	39点	31点
ライス②	–	–	39点	31点
テイオー	–	–	–	25点
マックイーン	–	–	–	–

先程よりは差が大きく見えるようになりました。ライスシャワーとトウカイテイオーの歌声は比較的似ていることが分かります。トウカイテイオーとメジロマックイーンの歌声は比較的遠いことが分かります。

このような定量比較が何に役立つかと言うと、例えば新しいウマ娘の声優を選ぶときに、既存のウマ娘との類似度を比較し、できるだけ遠い声優を起用するといったことができると思います。多様なキャラクターを揃えることでさらに魅力的なグループになると思います！

考察

まず、違うウマ娘同士の類似度が73～79%と「高く」「狭かった」ことについて。FFT画像はスパースで情報が少ないです（ほとんどのピクセルが０で情報密度が低い）。なのでほとんどのピクセルが一致していることになり、差が出にくかったのです。

これの改善策は情報密度を向上させることです。前回、高周波領域を破棄したのを覚えていますか？あれも情報密度を大きくする工夫でした。しかしまだまだ足りません。例えば、BGMの周波数領域もカットするとか、シグナル（白い線）を太くして情報量を増やすとか、そんなアイデアが考えられます。注意点として、倍音を削除するのは良くないですね。それは音質を失うことになります。

ポジコンが100%ではなく99%になったことについて。これは手作業によるトリミングの誤差だと思います。

最後に真のネガティブコントロールについて。ネガコンが黒画像で良いのかという議論はありそうです。情報がスパースなので、ネガコンとして真っ白な画像を使えばもっと低い類似度が出たかもしれません。しかし真っ白な画像に意味があるとは思えないので、やはり真っ黒な画像でいいのではないかと思っています。