こんにちは、1回生のナオヤです。

今回はCSM音声合成を使って人の声っぽい音声を作っていきたいと思います。

CSM音声合成とは

CSM音声合成は複数のsin波を重ね合わせて人間の声に近い音波を作る方法です。

基本となる音に複数の倍音(周波数が整数倍の音)を重ねて作ります。

各周波数の音の振幅を変えることで「あ」や「い」といった発音を作ることも出来ます。

実際に作ってみる

sin波は「Audacity」で生成しました。

今回は「あ」の音を生成してみます。

合成するsin波は以下の通りです。

(※音の再生するときは音量に気を付けてください。)

周波数(Hz):260

振幅:0.07

周波数(Hz):520

振幅:0.09

周波数(Hz):780

振幅:0.08

周波数(Hz):1040

振幅:0.19

周波数(Hz):1300

振幅:0.08

以上の音を合成するとこのようになります。

「あ」って聞こえますよね。

このままでは音の最初から最後まで音量が一緒で不自然なので、始まりと終わりを滑らかにします。

このように人間の声にかなり近くなりました。

最後に

今回の周波数と振幅の数値はこの動画から参考にしました。

https://www.nicovideo.jp/watch/sm13283644

「あ」以外に「い」や「う」などの他の音についても紹介されているので興味がある方はぜひ試してみてください。

Twitterでフォローしよう

おすすめの記事