ChatGPT でオーディオデータ分析 & 自動作曲

ChatGPTは、単なる対話生成にとどまらず、プログラミング・コードや画像も生成できる多才なツールです。

たとえば、ChatGPTを活用することで、CSVファイルにまとめられた数値データの統計解析も行えます。しかし、その機能は数値データの分析に留まりません。実は、画像データの分析も可能です。例えば、特定の画像のRGBヒストグラムを生成することができます。

【スポンサーリンク】

ChatGPT による画像分析

プロンプト:

アップロードした画像のRGBヒストグラムを表示してください。表示する際には、アップロードした画像とグラフを一緒に出力してください。

結果:

ChatGPT によるオーディオ・データ分析

画像の分析が可能であることから、音声データの分析もできるのか、という疑問が生じます。実際に試してみると、以下の分析が可能でした。

波形表示
スペクトル分析
スペクトログラムの表示

プロンプト:

アップロードした音声データを解析してください。具体的には、

(1) 基本的な音の特性を日本語で文章で返答してください。
(2) 音声データの波形を表示してください。
(3) 音声データのスペクトル分析を行ってください。
(4) 音声データのスペクトログラムを表示してください。

少々手間がかかりますが、よろしくお願いします。

結果:

音声データの基本的な特性は以下の通りです：

長さ: 約 3.93 秒
サンプルレート: 44100 Hz
チャンネル数: 2（ステレオ）
データ形式: 16ビット整数

次に、音声データの波形を表示します。

音声データの波形を表示しました。次に、スペクトル分析を行います。この分析では、フーリエ変換を用いて時間領域の信号を周波数領域に変換します。

スペクトル分析の結果を表示しました。最後に、音声データのスペクトログラムを作成し、表示します。スペクトログラムは時間の経過に伴う周波数の分布を視覚的に示します。

スペクトログラムの作成中にエラーが発生しました。これは、音声データの処理方法に起因する可能性があります。ステレオ音声データ（2チャンネル）のため、スペクトログラムを生成する前にデータをモノラル（1チャンネル）に変換する必要があります。

この変換を行い、もう一度スペクトログラムを作成します。

ステレオ音声データをモノラルに変換した後のスペクトログラムを表示しました。これにより、音声データの時間経過に伴う周波数の分布を視覚的に確認できます。

ChatGPT によるオーディオ・データの生成

さらに、ChatGPT ではオーディオそれ自体の生成も可能です。ただし。2023年11月15日現在、オーディオ自体の生成機能は iOSアプリ版に限定されています。ブラウザ版ではこの機能は利用できません。また、生成できるオーディオは比較的シンプルなものに限られます。例えば、今回試したのは、以下のようなオーディオ・データです。

440 Hz のサイン波
簡単なメロディ
モーツァルト風の簡単なメロディ
犬の鳴き声

ChatGPT による 440 Hz のサイン波の生成

ChatGPT による自動作曲の様子

また、Roland TR 808 ふうの音色の生成も試してみました。

ChatGPT による、Roland TR 808 ふうのスネアの音の生成

この機能にはまだ改善の余地があるものの、iPhoneアプリ版でオーディオデータの生成が可能となると、ChatGPTを使った作曲が手軽にできる時代がすぐすこまで来ている！と言えますね！