【論文読んでみた】音から風景を生成できるAI !?英語弱者だけど頑張って読んでみた

はじめに

こんにちは、ネギ玉牛丼です。

音から画像を生成するAIの論文を読んだので、概要と自分が理解した内容をまとめてみました。

論文概要

今回紹介する論文は「From hearing to seeing: Linking auditory and visual place perceptions with soundscape-to-image generative artificial intelligence」です。この論文では、音風景から街の風景画像を生成するAIモデルを提案しています。

人間は視覚だけでなく聴覚も場所の認識に重要な役割を果たしており、音からその場所の様子を想像することができます。この論文では、音風景を画像に変換することで、音と場所の関連性を視覚的に表現することを目指しています。

提案モデル

論文では、Soundscape-to-Image Diffusionモデルという、音風景から画像を生成するAIモデルを提案しています。このモデルは、大規模言語モデル(LLM)によってサポートされた生成AIモデルであり、Stable Diffusionをベースに開発されています。

モデルの構造は、以下のようになっています。

音響情報の処理: 音声データは、まず短時間フーリエ変換を用いて周波数と位相の情報に変換されます。その後、メル周波数ケプストラム係数(MFCC)などの特徴量が抽出されます。
音風景特徴量の抽出: 抽出された特徴量は、畳み込みニューラルネットワーク(CNN)に入力され、高次元のセマンティックな音響ベクトルに変換されます。このベクトルは、音風景の意味的な情報を表現しています。
画像生成: 音響ベクトルは、Stable Diffusionモデルに入力され、街の風景画像が生成されます。このモデルは、低解像度拡散モデルと超解像度拡散モデルの2つのモデルから構成されています。低解像度拡散モデルは、まずノイズ画像を生成し、音響ベクトルをガイドとしてノイズを除去していくことで、低解像度の画像を生成します。超解像度拡散モデルは、低解像度画像を高解像度画像に変換します。

評価

提案モデルの評価は、機械ベースの評価と人間中心の評価の両方で行われました。

機械ベースの評価では、生成された画像と実際の画像の類似度が評価されました。具体的には、緑、建物、空の3つの要素について、セマンティックセグメンテーションを用いてピクセル単位での割合を計算し、相関係数を算出しました。

人間中心の評価では、被験者に音声を聞かせ、3枚の画像の中から最も音に合致する画像を選ばせる実験が行われました。3枚の画像は、提案モデルによって生成された画像と、異なる場所の画像2枚です。

結果

実験の結果、提案モデルは、音風景から街の風景画像を生成することに成功しました。生成された画像は、人間の認識と一致しており、音風景の特徴を捉えていることが確認されました。

また、人間中心の評価では、被験者は80%以上の確率で提案モデルによって生成された画像を選択しました。

考察と今後の展望

この研究は、音風景と画像の関連性を明らかにするだけでなく、人間のマルチセンシング体験を理解する上でも重要な意味を持ちます。

今後の展望としては、より高解像度の画像を生成すること、人間の好みに合わせた画像を生成することなどが挙げられています。

GitHubコード解説

論文に関連するGitHubのコードは、モデルの学習と推論を行うためのスクリプトが含まれています。

extractフォルダ: データの前処理を行うスクリプトが含まれています。1.pyは画像から動画を作成するスクリプト、2.pyは動画から画像と音声データを抽出するスクリプトです。getim.pyは画像を読み込むための関数です。
torchvggishフォルダ: 音声特徴量を抽出するためのモデルが含まれています。
train.py: モデルの学習を行うスクリプトです。
sample.py: 学習済みモデルを用いて、音声データから画像を生成するスクリプトです。
testaudioフォルダ: テスト用の音声データを格納するフォルダです。
testresultフォルダ: 生成された画像を格納するフォルダです。
requirements.txt: 必要なライブラリが記載されています。

おわりに

今回は、音風景から街の風景画像を生成するAIモデルに関する論文を紹介しました。音と視覚情報を結びつけるという斬新なアイデアは、今後の都市計画や環境心理学などの分野にも応用できる可能性を秘めていると感じました。知人がこれに近い(?)研究をしていたような気がしたので、少し心配です…