Music-related Projects

インターネットによる音楽配信、ポータブル音楽プレイヤーの普及により、情報科学は音楽を扱う道具としても活躍しています。このページでは、伊藤研究室の研究テーマのうち、音楽に関係あるものを紹介します。

我々は「動画や文章に印象の合う音楽を生成する」というマルチモーダルな研究に取り組んでいます。この研究ではまず、動画や文章の特徴からその印象を推定するための学習結果を事前に用意しておきます。それと同時に、メロディやリズムなどの音楽素材を多数用意しておき、その印象も推定しておきます。新しい動画や文章が与えられると、本手法では学習結果にもとづいてその印象を推定し、それと印象の近い音楽素材を合成することで音楽を生成します。

以下、動画からの楽曲生成について説明します
デジタルカメラやスマートフォンの普及に伴い、日常生活で写真や動画を撮影する機会が増えてきました。またその際に撮影したものに加工や編集を施すなどして、SNSに投稿したり思い出を振り返ったりする手段として楽しむ人も増えてきました。しかし動画の編集となると、動画に合った音楽を自分で探したり、動画の長さに合うように音楽を調整したり、といった手間とスキルが必要になります。
そこで我々は、動画の動きや色，被写体のキーワードといった動画特徴量から個々人が感じる印象を推定し，その結果に基づいて選出されたメロディとリズムをマッシュアップする楽曲生成を行うことで、1人1人の動画の印象に合った楽曲を付与する仕組みを考えています。

S. Kanno, T. Itoh, H. Takamura, Music Synthesis based on Impression and Emotion of Input Narratives, Sound and Music Computing Conference (SMC2015), pp. 55-60, 2015. (PDF)
菅野, 伊藤, 高村, 入力文書の印象と感情に基づく楽曲提供の一手法, 情報処理学会第105回音楽情報科学研究会, MUS105-4, 2014.
清水, 菅野, 伊藤, 嵯峨山, 高塚, 動画特徴量からの印象推定に基づく動画BGM の自動素材選出, NICOGRAPH 2016, C-6, 2016. (PDF)
清水, 菅野, 伊藤, 嵯峨山, 高塚, 動画特徴量からの印象推定に基づく動画BGMの自動素材選出, 情報処理学会第114回音楽情報科学研究会, MUS-114-17, 2017.

日常生活の多くの場面において、画像と音楽は選択的に利用されています。例えば携帯電話を例にすると、特定の人から電話がかかってきたときだけ、違う画像を表示する、違う着メロを再生する、といった設定をしている人は多いかと思います。

我々は画像と音楽を好ましい組み合わせで選択するための一システムとして、画像の印象に合わせた音楽の自動アレンジシステム DIVA (Digital Image Varies Arrangement) を提案しています。 DIVAでは画像の色分布と、画像に付与されたキーワードから、それに印象が合うと推定されるリズムパターンを自動選択し、そのリズムパターンをもって音楽を自動アレンジします。これによって、任意の画像に合わせる形でアレンジされた音楽を提供できると考えます。

大山, 伊藤, DIVA：画像の印象に合わせた音楽自動アレンジの一手法の提案, 芸術科学会論文誌, Vol. 6, No. 3, pp. 126-135, 2007. (PDF)
K. Ohyama, T. Itoh, DIVA: An Automatic Music Arrangement Technique Based on Impressions of Images, Lecture Notes in Computer Science, Vol. 4569 (Smart Graphics 2007), pp. 178-181, 2007. (PDF)

ポータブルMP3プレイヤーなどの普及により、大量の楽曲を持ち歩く機会が増えました。それに伴い、聴きたい音楽の選択方法も、多様化が可能になったと考えます。自分がどのような楽曲を持ち歩いているのかを一覧表示する、いわゆる「コンテンツブラウザ」の開発にも、一工夫の余地があると考えています。

この図は、3次元的に積み重ねたアイコンの集合として、大量の楽曲を表示するコンテンツブラウザの例です。このコンテンツブラウザは 「平安京ビュー」 という情報可視化手法を3次元に拡張したものです。
ここで3次元型のコンテンツブラウザには、手前のアイコンによって奥のアイコンが遮蔽されて見えなくなる問題（クラッタリング）が発生します。本手法では、クラッタリングが生じるアイコンを互いによけあう技術を開発して、この問題を軽減しています。

R. Miyazaki, T. Itoh, An Occlusion-Reduced 3D Hierarchical Data Visualization Technique, 13th International Conference on Information Visualisation (IV09), pp. 38-43, 2009. (PDF)
宮崎, 伊藤, 3次元情報可視化におけるクラッタリング回避手法の提案と応用, 画像電子学会誌, Vol. 39, No. 1, pp. 36-44, 2010. (PDF)

原則として計算機上の音楽ファイルのアイコンは、その拡張子だけで選択され、楽曲のジャンルや印象を反映することはありません。もし楽曲ファイルが、その印象や内容にしたがって多様なアイコンで表示されたら、計算機上で音楽を聴くのがもっと楽しくなるのでは…と我々は考えました。

我々は、楽曲と画像の特徴に基づいて、楽曲に合ったアイコン画像を自動選択するシステム MIST (Music Icon Selector Technique) を提案しています。 MISTでは楽曲と画像の特徴を抽出し、それぞれの印象を形容詞で表現します。そして、印象が近いと推定される楽曲と画像を組み合わせることで、楽曲に合ったアイコン画像を自動選択します。

また我々は、歌詞の内容に基づいて選択した複数のアイコン画像により、歌謡曲の内容やストーリーを表現するシステム Lyricon を提案しています。 Lyricon では歌詞をブロックごとに分割して形態素解析を適用し、ブロックの内容を端的に表現する単語に対応付けられたアイコンを選択します。この組み合わせにより、楽曲の内容を表現します。

M. Oda, T. Itoh, MIST: A Music Icon Selection Technique Using Newral Network, NICOGRAPH International 2007. (PDF)
小田, 伊藤, 音楽アイコン自動選択手法MISTへの音響データファイル適用の試み, 第8回NICOGRAPH春季大会, 2009. (PDF)
町田, 伊藤, Lyricon－複数アイコンの自動選択による楽曲構成の可視化－, 情報処理学会第81回音楽情報科学研究会, MUS81-18, 2009. (PDF)

W. Machida, T. Itoh, Lyricon: A Visual Music Selection Interface Featuring Multiple Icons, 15th International Conference on Information Visualization (IV2011), 2011.

アイコン以外にも、楽曲を視覚的に表現する手段はいくつか考えられます。我々はその一例として、楽曲の特徴量に基づいて抽象画像を生成するシステム MusCat を提案しています。
MusCatでは、多数の楽曲を特徴量に基づいてクラスタリングし、各々のクラスタに対応する抽象画像を特徴量に基づいて自動生成します。そして、我々が開発しているズーム操作型画像一覧ブラウザCATを適用して、抽象画像群を一覧表示することにより、抽象画像へのズーム操作によって選曲を促すことができます。

草間, 伊藤, MusCat: 楽曲データの印象表現に基づいた一覧表示の一手法, 情報処理学会第81回音楽情報科学研究会, MUS81-19, 2009. (PDF)
K. Kusama, T. Itoh, MusCat: A Music Browser Featuring Abstract Pictures and Zooming User Interface, ACM Symposium on Applied Computing, Multimedia Visualization Track, pp. 1227-1233, 2011. (PDF)

音楽情報の可視化には、多数の楽曲を一覧するという目的のほかに、 1曲の内部構成を可視化する、という目的も考えられます。このような可視化手法は例えば、作曲・編曲の支援、器楽や指揮の練習支援、初学者への教育支援、などに有用であると考えられます。
私達は、大編成楽曲の総譜（スコア）の内容を可視化・要約するシステム Colorscore を提案しています。 Colorscoreでは、楽曲を構成するいくつかの楽譜パターンを抽出し、これらを色分け表示することで、楽曲の内部構成を可視化します。それとともにColorscoreでは、可視化結果を横方向および縦方向に圧縮表示することで、楽曲の要約表示を実現します。
さらに私達は、MIDIファイルを入力とするColorscoreに対して、 CDやMP3などの音響データを入力とする「らふのおと」を提案しています。「らふのおと」では一定時刻ごとに計測される楽曲特徴を、色のついた球で表現し、それを並べることで、楽曲の変化をラフ（おおまか）に表現しています。

林, 伊藤, Colorscore : MIDIを利用したクラシック楽曲構造の可視化と圧縮表示, 第2回データ工学と情報マネジメントに関するフォーラム(DEIM 2010) (PDF)
A. Hayashi, T. Itoh, M. Matsubara, Colorscore - Visualization and Condensation of Structure of Classical Music, 15th International Conference on Information Visualization (IV2011), 2011.
S. Nagatsu, T. Itoh, RoughNote: A Single-Tone-Note-Like Visual Representation of Classical Music, NICOHRAPH International 2011, 2011.

人が聴きたい音楽を選択するときに、アーティスト名やアルバム名、曲調や歌詞の内容などとは別に、例えば「ドライブに似合う曲」「海に似合う曲」といった漠然とした目的が基準になることがあるかと思います。このような漠然とした目的に対する選曲の基準は、非常に主観的で個人差のあるものです。そのような要求を満足させるためには、計算機がユーザの嗜好を適切に学習した結果として楽曲を推薦するシステムが欲しくなります。
私達はこのような楽曲推薦システムを目指して、MusiCube というシステムを提案しています。MusiCube では対話的進化計算という仕組みに基づいて、楽曲を提示し、ユーザに「似合う」「似合わない」の2択で提示曲を評価してもらい、その反復によりユーザの嗜好を学習します。ユーザはその学習過程と提示曲の分布を、任意の2つの特徴量を2軸とする正方形領域への表示で確認することができます。MusiCubeは、上記のような漠然とした要求に対する適切な楽曲推薦を目指すだけでなく、ユーザが「似合う」と選んだ楽曲がどのような特徴を有する楽曲であるかについて「気づき」を与えるシステムでもあると私達は考えます。

Y. Saito, T. Itoh, MusiCube: A Music Selection Interface featuring Interactive Evolutionary Computering in Feature Spaces, IEEE Pacific Visualization 2011, Poster Session, 2011. (PDF)
斉藤, 伊藤, MusiCube:特徴量空間における対話型進化計算を用いた楽曲提示インタフェース , 2011年度人工知能学会全国大会, 2011.

大量の楽曲を、その音楽的意味にしたがって分類する、ということには多くの意義があると考えます。
私達はポピュラー音楽をコード進行にしたがって分類し、その分類結果とそれ以外の情報（例えばアーティスト名、年代、リスナー層など）との関係性を可視化するシステムを提案しています。これによって、リスナーごとの嗜好の分析、年代ごとのコード進行の流行性の発見、など多くの音楽的分析が容易になると考えられます。
（本研究はお茶の水女子大学渡辺研究室の研究に参加したものです。）

長澤, 渡辺, 伊藤, Web から入手したデータに基づくコード進行を利用した楽曲類似度の提案と楽曲視聴支援システムの開発, 電子情報通信学会データ工学ワークショップ(DEWS2008), 2008.