インターネットによる音楽配信、ポータブル音楽プレイヤーの普及により、情報科学は音楽を扱う道具としても活躍しています。 このページでは、伊藤研究室の研究テーマのうち、音楽に関係あるものを紹介します。

 

我々は「動画や文章に印象の合う音楽を生成する」というマルチモーダルな研究に取り組んでいます。この研究ではまず、動画や文章の特徴からその印象を推定するための学習結果を事前に用意しておきます。それと同時に、メロディやリズムなどの音楽素材を多数用意しておき、その印象も推定しておきます。新しい動画や文章が与えられると、本手法では学習結果にもとづいてその印象を推定し、それと印象の近い音楽素材を合成することで音楽を生成します。

以下、動画からの楽曲生成について説明します
デジタルカメラやスマートフォンの普及に伴い、日常生活で写真や動画を撮影する機会が増えてきました。またその際に撮影したものに加工や編集を施すなどして、SNSに投稿したり思い出を振り返ったりする手段として楽しむ人も増えてきました。しかし動画の編集となると、 動画に合った音楽を自分で探したり、動画の長さに合うように音楽を調整したり、といった手間とスキルが必要になります。
そこで我々は、動画の動きや色,被写体のキーワードといった動画特徴 量から個々人が感じる印象を推定し,その結果に基づいて選出されたメロディとリズムをマッシュアップする楽曲生成を行うことで、1人1人の動画の印象に合った楽 曲を付与する仕組みを考えています。

 

日常生活の多くの場面において、画像と音楽は選択的に利用されています。 例えば携帯電話を例にすると、特定の人から電話がかかってきたときだけ、 違う画像を表示する、違う着メロを再生する、といった設定をしている人は多いかと思います。

我々は画像と音楽を好ましい組み合わせで選択するための一システムとして、画像の印象に合わせた音楽の自動アレンジシステム DIVA (Digital Image Varies Arrangement) を提案しています。 DIVAでは画像の色分布と、画像に付与されたキーワードから、それに印象が合うと推定されるリズムパターンを自動選択し、そのリズムパターンをもって音楽を自動アレンジします。 これによって、任意の画像に合わせる形でアレンジされた音楽を提供できると考えます。

 


ポータブルMP3プレイヤーなどの普及により、大量の楽曲を持ち歩く機会が増えました。 それに伴い、聴きたい音楽の選択方法も、多様化が可能になったと考えます。 自分がどのような楽曲を持ち歩いているのかを一覧表示する、 いわゆる「コンテンツブラウザ」の開発にも、一工夫の余地があると考えています。

この図は、3次元的に積み重ねたアイコンの集合として、大量の楽曲を表示するコンテンツブラウザの例です。 このコンテンツブラウザは 「平安京ビュー」 という情報可視化手法を3次元に拡張したものです。
ここで3次元型のコンテンツブラウザには、手前のアイコンによって奥のアイコンが遮蔽されて見えなくなる問題(クラッタリング)が発生します。 本手法では、クラッタリングが生じるアイコンを互いによけあう技術を開発して、この問題を軽減しています。


 





原則として計算機上の音楽ファイルのアイコンは、その拡張子だけで選択され、 楽曲のジャンルや印象を反映することはありません。 もし楽曲ファイルが、その印象や内容にしたがって多様なアイコンで表示されたら、 計算機上で音楽を聴くのがもっと楽しくなるのでは…と我々は考えました。

我々は、楽曲と画像の特徴に基づいて、楽曲に合ったアイコン画像を自動選択するシステム MIST (Music Icon Selector Technique) を提案しています。 MISTでは楽曲と画像の特徴を抽出し、それぞれの印象を形容詞で表現します。 そして、印象が近いと推定される楽曲と画像を組み合わせることで、 楽曲に合ったアイコン画像を自動選択します。

また我々は、歌詞の内容に基づいて選択した複数のアイコン画像により、 歌謡曲の内容やストーリーを表現するシステム Lyricon を提案しています。 Lyricon では歌詞をブロックごとに分割して形態素解析を適用し、 ブロックの内容を端的に表現する単語に対応付けられたアイコンを選択します。 この組み合わせにより、楽曲の内容を表現します。