機械学習をオンラインスクールや入門書籍などで学んで、次はもっと、実用的なデータを使って練習をしたいと考えている方も多いかと思います。
codexa(コデクサ)でも、機械学習で使えるデータセットのまとめや、世界中の機械学習エンジニア・データサイエンティストにこよなく愛されるKaggleなどをご紹介させて頂きました。
様々な研究機関や大学、さらにはIT企業などがデータを公開していますが、先日4月30日に、Googleから世界最大の画像のデータセットとなる「Open Images v4」のリリースがありました!(正確には以前から公開されていたv3の新バージョンへの更新です)
本記事はこのOpen Images v4の概要やデータの構成など、これからOpen Images v4を使ってみようと考えている方向けの内容をまとめました。
Open Images v4とは?
Open Images(オープン・イメージズ)とは、900万枚の画像データに対してラベルとバウンディングボックスが付与された画像のデータセットです。
画像系のデータを扱ったことがない方だと「バウンディング・ボックス(Bouding Box)」と言われても解りにくいかと思いますので、簡単に説明をさせて頂きます。まずは下の画像を見てみましょう。
こちらの写真ですが、土鍋のラーメンの写真です。写真をみてすぐ気づくかと思いますが、黄色枠で「Vegetable」として、ラーメン画像内に写っている「野菜」の場所がボックスで囲まれているのが解ります。
この黄色枠が「バウンディング・ボックス」と呼ばれています。オブジェクト、つまり今回のケースでいうと「野菜」の位置やサイズなどを明確にしています。
今回リリースされたOpen Images v4の訓練データでは、このバウンディング・ボックスが600のオブジェクトに分類されて、174万画像に対して実に1460万個が付与されています。(Googleの発表では、この規模の画像データセットは今まで存在していないとのことで、世界最大の画像データセットとなります)
また、Open Images v4の強みの一つとして、各画像の多様性にも特色があります。全体の平均で各画像で8.4の異なる複数のオブジェクトが1枚の写真に含まれているそうです。つまり、りんごしか写っていない写真や、自転車しか写っていない写真という訳ではなく、より現実社会に近づいた画像データセットという訳です。
Open Images v4のデータ構成
Open Images v4のデータセットですが、構成として訓練データ(9,011,219画像)、確認データ(41,620画像)、さらにテストデータ(125,436画像)に区分されています。各イメージは画像レベルのラベルとバウンディング・ボックスが付与されています。
(現時点で公式ドキュメントは英語のみです)
画像レベルのラベルについて
全てのデータセット(Training、Validation、Test)に対してラベルが付与されています。こちらのラベルには二種類あり、Google Cloud Vision APIに類似したコンピュータービジョンが付与したラベルと、Google内部のラベル付与担当が確認して付与したラベルがあります。(一部でクラウドソーシングも活用したとのこと)
種別 | 訓練(Train) | 確認(Validation) | テスト(Test) | クラス数 |
画像枚数 | 9,011,219 | 41,620 | 125,436 | – |
機械が付与したラベル | 78,977,695 | 512,093 | 1,545,835 | 7,870 |
人間が確認したラベル | 総数:27,894,289 正:13,444,569 負:14,449,720 |
総数:551,390 正:365,772 負:185,618 |
総数:1,667,399 正:1,105,052 負:562,347 |
19,794 |
また、上記に記した「クラス」とありますが、1クラスで100画像以上あるものを「Trainable Class(訓練可能なクラス)」としてGoogleは定めており、こちらは機械が付与したラベルで「4,764」、人間が確認したラベルで「7,186」となっています。
各クラスですが、システムが生成したIDが付与されています。IDの詳細はGoogle Knowledge Graph API経由、または簡単な説明はこちらのCSV(class-description.csv)からも確認が可能となっています。
バウンディング・ボックスについて
次にOpen Images v4に付与されているバウンディング・ボックスについての詳細です。先述しましたが、バウンディング・ボックスは全てで600のオブジェクトクラスに分類されています。各データセットに対しての割合は下記の通りです。
種別 | 訓練(Train) | 確認(Validation) | テスト(Test) | クラス数 |
画像枚数 | 1,743,042 | 41,620 | 125,436 | – |
ボックス数 | 14,610,229 | 204,621 | 625,282 | 600 |
確認データ(Validation)とテストデータ(Test)に対しては、全ての画像に対してボックスが付与されています。対して、訓練データに関しては、人間が確認したラベルが付与された約174万枚の画像にし対してボックスが与えられています。
Open Images v4のダウンロード
Open Images v4のダウロードですが、こちらのページをご参照ください。実際にファイルのダウロードを行う際は、GmailまたはGoogleに紐づいたアカウントが必要となります。
またダウンロード前にCVDFというビジュアルデータを管轄しているNPOへの使用許可リクエストを送る必要があります。こちらのページから申請が可能です。リクエスト申請には名前、所属組織名、Googleアカウント、データの使用目的を明示しなくてはいけません。
リクエストが通れば、ご自身のローカルにダウロードまたは、Google Clound Storage bucketへダウロードが可能です。参考までにですが、全画像を合計すると全てで561GBとなります。
まとめ
今回の記事では、リリースされたばかりのOpen Images v4についてまとめました!コンピュータービジョンですが、最近話題沸騰の「自動運転」や、さらには製造業などの異常検知、また隣国で話題の「監視システム」など、機械学習の分野でも、期待が非常に大きい分野です。
コデクサでも、画像系の機械学習初心者向けチュートリアルを公開しています。これから、コンピュータービジョンを勉強してみたいという方は、是非、まずはチュートリアルをやってみて下さい。
また、機械学習で使えるデータセットも随時更新してまとめていますので、他のデータセットに興味がある方は、こちらのページをご参照ください。
以上となります!