機械学習でもっとも重要な存在と言っても過言ではないのが、データセットです。本記事では、保存版として、インターネットで公開されている機械学習用のデータセットをまとめました。まだまだ日本国内では、公開されているデータセットが少ないので、海外で公開されているデータセットも含めています。
常時、リストを更新してますが、もしまだ含まれていないデータセットをご存知の方は、コメント欄にてお知らせ頂けますと幸いです!
【最終更新 : 2018年08月23日】
機械学習 入門チュートリアル公開しました
環境構築が不要、オンラインで実行が可能な機械学習入門チュートリアルを公開中!機械学習の世界へ飛び込んでみませんか?
データセットまとめ系
様々なデータセットをまとめているサイトです。中でもKaggleは特に有名で簡単にデータセットの利用が簡単なので、おすすめです。
- Kaggle
データの量・知名度ともに最も有名な予測モデル/分析を競い合うプラットフォーム。企業や研究機関などが様々なデータを公開。英語のみ。無料会員登録必要。 - Kaggle 初級者向けチュートリアル
- AWS パブリックデータセット
Amazon AWSが公開している、誰でも無料で利用が可能なパブリックデータセットです。2018年3月末時点で約30以上のデータセットが公開されています。地理空間や衛星写真、ゲノムなどのデータから、機会学習用として50億を超えるウェブサイトのクロールデータや、全世界で報道されている2億5千万件のニュースのモニタリングデータ(毎日更新!)など、非常に興味深いデータも公開されています。 - AWS SageMaker 初級者向けチュートリアル
- 国立情報学研究所
数少ない日本のデータセットを提供。Yahooや楽天のレビューデータセットもあります。原則として研究者またはNTCIR参加者。利用は無料ですが、無料申請および覚書締結あり。 - Harvard Dataverse
米ハーバード大学が公開してるデータセットです。オープンソースのデータレポジトリ「Dataverse」のソフトウェアが必要。 - UC Irvine Machine Learning Repository
こちらも米カルフォルニア大学アーバイン校が管理しています。現時点で約400件ほどのデータセットが公開されています。知名度も高く、また無料で簡単にダウロード可能。英語のみ。
動画
- YouTube-8M Dataset
Googleの研究チームが公開している、700万件の動画が4800件のナレッジグラフのエンティティでタグ付けされているデータセットです。TensorFlow(テンソルフロー)ファイルとしてダウンロード可能。 - YouTube-BoundingBoxes Dataset
同じくGoogleから公開されている、動画のBouding Boxがラベリングされているデータセット。24万件のYouTubeの動画のデータセットが公開されています。 - Kinetics
DeepMindが公開している、約30万件のYouTube動画に、400種に分類された人間のアクションがラベリングを行ったデータセットです。こちらでデータセットがブラウザからも確認できます。 - UCF101 – Action Recognition Data Set
セントラル・フロリダ大学が提供をしている人間のアクション認識を判別するための動画です。101個のアクションラベル(行動の分類)が付与されており、13320動画が分類されています。また各アクションはさらに大枠で5つのカテゴリ(スポーツや楽器を引いてるなど)に別れています。特に会員登録などが必要なく利用が可能ですが、利用される場合はデータ発行元のクレジットの記載が必要となります。 - AVA
2017年10月にGoogleから公開された人間のアクションのラベルがついている動画データセットです。AVAとはAtomic Visual Actions(最小単位の視覚的なアクション)の略となっており、他の動画データセットとの大きな違いとして、一つのシーンでも複数のラベルが付与されており、複雑な人間のアクションに対して機械学習を行うことが可能です。利用はサイト上の「Download」リンクより可能です。(捕捉:Googleによると、より詳細のデータセットとなるAVA 2.0も近日公開予定) - 20BN-JESTER DATASET V1
ドイツをベースとしている人工知能スタートアップの「twentybn」が公開しているハンドジェスチャーのラベルが付与された動画データセットとなります。全動画数は148,092ど非常にでかいデータセットとなっており、ラベル数は27個の事前に定義されたハンドジェスチャーのラベルが付与されています。ラベルの例として、「Swiping Left(左へスワイプ)」や「Thumb Up(親指を立てるジェスチャー)」などあります。学術的な研究目的であれば会員登録と規約の同意で利用が可能ですが、商用利用の場合は別途ライセンスの申請が必要となりますので、ご注意ください。 - Moments in Time Dataset
米大学MIT(マサチューセッツ工科大学)とIBM ワトソンAIラボが共同で行なっている研究プロジェクトが公開している動画のデータセットです。3秒の動画にアクションラベルが付与されています。動画数は100万、ラベル数は339個あり、かつ全てのラベルで必ず1000以上の動画が提供されています。データセットの利用ですが、特設されてるフォームからお申し込みをして、提供元からの審査があります。 - EPIC KITCHENS
トロント大学、カタニア大学、ブリストル大学のコンピュータービジョンの合同研究チームが公開した、キッチンの動画データセットです。キッチンでの作業(例えば料理の下ごしらえや調理、さらには食器洗いなど)を頭に取り付けたヘッドマウントカメラで撮影した55時間分の動画です。39 ,594の行動ラベル、454,158のオブジェクトラベルが付与されています。無料でデータセットを使うことは可能ですが、商用不可でクレジット記載が必要です。
画像
- MNIST
おそらく機械学習で誰もが一度は触ると思われる、有名なデータセットです。手書きの文字「0〜9」に正解ラベルが付与されています。データサイズも大きくありませんので、気軽に利用が可能。ちなみに読み方は「エムニスト」です。 - MNIST チュートリアル
- CIFAR-10
こちらも非常に知名度の高い、トロント大学が公開しているデータセットです。6万件の32×32画像に、10個のクラスがラベリングされています。クラスは飛行機、自動車、鳥、猫、鹿、犬、カエル、船、トラックの10種です。 - Fashion-MNIST
60,000のトレーニングセットと10,000のテストセットで構成されている、ファッションの画像が10クラス(例:Tシャツ、ドレス、サンダル)でラベリングされています。ファッションECのZalandoが提供しています。 - Food 101
Computer Vision Laboratoryが提供している、101,000個の食品画像を101個のカテゴリでラベリングしたデータセットとなります。会員登録などなく、簡単に利用が可能です。 - Google Open Image V4
Googleが提供をしている世界最大の画像データセット。画像内に写っているオブジェクト600種に対してバウンディング・ボックスが付与されています。詳しくは「Googleの世界最大の画像データセット「Open Images v4」の概要や使い方のまとめ」をご覧ください。
顔
- MegaFace
ワシントン大学が開催している、顔認識アルゴリズムの公開競争となります。ノイズデータを混ぜた顔認識、超大規模なデータセット(67.2万人分、470万枚の画像)の認識モデルの2つのチャレンジが現在行われています。 - CelebA Dataset
香港中文大学が提供する、20万人以上の世界中のセレブの顔に、40のアトリビューションを付与したデータセットとなります。アトリビューションの例としては、「メガネ」「帽子を被っている」「笑顔」などです。商用での利用は禁止、イメージのコピーは同一組織内での使用に限りOKですが、その他の使用は原則禁止となります。 - The FERET Database
Facial Recognition Technologyの略のFERETですが、1199名の異なる角度の顔が11338イメージ含まれています。アメリカ国防総省が提供しているデータで、利用ですが、リリース規約を読んで、規定のメールアドレスへ同意した旨を送ることで、自動返信で返信が来るようです。 - VGGFace2 Dataset
331万件もの大規模なデータとなっており、9131名の画像が含まれています。1名あたりで362.6イメージあります。データセットの利用には会員登録が必要です。特徴として、様々な人種、年齢や職業などバリエーションが意図的に高くなっています。
医療
- NIH Chest X-ray Dataset of 14 Common Thorax Disease Categories
3万人越えの肺のレントゲン写真11万枚のデータセットで、14つの胸部疾患にカテゴライズされているデータセットです。ダウロードはapp box経由で簡単に行えます。
為替・株・金融
- coinmarketcap.com
近年はやりの仮想通貨関連のデータの取得が可能です。日本でもメジャーなビットコインやイサーリアム、さらには比較的マイナーなアルトコインなどデータの取り扱いは非常に豊富です。利用ですが個人・商業利用も含めて可能のようです。APIも提供をしていますが、現状はAPIはライブ価格のティックのみとなります。将来的には過去レート、さらん有料版のAPIも提供予定とのこと。 - gaincapital.com
世界的に有名な為替取引のゲインキャピタルですが、為替レートの過去データを公開しています。2000年から最新までの1週間毎の為替レートのダウロードが可能です。取得に関しては、特に会員登録などは必要ありません。通貨は期間によってばらつきがありますが、米ドル円やユーロ円などのメジャーな通貨のデータはほとんどカバーされています。 - 金融関連の機械学習チュートリアル
本記事ですが、常時更新をしていきます!本リストに未だ掲載されていないデータセットがございましたら、コメント欄にて御指摘をいただけますと幸いです!
Open Images Dataset V4
https://storage.googleapis.com/openimages/web/index.html
コメント、ありがとうございます!codexaでも以前にOpen Images Dataset V4の紹介記事を公開しておりましたが、本リストへの追記が出来ておりませんでした。改めて追加致しました。
参考:Googleの世界最大の画像データセット「Open Images v4」の概要や使い方のまとめ