はじめてのTensorFlow入門
第4回 データを用意しよう

AIの開発はデータが命

みなさん、こんにちは!

あれは夏休みの宿題の提出日。 クラスメートに数人に泣きつき答えの丸写し作業を手伝ってもらって、ひと月分の数学の宿題を30分で終わらせた出来る男あらたまです。

計算式もなく答えだけ、しかも筆跡がバラバラな宿題に 先生には「せめて自分でやれ」という嬉しい評価をいただいたものです。

さて今日は「はじめてのTensorFlow入門」の第4回目です。

おさらい

前回の「第3回 AIで写真を分類しよう ~ 全体の流れ」では

  • 洋服の写真をグループ分けするAIを開発する
  • AI開発のおおまかな流れ
といったお話をしましたね。

今回は、AIの学習に必要なデータの用意についてのお話をしていきたいと思います。

どんなデータが必要なの?

今回はAIに学習させて、次のような判断ができるようにしたいわけです。

この写真は、どのグループに分類されるのか。
例:この写真は、Tシャツのグループに分類される
  この写真は、ジャケットのグループに分類される

そのような学習をさせたい場合には「ラベル付き画像データ」を用意します。

ラベル付き画像データ

ラベル付き画像データというのは、解答付きの問題集のようなものです。

今回の場合ですと、たくさんの洋服の写真のデータと、 さらに「これはTシャツの写真」「これはジャケットの写真」「これはスニーカーの写真」というような答えのデータ、 その2種類のデータのセットです。

aiはこのデータを使って、 「あー、こういうのをTシャツっていうんだ。 こういうのをジャケットっていうんだ。」 と学習していくわけですね。

どのくらいのデータ数が必要なの?

学習のさせかたによって変わりますが、 基本的には数万件のデータが必要となります。

私たちがAIを作ろうとおもったとき、 まずなにより最初に答え付きのデータを数万件用意する、 というところから始めるわけですね。

とは言え、いまから数万件のデータを用意をしてとなると、 この講座もなかなか先へ進みませんよね…

Fashion-MNISTを活用しよう

そこで今回は「Fashion-MNIST(ファッション-エムニスト)」とうものを使いたいと思います。

Fashion-MNISTは「Zalando Research」がAI開発者用に作成し公開してくれているの大量の洋服画像のデータです。

その画像枚数は8万枚。 Fashion-MNISTの画像たち

無料で8万枚のラベル付きデータ。これは是非使わせてもらうしかねいですねっ

今回はここまでです!

AI開発に必要となるデータの種類と件数、そしてFashion-MNIST、いかがでしたか?

次回はそのFashion-MNISTのデータを使うための前知識、「Keras」というものについてお話をしたいと思います。

次回へ続く。

>> 続きの記事
【はじめてのTensorFlow入門】第5回 Kerasってなんだ?