!!! サイト改修中のため表示が乱れる場合があります(1月末頃まで) !!!
予測 / クラス分類

1-3. 画像のスクレイピングで教師データを用意する

やること

教師あり学習にはたくさんの教師データが必要です。今日は、「画像のクラス分類問題」の準備として、さまざまな検索ワードでGoogle画像検索を行い、結果をスクレイピングしてみます。

環境とコード

WinPython3.6をおすすめしています。

WinPython - Browse /WinPython_3.6/3.6.7.0 at SourceForge.net
Portable Scientific Python 2/3 32/64bit Distribution for Windows
AIワークショップ | 初心者だけどAIできちゃった(昼編) (2018/08/28 14:00〜)
# 同日の「夜編」と同じ内容です。夜編は混雑が予想されますので、可能な方はこちらにご参加くださいますと幸いです。 ## 概要 ノートPCを持参して、深層学習でケーキを10種類に分類しましょう。 「プロ...

プログラムの実行

実行方法は覚えていますでしょうか。

配布されたプログラムの冒頭で、検索ワードを自由に書き換えられるようになっています。できるだけキレイな画像を集めるために、「レシピ ショートケーキ」のように検索ワードを工夫すると良いです。

結果

実行すると、自動的に「scraping」という親フォルダが生成され、その中に、各検索ワードの子フォルダが生成されます。小フォルダの中には最大100枚(※2018年12月に改良され最大200枚)の画像が保存されます。

不適切な画像を手動で削除する

子フォルダをひとつひとつ開き、学習にとって不適切な画像を削除します。ここで重要なテクニックですが、もっとも画像が少ないクラスの枚数に、他のクラスの枚数を合わせます。今回は「抹茶ケーキ」が40枚まで減ってしまったため、他のクラスも40枚に統一しました。

余談

なぜすべてのクラスの画像の枚数を統一する必要があるのでしょうか?こちらのニュースをご覧ください。

焦点:アマゾンがAI採用打ち切り、「女性差別」の欠陥露呈で
米アマゾン・ドット・コム<AMZN.O>が期待を込めて進めてきたAI(人工知能)を活用した人材採用システムは、女性を差別するという機械学習面の欠陥が判明し、運用を取りやめる結果になった。

ところが15年までに、アマゾンはソフトウエア開発など技術関係の職種において、システムに性別の中立性が働かない事実を見つけ出してしまった。これはコンピューターモデルに10年間にわたって提出された履歴書のパターンを学習させたためだ。つまり技術職のほとんどが男性からの応募だったことで、システムは男性を採用するのが好ましいと認識したのだ。

例えば教師データに用いた履歴書の男女比が8:2で、男女ともに採用率50%だったとします(=男女に能力差はない)。偏った教師データで学習をすると、採用するか判断に迷った場合に、とりあえず男性を採用しておけば8割の確率で正解するわけですから、機械は男性に有利な判断をするのですね。ですから、教師データは各クラスとも同じ枚数を用意するか、同じ枚数になるように水増ししなければなりません。

リアクションのお願い

「参考になった!」「刺激された!」と思ったらぜひリアクションをしましょう。エンジニアの世界はGive and Takeによって成り立っています。これからも無料で良質な情報にアクセスできるよう、Giveする人への感謝をリアクションで示しましょう!

この記事をシェアする

自身のブログ等で使用する場合は引用を忘れずに!

また、寄付も受け付けています。コーヒー1杯でとても喜びます(*˘︶˘*)

 Amazonでギフト券(アマギフ)を贈る

こちらのリンク から金額を指定してお贈りください。(デフォルトで10000円になっているのでご変更ください)

配送:Eメール
受取人:staffあっとvigne-cla.com
贈り主:あなたのお名前やニックネーム
メッセージ:◯◯の記事が参考になりました。など

のようにご入力ください。見返りはありませんのでご了承ください。

 Amazonで食事券(すかいらーく優待券)を贈る

500円 1000円 2000円 5000円 からお贈りください。

配送:Eメール
受取人:staffあっとvigne-cla.com
贈り主:あなたのお名前やニックネーム
メッセージ:◯◯の記事が参考になりました。など

のようにご入力ください。見返りはありませんのでご了承ください。

 その他、ギフト券やクーポン券をメールで贈る

デジタルのギフト券/クーポン券はメールアドレス(staffあっとvigne-cla.com)までお送りください。受領の返信をいたします。
紙のギフト券/クーポン券は 「郵便物はこちらへ」の住所 まで送付してください。名刺やメールアドレスを同封していただければ受領の連絡をいたします。
余った株主優待券等の処理におすすめです。
いずれも見返りはありませんのでご了承ください。

不明点はSNSでお気軽にご連絡ください

ビネクラのTwitter・Youtubeでコメントをください!


Slack・Discordの場合はこちらの公開グループに参加してShoya YasudaまでDMをください!


※当ブログに関することは何でもご相談・ご依頼可能です。

この記事を書いた人
Yasuda

博士(理学)。専門は免疫細胞、数理モデル、シミュレーション。米国、中国で研究に携わった。遺伝的アルゴリズム信者。物価上昇のため半額弁当とともに絶滅寸前。

タイトルとURLをコピーしました