!!! サイト改修中のため表示が乱れる場合があります(1月末頃まで) !!!
画像生成AI / スタイル変換

2-3. DCGANでお寿司の画像を学習する(ソースコードあり)

やること

DCGANのプログラムはやや複雑ですが、勉強会で配布されたものをそのまま使えばだれでもできます。今日は、DCGANでお寿司の画像を学習してみます。

使うもの

Google Colaboratoryが利用可能です。

Google Colab

WinPython3.6をおすすめしています。

WinPython - Browse /WinPython_3.6/3.6.7.0 at SourceForge.net
Portable Scientific Python 2/3 32/64bit Distribution for Windows

こちらの勉強会を参考にしています。

AIワークショップ|初心者だけどDCGANできちゃった (2019/01/18 18:00〜)
# 【注意】偽札を作るワークショプではありません【喚起】 警察関係者の立ち入りを禁止します() ## オンラインコミュニティ 情報交換・質問・クレームなどはAI FASHIONのSlack(自由参加)...
AI勉強会|GANやVAEが書けるようになりたい (2019/10/11 19:30〜)
## 久しぶりに本郷で開催します こちらがライブ配信のアーカイブ動画です。 ## 参加方法 抽選や承認はありませんので、好き勝手にお越しください。 ## オンラインコミュニティ 情報交換・質問・クレー...

画像のサイズ(解像度)を揃える

お寿司の画像を「osushi」フォルダに集めて、プログラムを用いて128*128サイズに揃えて、「osushi_resize」フォルダに保存します。

# -*- coding: utf-8 -*-
import os
from PIL import Image
import numpy as np

#パラメータ
#======================================
#画像を保存してあるフォルダ名
f = 'osushi/'
#リサイズした画像を保存するフォルダ名
f_resize = 'osushi_resize/'
#リサイズ後のサイズ
size = 128
#======================================

#処理
#======================================
if not os.path.isdir(f_resize):
    os.makedirs(f_resize)
files = os.listdir(f)
for file in files:
    img = Image.open(f + file).convert("RGBA"); img.close
    
    tmp = np.array(img)
    
    mask = tmp[:,:,3] < 240
    tmp[mask, 0] = 255
    tmp[mask, 1] = 255
    tmp[mask, 2] = 255
    
    img = Image.fromarray(tmp[:,:,0:3])
    
    width, height = img.size
    if width == height:
        tmp = img
    elif width > height:
        tmp = Image.new('RGB', (width, width), (255, 255, 255))
        tmp.paste(img, (0, (width - height) // 2))
    else:
        tmp = Image.new('RGB', (height, height), (255, 255, 255))
        tmp.paste(img, ((height - width) // 2, 0))
    img_resize = tmp.resize((size, size), Image.BICUBIC)
    img_resize.save(f_resize + file)
    print("リサイズ完了")
print()
#======================================

リサイズ後のお寿司画像(.zip)をこちらに置いておきます。展開して用いてください。

ジェネレータとディスクリミネータのモデル

さまざまな論文やテクニック集を参考に、珠玉のモデルを組みました。潜在変数は100次元に設定しました。

プログラムを実行する

DCGANのほぼ最小コードではないかと思います。自動的に「DCGAN_img」フォルダが生成され、10エポック毎にジェネレータが作成した画像が保存されます。また、「DCGAN_para」フォルダも生成され、100エポック毎にジェネレータの重みが保存されます。ハイパーパラメータの調整は非常に難しいのですが、128px*128pxくらいの画像であれば、この設定で学習が進みます。

2020/11/07追記
現在、こちらのコードではうまく学習ができないことが確認されています。原因としてはKeras, Tensorflowのバージョンしか思い当たりませんが、それぞれ下げてみてもうまく行っていません。うまく行った方がいましたら情報共有をお願い申し上げます。

import os
import time
import numpy as np
import numpy.random as nr
from PIL import Image
import matplotlib.pyplot as plt
import keras
from keras.models import Sequential
from keras.layers import Dense, Conv2D, BatchNormalization, Conv2DTranspose, Activation, Flatten, Dropout, Reshape, GlobalAveragePooling2D
from keras.layers.advanced_activations import LeakyReLU

#パラメータ
#======================================
#教師画像のフォルダ
f = 'osushi_resize/'

#ミニバッチサイズ(教師データ数の公約数にしてください)
batch_size = 50

#乱数列の次元
z_dim = 100
#unroll数(DをGよりも何回先行させるか)
unroll = 0

#discriminatorの学習率
opt_D = keras.optimizers.Adam(lr=0.0002)
#generatorの学習率
opt_G = keras.optimizers.Adam(lr=0.0004)

#画像を保存するフォルダ
img_f = 'DCGAN_img/'
#重みを保存するフォルダ
para_f = 'DCGAN_para/'
#======================================



#教師データ読み込み
#======================================
x_train = []
files = os.listdir(f)
for file in files:
    img = Image.open(f + file).convert("RGB"); img.close
    x_train.append(np.array(img))
x_train = np.array(x_train)
#-1~+1に規格化
x_train = (x_train - 127.5) / 127.5
print('枚数, たて, よこ, チャンネル')
print(x_train.shape)
#======================================



#モデルの定義
#======================================
def generator_model():
    model = Sequential()
    
    #100次元 → 8*8*256=16384次元に展開
    model.add(Dense(8 * 8 * 256, input_shape = (z_dim, )))
    model.add(BatchNormalization())
    model.add(LeakyReLU())
    
    #8*8*256chに変形
    model.add(Reshape((8, 8, 256)))
    model.add(Dropout(0.5))
    
    #8*8*256ch → 16*16*128chにアップ
    model.add(Conv2DTranspose(128, (4, 4), strides=(2, 2), padding='same'))
    model.add(BatchNormalization())
    model.add(LeakyReLU())
    
    #16*16*128ch → 32*32*64chにアップ
    model.add(Conv2DTranspose(64, (4, 4), strides=(2, 2), padding='same'))
    model.add(BatchNormalization())
    model.add(LeakyReLU())

    #32*32*64ch → 64*64*32chにアップ
    model.add(Conv2DTranspose(32, (4, 4), strides=(2, 2), padding='same'))
    model.add(BatchNormalization())
    model.add(LeakyReLU())
    
    #64*64*32ch → 128*128*3chにアップ
    model.add(Conv2DTranspose(3, (4, 4), strides=(2, 2), padding='same'))
    model.add(Activation('tanh'))

    return model

def discriminator_model():
    model = Sequential()

    #128*128*3ch → 64*64*32chにたたむ
    model.add(Conv2D(32, (4, 4), strides=(2, 2), padding='same', input_shape=(128, 128, 3)))
    model.add(BatchNormalization())
    model.add(LeakyReLU())

    #64*64*32ch → 32*32*64chにたたむ
    model.add(Conv2D(64, (4, 4), strides=(2, 2), padding='same'))
    model.add(BatchNormalization())
    model.add(LeakyReLU())
    
    #32*32*64ch → 16*16*128chにたたむ
    model.add(Conv2D(128, (4, 4), strides=(2, 2), padding='same'))
    model.add(BatchNormalization())
    model.add(LeakyReLU())

    #16*16*128ch → 8*8*256chにたたむ
    model.add(Conv2D(256, (4, 4), strides=(2, 2), padding='same'))
    model.add(BatchNormalization())
    model.add(LeakyReLU())
    
    #フラットに伸ばして
    model.add(Flatten())
    model.add(Dropout(0.5))
    
    #真偽判定
    model.add(Dense(1))
    model.add(Activation('sigmoid'))
    
    return model

def combined_model(generator, discriminator):
    model = Sequential()
    model.add(generator)
    model.add(discriminator)
    return model
#======================================


#モデルの生成
#======================================
#generatorの生成
generator = generator_model()
#discriminatorの生成
discriminator = discriminator_model()
#combinedの作成
combined = combined_model(generator, discriminator)

#generatorの構造
generator.summary()
print('↑generatorは学習ON(combinedの中に組み込む)')

#discriminatorの学習をONにして(デフォルトでONだけど)discriminatorをコンパイル
discriminator.trainable = True
discriminator.compile(loss='binary_crossentropy', optimizer=opt_D)

#discriminatorの構造
discriminator.summary()
print('↑discriminator単体としては学習ON')

#discriminatorの学習をOFFにしてcombinedをコンパイル
discriminator.trainable = False
combined.compile(loss='binary_crossentropy', optimizer=opt_G)

#combinedの構造
combined.summary()
print('↑combinedの中は、generatorが学習ON、discriminatorが学習OFF')
#======================================


#保存用フォルダ作成
if not os.path.isdir(para_f): 
    os.makedirs(para_f)
if not os.path.isdir(img_f): 
    os.makedirs(img_f)


#確認用の固定乱数列
z_fix = np.clip(nr.randn(10*2, z_dim), -1, 1)


#0エポック目、固定乱数列で生成して確認
#======================================
print('Epoch 0/30000')

ans_g = generator.predict(z_fix, verbose=0)
imgs = []
for i in range(len(ans_g)):
    img = Image.fromarray(np.uint8(ans_g[i] * 127.5 + 127.5))
    imgs.append(img)
back = Image.new('RGB', (imgs[0].width * 10, imgs[0].height * 2))
for i in range(2):
    for j in range(10):
        back.paste(imgs[i*10 + j], (j * imgs[0].height, i * imgs[0].width))
plt.figure(figsize=(10, 10))
back.save(img_f + '0.png')
plt.imshow(back, vmin = 0, vmax = 255)
plt.show()
#======================================


#0エポック目、重みの保存
generator.save(para_f + 'generator_0.h5')


#DCGAN
#======================================
for epoch in range(0, 30000):
    
    #一定epoch毎に画像表示
    if epoch % 10 == 0:
        #固定乱数列で生成して確認
        #======================================
        ans_g = generator.predict(z_fix, verbose=0)
        imgs = []
        for i in range(len(ans_g)):
            img = Image.fromarray(np.uint8(ans_g[i] * 127.5 + 127.5))
            imgs.append(img)
        back = Image.new('RGB', (imgs[0].width * 10, imgs[0].height * 2))
        for i in range(2):
            for j in range(10):
                back.paste(imgs[i*10 + j], (j * imgs[0].height, i * imgs[0].width))
        plt.figure(figsize=(10, 10))
        back.save(img_f + str(epoch) + '.png')
        plt.imshow(back, vmin = 0, vmax = 255)
        plt.show()
        #======================================
    
    
    #一定epoch毎に重みを保存
    if epoch % 100 == 0:
        #重みの保存
        generator.save(para_f + 'generator_' + str(epoch) + '.h5')
        #discriminator.save(para_f + 'discriminator_' + str(epoch) + '.h5')
    
    
    #学習イテレーション(エポックの中で、バッチサイズずつ繰り返すやつ)
    #======================================
    itmax = x_train.shape[0] // batch_size
    for i in range(itmax):

        #discriminatorの学習
        
        #まずは1回学習
        #真画像を入力して1へ学習
        x = x_train[i * batch_size : (i + 1) * batch_size]
        y = nr.rand(batch_size) * 0.5 + 0.7
        d_loss = discriminator.train_on_batch(x, y)
        #偽画像を入力して0へ学習
        z = np.clip(nr.randn(batch_size, z_dim), -1, 1)
        x = generator.predict(z, verbose=0)
        y = nr.rand(batch_size) * 0.5 - 0.2
        d_loss = discriminator.train_on_batch(x, y)
        #重みをキープしておく
        config = discriminator.get_weights()
        
        #unroll回学習
        for k in range(unroll):
            #真画像を入力して1へ学習
            x = x_train[i * batch_size : (i + 1) * batch_size]
            y = nr.rand(batch_size) * 0.5 + 0.7
            d_loss = discriminator.train_on_batch(x, y)
            #偽画像を入力して0へ学習
            z = np.clip(nr.randn(batch_size, z_dim), -1, 1)
            x = generator.predict(z, verbose=0)
            y = nr.rand(batch_size) * 0.5 - 0.2
            d_loss = discriminator.train_on_batch(x, y)
        
        #generatorの学習(=combinedの学習)
        
        #乱数列を入力して1へ学習
        z = np.clip(nr.randn(batch_size, z_dim), -1, 1)
        y = nr.rand(batch_size) * 0.5 + 0.7
        g_loss = combined.train_on_batch(z, y)
        
        #unroll発動、discriminatorの重みを1回目に戻す
        discriminator.set_weights(config)
    #======================================
    
    
    #一定epoch毎にprint表示
    if epoch % 10 == 0:
        print('Epoch {}/30000 d_loss: {} g_loss: {}'.format(epoch, d_loss, g_loss), end='')

結果

20個の潜在変数(=乱数列)でジェネレータの性能を確認しています。0エポックではジェネレータはグレーの画像しか出力しませんが、だんだんお寿司が出てきます。1200エポックまで学習してみました。

あまり長いこと学習しているとmode collapseという現象が起きることがあります。理想的なジェネレータはランダムな潜在変数から多様なお寿司を生成するものですが、「サーモン出しとくだけでディスクリミネータが本物って言ってくれるじゃん」と怠けがちです。お寿司の多様性が失われます。

mode collapse対策

実はmode collapse対策として、Unrolled GANという手法が実装されています。興味がある方はunroll=0の値を1以上にして試してみてください。だたしその分だけ学習には時間がかかります。

関連記事もご参照ください

リアクションのお願い

「参考になった!」「刺激された!」と思ったらぜひリアクションをしましょう。エンジニアの世界はGive and Takeによって成り立っています。これからも無料で良質な情報にアクセスできるよう、Giveする人への感謝をリアクションで示しましょう!

この記事をシェアする

自身のブログ等で使用する場合は引用を忘れずに!

また、寄付も受け付けています。コーヒー1杯でとても喜びます(*˘︶˘*)

 Amazonでギフト券(アマギフ)を贈る

こちらのリンク から金額を指定してお贈りください。(デフォルトで10000円になっているのでご変更ください)

配送:Eメール
受取人:staffあっとvigne-cla.com
贈り主:あなたのお名前やニックネーム
メッセージ:◯◯の記事が参考になりました。など

のようにご入力ください。見返りはありませんのでご了承ください。

 Amazonで食事券(すかいらーく優待券)を贈る

500円 1000円 2000円 5000円 からお贈りください。

配送:Eメール
受取人:staffあっとvigne-cla.com
贈り主:あなたのお名前やニックネーム
メッセージ:◯◯の記事が参考になりました。など

のようにご入力ください。見返りはありませんのでご了承ください。

 その他、ギフト券やクーポン券をメールで贈る

デジタルのギフト券/クーポン券はメールアドレス(staffあっとvigne-cla.com)までお送りください。受領の返信をいたします。
紙のギフト券/クーポン券は 「郵便物はこちらへ」の住所 まで送付してください。名刺やメールアドレスを同封していただければ受領の連絡をいたします。
余った株主優待券等の処理におすすめです。
いずれも見返りはありませんのでご了承ください。

不明点はSNSでお気軽にご連絡ください

ビネクラのTwitter・Youtubeでコメントをください!


Slack・Discordの場合はこちらの公開グループに参加してShoya YasudaまでDMをください!


※当ブログに関することは何でもご相談・ご依頼可能です。

この記事を書いた人
Yasuda

博士(理学)。専門は免疫細胞、数理モデル、シミュレーション。米国、中国で研究に携わった。遺伝的アルゴリズム信者。物価上昇のため半額弁当とともに絶滅寸前。

タイトルとURLをコピーしました