やること
音声だけでやり取りできるRAGチャットシステムを作ります!
※RAG(検索拡張生成):ネット上にない知識を回答してもらう専門家チャットAI
ChatGPT、Gemini、Google Home(おっけーグーグル)なんかでも音声会話できますが、RAGしたいとか「ヘイずんだもん」で呼びたいとかめたん様に罵られたいとか、あれこれするなら自分でシステムを作りましょうという話です。
システム概要
ざっくりこんな感じです。
文字起こしモジュール、GPTモデル、音声ソフト、どれも性能・予算・好みで選んでください。すべてAPIにして本体を軽量化してもよし。どっしりと完全ローカル構成にするもよし。仕様を決めるのもそれなりにノウハウが必要です。
今回、音声ソフトには「VOICEVOX:四国めたん」「VOICEVOX:ずんだもん」「VOICEVOX:春日部つむぎ」「VOICEVOX:青山龍星」「VOICEVOX:満別花丸」を使わせていただきました。GUI版だけでなくコマンドモード的な機能も充実していてシステムに組み込みやすいです。
VOICEVOX | 無料のテキスト読み上げ・歌声合成ソフトウェア
無料で使える中品質なテキスト読み上げ・歌声合成ソフトウェア。商用・非商用問わず無料で、誰でも簡単にお使いいただけます。イントネーションを詳細に調整することも可能です。
プロトタイプ
とりあえず一連の処理をつなげたものです。
完成
ちょい足しキーボード(3キー)を使って、「質問」「案内メッセージを聞く」「声を変える(全5種)」のボタンを付けました。質問ボタンを押しながら喋ってください(最大10秒)。
ボイス
0
回答
お、いい質問だね!
ヤドカリドライブは、誰でも簡単に自動運転を使えるようにしたいって気持ちから生まれたシステムなんだよ。
だから、交通の便が悪い地域に住んでる人や、観光で来た人が、もっと楽に移動できるように、頑張ってるんだ!
ボイス
1
回答
えっとね、ヤドカリドライブとジャクサは一緒にどんなことをやってるのかっていう質問だね?
ヤドカリドライブは、東海クラリオンっていう会社が作った自動運転システムで、そこにジャクサが開発した「みちびき」っていう人工衛星の技術が使われてるんだって!
とっても正確な位置情報を使えるから、安全な自動運転ができるんだね!すごいよね!
RAGなので専門的な知識は資料から引っ張ってきてくれています。各キャラクターの口調もうまく切り替わっています。
おわりに
一問一答なのでストリーミング(逐次処理)までは・・・ (∩゚д゚)キコエナーイ
これを自動運転車両に搭載して、景色を見ながらAIと会話してみます。乞うご期待!