【Gemini × 音声メモ】録音内容を自動要約するPythonアプリを作ってみた第1回

Gemini x 音声メモ Gemini
Gemini x 音声メモ

第1章:はじめに – 音声メモだけじゃ物足りない?

前回作ったアプリの振り返り

以前の投稿でPythonを使用して要件定義から音声メモアプリの作成を行いました。
しかし、現時点ではすべてのメモがひらがなで生成されていますね。もちろん要件定義をしていないので、仕方ないといえば仕方ないことです。ここから学べることは、、、、
 要件で定義されいないので、そんな機能はなくて当然なのです。
ということで、今回はメモしたものを漢字にする&要約する(音声でのメモは口語調で読みにくい)という挑戦をしてみようと思います。
以前の投稿が気になった方はこちらから→【前編】音声メモアプリ-要件定義からPythonアプリ作成まで

今回のゴール

 以前作成した要件をもとに改めて要件定義を行い、無料で音声メモ+漢字変換+要約ができるコードを生成。
 普段使いできるアプリを作成することがゴールになります。
 最後にはコードを貼り付けますので、ご利用ください。また、皆さんも前回の記事を参考に作成に取り組むこともできるはずです。ぜひトライしてみてください。


第2章:実現可能な手法を考える(技術制約)

技術的制約

 以前に技術的制約(非機能要求)について軽く説明しましたが、そのうちの一つに実現性を考えるということも含まれます。
今回のアプリでは漢字化や要約を行うため、おそらくAIとの連携が必要になります。
簡単な手段として、メモを作成したらWebでChatGPTを開いて、貼り付け、要約してといえばやってくれます。ですが、これだとダサい&面倒くさいですよね。
なのでなにかしらAIのAPI※を叩いてアプリ上で要約できるようにしましょう。

※「Application Programming Interface(アプリケーション・プログラミング・インターフェース)」の略で、アプリやサービス同士をつなぐ“窓口”や“橋渡し役”のような仕組みです。今回はAIにメモの情報を渡して、要約を返してもらう機能とイメージしてください。

要約用のAI

要約用のAIには様々ありますが、今回の使い方にマッチするのはどれかなとまとめてみました。
私個人の利用であれば、OpenAIを使用しますが、ライトユーザーも想定すると無料である程度使えることが重要。
 Geminiの無料枠を調べてみると「1日あたり60リクエスト」とのこと。メモ帳の要約には十分な仕様かなと思います。

APi名特徴料金※日本語対応
OpenAI GPT-4 / GPT-3.5精度が高く柔軟・会話風にも対応0.14円/500文字
Claude(Anthropic)長文処理が得意(日本語△)APIは有料
GeminiGoogle系、Googleアカ連携で無料利用可無料(頻度制限有)
Mistral API軽量・安価、英語中心無料(初期クレジット有)
ローカルLLM(例:LM Studio)オフラインで動作、自分でモデル用意無料(GPU要)△(モデル次第)

※料金は大体の概算になります。


第3章:Gemini APIの導入

Gemini APIの取得

  1. 以下の公式サイトにアクセス(Googleアカウント要)
  2. ページ右上から「APIキーを作成」をクリック
    APIキー取得画面
  3. 以下の画面が表示されたら、赤で塗りつぶした部分にAPIが表示されますので、コピーして保存しておいてください。
    APIキー

ここまででPythonアプリ経由でGeminiに問い合わせするための準備が完了です。
次回からは実際のコードを生成してアプリの動作チェックをしてみようと思います。

お問い合わせ・ご質問はこちらから。

エラー: コンタクトフォームが見つかりません。

コメント

タイトルとURLをコピーしました