事件処理にＲＡＧを使う

March 18, 2026April 9, 2026

うちの「Mac book Pro」はM4-maxにユニファイドメモリが128GB搭載されています。
これは、メインメモリをGPUメモリとして使えることを意味していて、要は大きなLLMがローカルで動作します。

LM Studioというアプリを使って、昨年８月にOpen AI社が発表したOSSモデルである「GPToss120B」をダウンロードし、FileMakerPro2025からＡＰＩを使ってアクセスさせたりしていました。
最近、このGPToss120Bをさらに洗練させた「Swallow」というモデルが出て、日本語の能力が向上しました。するとさらにQwen3.5-122bというマルチモーダルなモデル、NvidiaもNemotro３Superという120bモデルを出してくるなど、この分野は百花繚乱になってきました。これらがすべて無料で商用利用可能なものとして提供されているのです。

法律家がこんなものを使う意味がどこにあるのかというと、一つは、大量のメールデータです。
企業内の不正調査とか、外部とのやり取りを調査するには、ときとして厖大なメールを抽出してきて分類し、意味を分析する必要がありますが、人力では限界があります。というより不可能です。
かといって、ChatGPTやGeminiなどの大規模なＬＬＭをネットのＡＰＩ経由で使うと、コストと情報漏洩が心配です。
そこで、オンプレミスで、メールデータをＰＤＦやテキストにして、データベースに落とし込みます。
データベースには、FileMakerPro2025が使いやすく、ＡＩ機能を実装していますから、ローカルで動作するLM Studioの発行しているAPI経由で、LLMにデータを読ませて、要約させたり分類させたり、条件に合うものを抽出させたりするのにピッタリです。
さすがに、120Bをフルで動作させると、GPUもメモリも100ＧＢくらい使ってフル回転しますから、高熱でファンは回りっぱなしになりますが、MacBookの前後から強力なUSBファンをあてることで、一晩中連続稼働させても、問題は起きませんでした。RTX4090搭載のWindowsマシンでもさせてみましたが、小さいLLMしか動作しませんから、分析の精度はやはり120Bの方が良好です（ただしGPUロードできれば4090は早いです。）。
さらに、データをベクトル化してセマンティック検索をして、コサイン類似度の高いメールを抽出して、それをLLMに投入して分析させるというＲＡＧ化した使い方もでき、データを時系列で並べたり、意味的に関連しても一見遠くにあるデータをピックアップさせることができ、コミュニケーションの構造が明らかになっていきます。

この仕組みは、ほかにも応用できるのですが、それはまたあらためて。

よかったらシェアしてね！