うちの「Mac book Pro」はM4-maxにユニファイドメモリが128GB搭載されています。
これは、メインメモリをGPUメモリとして使えることを意味していて、要は大きなLLMがローカルで動作します。
LM Studioというアプリを使って、昨年8月にOpen AI社が発表したOSSモデルである「GPToss120B」をダウンロードし、FileMakerPro2025からAPIを使ってアクセスさせたりしていました。
最近、このGPToss120Bをさらに洗練させた「Swallow」というモデルが出て、日本語の能力が向上しました。するとさらにQwen3.5-122bというマルチモーダルなモデル、NvidiaもNemotro3Superという120bモデルを出してくるなど、この分野は百花繚乱になってきました。これらがすべて無料で商用利用可能なものとして提供されているなんて、素晴らしすぎます。
法律家がこんなものを使う意味がどこにあるのかというと、一つは、大量のメールデータです。
企業内の不正調査とか、外部とのやり取りを調査するには、ときとして厖大なメールを抽出してきて分類し、意味を分析する必要がありますが、人力では限界があります。というより不可能です。
かといって、ChatGPTやGeminiなどの大規模なLLMをネットのAPI経由で使うと、コストと情報漏洩が心配です。
そこで、オンプレミスで、メールデータをPDFやテキストにして、データベースに落とし込みます。
データベースには、FileMakerPro2025が素人にも使いやすく、AI機能を実装していますから、ローカルで動作するLM Studioの発行しているAPI経由で、LLMにデータを読ませて、要約させたり分類させたり、条件に合うものを抽出させたりするのにピッタリです。
こんなスクリプトを自前で書くのは、普段プログラムなど書いていない弁護士には大変なことですが、GeminiやClaudeのサポートでなんとかなりました。習うより倣えばよかったのです。
さすがに、120Bをフルで動作させると、GPUもメモリも100GBくらい使ってフル回転しますから、高熱でファンは回りっぱなしになりますが、MacBookの前後から強力なUSBファンをあてることで、数時間連続稼働させても、問題は起きませんでした。RTX4090搭載のWindowsマシンでもさせてみましたが、小さいLLMしか動作しませんから、分析の精度はやはり120Bの方が良好です(ただしGPUロードできれば4090は爆速でした。)。
さらに、データをベクトル化してセマンティック検索をして、コサイン類似度の高いメールを抽出して、それをLLMに投入して分析させるというRAG化した使い方もでき、同じイシューのデータを時系列で並べたり、関連のあるデータをピックアップさせることで、コミュニケーションの構造が明らかになっていきます。このとき、temperature を下げ、プロンプトでも与えたデータ内で推論するよう指示しますから、ハルシネーションは気になりませんでした。
この仕組みは、誰が考えても、いろんなことに応用できるのです。
それは法律事務に革命を起こすものですが、その具体例はまたあらためて。

コメント