カラクリが国産CUAモデルを開発 ― 画像編集・メール操作でClaude Sonnet 4.6超え

カラクリ、経産省GENIAC第3期で国産CUAモデル「KARAKURI VL2」を開発 ― 画像編集・メール操作でClaude Sonnet 4.6超え、複数アプリ操作スコアはベースモデル比2.8倍に

日本語PC操作ベンチマーク「OSWorld-JP」とモデルをOSSで公開

カラクリ株式会社（本社：東京都中央区、代表取締役CEO：小田志門、以下「カラクリ」）は、経済産業省の生成AI開発支援プログラム「GENIAC」第3期の成果として、PC操作を自律的に実行する国産CUA（Computer Use Agent）向け視覚言語モデル「KARAKURI VL2」（8Bパラメータ）を開発しました。

自社開発の日本語PC操作ベンチマーク「OSWorld-JP v0.2」（100タスク）で評価した結果、総合スコアではClaude Sonnet 4.6に及ばないものの、画像編集（GIMP）とメール操作（Thunderbird）の2カテゴリでClaude Sonnet 4.6を上回りました。また、ベースモデルとの比較では、複数アプリケーションの横断操作（multi_apps）で約2.8倍のスコア向上を達成しています。

本プロジェクトでは、学習済みモデルに加え、評価に使用したベンチマーク「OSWorld-JP」もオープンソースで公開しています。第三者による結果の再現と、国内におけるCUA研究の共通評価基盤の確立を目指す取り組みです。学習用コードについても近日中の公開を予定しています。

学習済みモデル：https://huggingface.co/karakuri-ai/karakuri-vl-2-8b-thinking-2603

ベンチマーク：https://github.com/karakuri-ai/OSWorld-JP

■ ベンチマーク結果

以下はすべて自社開発ベンチマーク「OSWorld-JP v0.2」（100タスク）による評価結果で、各スコアは3回実行の平均値です。

【全カテゴリ比較：KARAKURI VL2 vs 海外主要モデル】

カテゴリ	タスク数	KARAKURI VL2（8B）	Claude Sonnet 4.6	Claude Sonnet 4.5	GPT-4.1
TOTAL	100	0.331	0.593	0.416	0.050
chrome	13	0.385	0.641	0.539	0.000
★ gimp （画像編集）	7	0.476	0.238	0.381	0.095
libreoffice_calc	12	0.167	0.806	0.306	0.000
libreoffice_impress	12	0.311	0.833	0.626	0.000
libreoffice_writer	6	0.611	0.889	0.778	0.000
multi_apps（複数アプリ）	27	0.136	0.333	0.189	0.025
os（OS操作）	7	0.714	0.857	0.714	0.429
★ thunderbird（メール）	4	0.917	0.750	0.583	0.000
vlc	5	0.067	0.667	0.200	0.067
vs_code	7	0.381	0.429	0.381	0.048

★はKARAKURI VL2がClaude Sonnet 4.6を上回ったカテゴリ（10カテゴリ中2カテゴリ）

※Claude Sonnet 4.6のパラメータ数は非公開であり、モデル規模の直接比較ではありません

※カテゴリ別のタスク数が少ないため（gimp: 7、thunderbird: 4等）、カテゴリ単位のスコアには統計的なばらつきが含まれます。

※ いずれもmax_steps=50

【スコアについて】

総合スコアではClaude Sonnet 4.6（0.593）がKARAKURI VL2（0.331）を大きく上回っています。一方、KARAKURI VL2はgimp（画像編集）でClaude Sonnet 4.6の約2倍のスコアを記録し、thunderbird（メール操作）でも上回りました。8Bパラメータの軽量モデルとして、特定の業務領域に絞った精度の追求が一定の成果を示した結果と捉えています。

【ベースモデル（Qwen3-VL-8B-Thinking ）からの変化】

カテゴリ	KARAKURI VL2（8B）	ベースモデル（8B）
TOTAL（総合）	0.331	0.287
multi_apps（複数アプリ）	0.136	0.049
os（OS操作）	0.714	0.571
libreoffice_writer	0.611	0.500
gimp（画像編集）	0.476	0.429
chrome	0.385	0.333
vs_code	0.381	0.333
vlc	0.067	0.000
libreoffice_calc	0.167	0.167
libreoffice_impress	0.311	0.395
thunderbird（メール）	0.917	1.000

学習によりmulti_appsで成功率177％増やosで成功率25％等では性能の大幅な向上が見られました。今後、学習データを拡充することで、他カテゴリも含めたさらなる性能向上に取り組む予定です。

【モデルサイズの効率性】

KARAKURI VL2（8B、総合スコア：0.331）は、ベースモデルの4倍のパラメータ数を持つQwen3-VL-32B-Thinking （総合スコア：0.378）の約88%の性能を達成しています。パラメータ数4分の1で同等水準に迫るこの結果は、エンタープライズ環境でのローカル運用を前提とした軽量化の方向性が有効であることを示しています。

■ 公開物の全体像

公開物	公開状況	ＵＲＬ
学習済みモデル（KARAKURI VL2）	公開済み	https://huggingface.co/karakuri-ai/karakuri-vl-2-8b-thinking-2603
ベンチマーク（OSWorld-JP v0.2）	公開済み	https://github.com/karakuri-ai/OSWorld-JP
学習用コード	近日公開予定	-

CUAモデルの評価に使える日本語ベンチマークが国内では限られる中、評価基盤そのものをオープンソースで提供することで、研究コミュニティ全体での知見の蓄積を促進します。ベンチマークの設計思想や各タスクの構成はGitHubリポジトリ内のドキュメントをご参照ください。

■ KARAKURI VL2の技術的特長

1. ローカル環境で動作する軽量モデル

8Bパラメータの軽量設計により、企業のオンプレミス環境で動作させることが可能です。機密性の高い顧客データや業務データを外部に送信することなく、セキュアな環境でPC操作の自動化を実現します。

2. 合成データによる業務特化学習

ネット上に存在しない実業務の操作パターンを合成データとして生成し、学習に活用しています。これにより、コンタクトセンターで日常的に行われる画像編集やメール操作といった特定業務において、汎用モデルを上回る精度を実現しました。

3. AWS Trainiumによる学習基盤

学習基盤にはAWS Trainiumを採用しています。Qwen3-VLアーキテクチャのTrainium上での大規模学習は、公開事例が確認されていない取り組みです（2026年3月時点・自社調べ）。

■開発の背景

大規模言語モデルの進化に伴い、PCをGUI経由で自律操作するCUA（Computer Use Agent）が新たなAI応用領域として注目されています。しかし、現在公開されている主要なCUAモデルの多くは英語環境に最適化されており、日本語UIや国内で広く使われる業務ソフトウェアへの対応には課題が残されていました。

カラクリは2024年、GENIAC第2期において32Bパラメータの視覚言語モデル「KARAKURI VL」を開発し、日本企業として初めてCUA向けモデルを公開しました。しかし、32Bモデルは推論コストが高く、機密データを扱う企業環境でのローカル運用が困難であるという課題がありました。

第3期では、この課題を解消するため8Bへの軽量化に取り組むとともに、日本語環境でのPC操作能力を客観的に評価するためのベンチマーク「OSWorld-JP v0.2」を新たに開発しました。モデルとベンチマークの双方をオープンソースで公開することで、国内CUA研究の発展基盤を提供します。

■ カラクリ株式会社 CPO（最高プロダクト責任者）中山智文　コメント

国産AIにおける意見は様々あると思います。その中で私が考えるのは、海外の汎用モデルと同じ土俵で戦う必要はないということです。私たちが目指すのは、日本の産業を支えてきた『現場の磨き上げ（現場力）』をAIの知性に変えることです。

今回の開発では、3つの領域に特化しました。

•

「業界特化」：特定業務における、汎用モデルを凌駕する精度の追求

•

「独自データ」：ネット上にはない、現場のリアルな操作・判断ログの活用

•

「自前運用」：軽量モデルによる、機密データを外に出さないセキュアなローカル環境

今回のベンチマーク結果が示すとおり、総合性能では海外大手モデルに大きな差があります。しかし、現場の実務で使われる特定のアプリケーション操作に絞れば、8Bの軽量モデルでも十分な精度が出せることを確認できました。また、今回はモデルだけでなく、評価に使ったベンチマーク「OSWorld-JP」もオープンソースで公開しました。国内のCUA研究において、日本語環境での評価基盤は十分に整備されていません。私たちの成果だけでなく、課題も含めてオープンにすることで、国内のCUA研究コミュニティ全体の前進に貢献したいと考えています。

■ 技術概要

項目	内容
モデル名	KARAKURI VL2
パラメータ数	8B（80億）
ベースモデル	Qwen3-VL-8B
学習手法	合成データによる独自学習
学習基盤	AWS Trainium
用途	CUA（Computer Use Agent）向け視覚言語モデル
評価ベンチマーク	OSWorld-JP v0.2（自社開発・100タスク・GitHub公開済み）
モデル公開先	HuggingFace（公開済み）
ベンチマーク公開先	GitHub（公開済み）
学習用コード	近日公開予定

■ GENIAC採択経緯

	第2期（2024年）	第3期（今回）
モデル	KARAKURI VL（32B）	KARAKURI VL2（8B）
主な成果	日本企業初のCUA向けモデル、画面認識でGPT-4o超え	軽量化（32B→8B）、特定業務領域での精度追求
公開物	モデル	モデル・ベンチマーク（公開済み）、学習コード（公開予定）
課題	モデルサイズが大きくローカル運用が困難	汎用性能のさらなる向上（データ拡充で改善予定）

■ 今後の展望

カラクリは、KARAKURI VL2を基盤としたAIエージェントアプリケーションのサービス化を推進します。カスタマーサポート領域を起点に、レガシーシステムを含む複数アプリケーション間の操作自動化へ対象を拡大し、自社製品群への統合を進めてまいります。

ベンチマーク「OSWorld-JP」については、タスク数の拡充と評価カテゴリの追加を進め、国内CUA研究における標準的な評価基盤としての発展を目指します。また、学習データの拡充とファインチューニング手法の改善により継続的に精度向上に取り組みます。

■ カラクリ株式会社について

カラクリは「FriendlyTechnology」というビジョンを掲げ、大規模言語モデル（LLM）のカスタマーサポートへの実用化を目指すAIスタートアップです。生成AIを活用した顧客対応AIエージェント『GeN』をはじめ、FAQ、オペレーター支援など、顧客接点からバックオフィス業務までを一気通貫で「自働化」するプラットフォームを提供しています。独自のガードレール技術や現場実装チーム（FDE）を強みに、SBI証券、高島屋、セブン銀行、星野リゾートなど、高度なセキュリティと対応品質が求められるエンタープライズ企業に選ばれ続けています。

会社名：カラクリ株式会社

所在地：東京都中央区

代表者：代表取締役CEO 小田志門

URL：https://karakuri.ai/