AI inside、対話と業務実行を同時処理する全二重型音声対話モデルを開発- GENIAC事業研究成果として業務完了時間96%短縮を実証

AI inside 株式会社（代表取締役社長CEO：渡久地択、本社：東京都港区、以下「AI inside」）は、人との対話と業務の実行を同時に処理する全二重（Full-Duplex）型音声対話モデルを開発しました。

本研究開発は、経済産業省と国立研究開発法人新エネルギー・産業技術総合開発機構（NEDO）が実施する日本国内における生成AIの開発力強化を目的としたプロジェクトGENIAC（Generative AI Accelerator Challenge）に採択された研究テーマ「一貫性のある日本語Full-Duplex-SpeechマルチモーダルLLMの研究開発」の成果に基づいています。

全二重型音声対話モデルの技術的特徴

１. 対話と業務実行の同時処理- 全二重型音声対話

本モデルは、人の発話の途中から意図を捉え、応答生成や業務処理を即時に開始できる全二

重（Full-Duplex）型の音声対話に対応しています。従来の音声AIは発話が完了してから処理を開始していましたが、本モデルは発話中から処理を進めます。これにより、リアルタイムな会話応答を実現します。

雑談

会話の盛り上がりに応じて、発話内容を即時に変化させながら応答

https://www.youtube.com/watch?v=6RhYE_SElmA

仕事の相談

確認応答に加え、笑い声などの非言語表現もリアルタイムに生成

https://www.youtube.com/watch?v=l9o9_D0UxMM

旅行の相談

相槌のタイミングと強度を自然に制御し、落ち着いた対話を維持

https://www.youtube.com/watch?v=IV42U9LQJao

２. 目の前の情報を認識する画像理解

画像・音声・テキストを1つのモデルで統合的に処理する仕組みを実現しました。画像内容を日本語で説明する評価では、Qwen3-8B-VLとの比較において約6.1倍の説明精度を確認しています。

帳票・書類などの画像情報を認識し、音声指示と組み合わせて業務を実行する画像理解能力が、業務完遂AIの目として機能します。

開発手法

本研究では、日本語理解などの基礎能力を活かし、必要な部分のみ追加学習する手法を採用しました。モデル全体を作り直すことなく性能を向上させることで、既存の業務環境や用途に迅速に適応できる設計となっています。

この拡張性により、エッジコンピュータ「AI inside Cube」上での展開や既存プロダクトへの組み込みにも適しています。

業務完遂AIの実証

本研究開発の実証では、自社AIエージェント基盤と連携し、音声指示と帳票情報を組み合わせた業務プロセスの自律実行を検証しました。特定の実証条件下において、従来人手で行っていた業務の完了時間を96%短縮できることを確認しました。

AIが業務プロセス全体を自律的に完遂し、人の介入を最小限に抑えた業務実行が可能であることを実証しています。

研究成果の社会実装

本研究で開発したモデルは今後、商用バージョンへのアップデートを行い、音声会話モデルや各種サービスへの展開を予定しています。

AI inside は、本研究開発の成果を基盤に、音声を含むマルチモーダル生成AIの研究開発と社会実装を継続的に推進していきます。「No more tools, work with buddy」の理念のもと、AIを単なるツールではなく、人と共に考え判断を支える存在へと進化させ、日常から業務まで幅広い領域での活用を目指します。

AI inside 株式会社について

AI inside 株式会社は、生成AI・大規模言語モデル（LLM）や自律型AIの研究開発と社会実装を推進するテックカンパニーです。日本語のドキュメント処理に特化したLLM「PolySphere」の開発をはじめ、政府機関・地方公共団体・民間企業など7万ユーザ超への導入実績を持ち、独自のAI基盤の構築と普及を進めています。主力プロダクトである「DX Suite」は、データ入力業務に特化したAIエージェントとして、前後工程全体の自動化を実現しています。これらの取り組みを通じて、人とAIの協働を推進し、生産性向上と業務効率化によって創出された時間を、より付加価値の高い業務へ移行する「VALUE SHIFT」を実現します。

https://inside.ai

※文中の製品またはサービスなどの名称は、AI inside 株式会社の商標または登録商標です。