|
|
|
|
|
Visual Bank株式会社(東京都港区、代表取締役CEO 永井真之、以下「Visual Bank」)は、傘下の株式会社アマナイメージズを通じて展開するAI学習用データソリューション『Qlean Dataset(キュリンデータセット)』において、『日本語・1話者・独り語りの音声コーパスデータセット』の提供を開始しました。 |
|
|
|
本データセットは、日本語話者による独り語り(モノローグ)形式の自然発話を収録した音声コーパスであり、個人の経験・興味・ライフストーリーに基づく自由語りで構成されています。48kHz / 16-bitの高品質WAV形式で提供し、自然なイントネーションやプロソディ(声の強弱・リズム・高さの変化)を含むため、音声認識(ASR)、話者特徴抽出、音声生成(TTS)、要約モデル、自然言語処理(NLP)、および生成AI・マルチモーダルAI(音声LLM等)の音声入力処理に活用できます。 |
|
自然環境下で収録された単独話者の長尺音声は、AIモデルの汎化性能検証や実環境での音声理解技術の評価に適しており、大学・研究機関における日本語音声研究、企業における対話システムやコールセンターオペレーションの高度化、教育・社会福祉領域における音声理解AIの開発など、幅広い領域で利用可能です。 |
|
|
|
|
|
今回提供を開始する「日本語・1話者・独り語りの音声コーパスデータセット」の概要 |
|
|
|
|
|
|
|
|
|
|
|
「日本語・1話者・独り語りの音声コーパスデータセット」のユースケースイメージ |
|
|
|
【研究用途(アカデミア)】 |
|
|
|
• |
|
音声認識(ASR)モデルの精度向上 |
|
単一話者による長尺の自然発話を用いて、語尾変化・句読点の揺れ・話題転換を含むASRモデルの学習・評価に活用できます。研究用ASRベースラインの評価にも適しています。 |
|
|
• |
|
話者認識・音響特徴量分析 |
|
多年代の日本語話者による自然発話を収録しており、声紋特徴量の抽出、クラスタリング、年齢推定などの音声科学研究に利用できます。 |
|
|
|
|
|
|
|
【産業用途(企業)】 |
|
|
|
• |
|
音声アプリケーションの性能改善 |
|
ボイスUI・音声検索・スマートデバイスなど、単独話者ベースの認識が中心となるアプリケーションにおいて、長文認識の精度向上に寄与します。 |
|
|
• |
|
生成AI・マルチモーダルAIにおける音声入力精度向上 |
|
本データセットは、日本語話者による自由語り(Narrative)形式の長尺かつ文脈依存の自然発話を収録しており、音声 → テキスト → 意味理解(Embedding生成)を行うマルチモーダルAIの前処理精度向上に適しています。 |
|
音声質問応答、対話生成、要約生成、音声LLMなど、音声入力を前提とした生成AIモデルの性能改善に活用できます。 |
|
|
• |
|
ロボティクス・対話エージェントの自然対話モデル |
|
長尺の個人語りに対する文脈保持モデルの評価に利用でき、介護支援ロボット、受付AI、家庭用ロボットなどの自然対話性能の向上に寄与します。 |
|
|
|
|
|
|
|
【その他実需要(教育・社会実装)】 |
|
|
|
• |
|
教育支援AI・日本語学習支援 |
|
多様な年代の話し方・語彙選択・文脈展開を含むため、日本語教育、スピーチ教育、発音指導AIなどの教材データとして使用できます。 |
|
|
|
|
|
|
|
|
|
『Qlean Dateset(キュリンデータセット)』について |
|
|
『Qlean Dataset』は、Visual Bank傘下の株式会社アマナイメージズが提供する商用利用可能なAI学習用データソリューションです。 画像・動画・音声・3D・テキストなど、多様な形式のデータに対応し、研究・商用いずれの用途でも安全に利用できる環境を整備しています。 |
|
また、株式会社千葉ロッテマリーンズや株式会社東洋経済新報社をはじめとするデータパートナーとの協業を通じ、業界特化・最新トレンドに即したデータラインナップ「AIデータレシピ」を継続的に拡充しています。 |
|
Qlean Datasetは、AI開発現場におけるデータ収集・整備の負荷を軽減し、権利クリアで法的リスクのないAI開発環境の構築を支援します。 |
|
▶ Qlean Datasetサイト:https://qleandataset.visual-bank.co.jp/
|
|
▶ AIデータレシピ:https://qleandataset.visual-bank.co.jp/lineup
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Qlean Datasetの特長 |
|
|
|
• |
|
すべての被写体から同意取得・国際法規(GDPR/CCPA)準拠 |
|
|
• |
|
|
• |
|
カスタム撮影・収録・収集による独自データ構築にも対応 |
|
|
|
|
|
▶ お問い合わせ:https://qleandataset.visual-bank.co.jp/contact
|
|
|
|
|
|
Visual Bank株式会社 |
|
|
|
AI開発力を最大化する次世代型データインフラを構築・提供するスタートアップ企業として、「あらゆるデータの可能性を解き放つ」をミッションに掲げ事業活動を展開。漫画家の「もっと描きたい!」をサポートするAI補助ツールを提供する『THE PEN』の他、AI学習用データセット開発サービス『Qlean Dataset(キュリンデータセット)』を提供する株式会社アマナイメージズを100%子会社に持つ。 |
|
また、Visual Bankは国の研究開発プログラム |
|
GENIAC」にも採択され、社会実装に向けた取り組みを加速させています。 |
|
|
|
代表取締役CEO:永井 真之 |
|
所在地:〒107-0062 東京都港区南青山7-1-7C-Cube南青山ビル6F |
|
Visual Bank企業URL:https://visual-bank.co.jp/
|
|
アマナイメージズ企業URL: https://amanaimages.com/about/
|
|
|
 |
|
|
|
【Translation】 |
|
|
|
|
|
|
|
|
|
Authentic Japanese Narrative Monologue Corpus for Speech and Language AI |
|
|
|
Long-Form Japanese Speech for Robust ASR, Conversational AI, Speech Analytics, and Multimodal LLM Development |
|
|
|
Visual Bank Inc. (Minato-ku, Tokyo; CEO: Saneyuki Nagai; hereinafter “Visual Bank”) has launched a new dataset titled the 「Japanese Narrative Monologue Speech Corpus Dataset」 under its AI training data solution Qlean Dataset, operated through its subsidiary Amanaimages Inc. |
|
|
|
This corpus contains natural monologue-style speech by Japanese speakers, based on their personal experiences, interests, and life stories. The dataset is provided in high-quality WAV format (48 kHz / 16-bit) and includes natural intonation and prosody, enabling applications in automatic speech recognition (ASR), speaker feature extraction, text-to-speech (TTS), summarization models, natural language processing (NLP), and multimodal AI systems including speech-enabled large language models. |
|
|
|
Long-form single-speaker recordings captured in natural environments are suitable for evaluating AI model generalization and real-world speech understanding performance. The dataset can be used across a wide range of fields, including Japanese speech research at universities and research institutions, enterprise dialogue systems and call-center optimization, and speech-understanding AI for education and social support services. |
|
|
|
Dataset Specifications |
|
|
|
• |
|
Subject Attributes:Japanese speakers aged 30s-60s, including men, women, and children |
|
|
• |
|
|
• |
|
Duration:Approximately 15 minutes per recording |
|
|
• |
|
Content:Speakers talk freely about their own experiences and areas of interest |
|
|
• |
|
Audio Specifications:48 kHz / 16-bit |
|
|
• |
|
|
|
|
|
|
|
Example Use Cases |
|
|
|
【Research Use (Academia)】 |
|
|
|
• |
ASR Model Improvement Long-form natural monologues provide data for training and evaluation of ASR models handling sentence endings, punctuation variation, and topic shifts. Suitable for baseline benchmarking in research settings. |
|
|
• |
Speaker Recognition and Acoustic Feature Analysis The dataset includes natural speech from Japanese speakers across multiple age groups, supporting research in voiceprint feature extraction, clustering, age estimation, and acoustic phonetics. |
|
|
|
|
|
|
|
【Industrial Use (Enterprises)】 |
|
|
|
• |
Performance Enhancement for Voice Applications Useful for improving recognition accuracy in applications relying on single-speaker input, such as voice UI, voice search, and smart devices. |
|
|
• |
Improved Speech Input for Generative and Multimodal AI The long-form contextual narrative speech is well-suited for improving preprocessing accuracy in multimodal AI systems that convert audio to text and meaning (embedding generation). Applicable to speech-based Q&A, dialogue generation, summarization, and speech-enabled LLM performance enhancement. |
|
|
• |
Natural Dialogue Models for Robotics and Agents Supports evaluation of context-retention models for long-form speech, contributing to natural conversational performance in care robots, reception AI, and home robotics. |
|
|
|
|
|
|
|
【Other Practical Uses (Education & Social Implementation)】 |
|
|
|
• |
Educational AI and Japanese Language Learning Support The dataset covers various speaking styles, vocabulary choices, and narrative structures, enabling use in Japanese-language education, speech instruction, and pronunciation-training AI tools. |
|
|
|
|
|
|
|
|
|
About Qlean Dataset |
|
|
Qlean Dataset is a commercial-use-ready AI training data solution provided by Amana Images Inc., a subsidiary of Visual Bank Inc. It supports diverse data types including images, videos, audio, 3D, and text-enabling both research and commercial AI development in a legally safe environment. |
|
Through collaborations with data partners such as Chiba Lotte Marines Co., Ltd. and Toyo Keizai Inc., Qlean Dataset continuously expands its specialized, industry-relevant lineup known as the “AI Data Recipe.” |
|
By reducing the operational burden of data collection and preparation, Qlean Dataset helps build legally compliant and risk-free AI development environments. |
▶ Qlean Dataset: https://qleandataset.visual-bank.co.jp/en ▶ AI Data Recipe: https://qleandataset.visual-bank.co.jp/en/lineup
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Key Features of Qlean Dataset |
|
|
|
• |
|
Full consent obtained from all subjects; compliant with GDPR and CCPA |
|
|
• |
|
Existing datasets deliverable within one business day |
|
|
• |
|
Custom data collection and recording available |
|
|
|
|
|
▶ Contact: https://qleandataset.visual-bank.co.jp/en/contact
|
|
|
|
|
|
About Visual Bank Inc. |
|
|
Visual Bank Inc. is a Tokyo-based startup building next-generation data infrastructure to maximize AI development capabilities under the mission, “Unlock the potential of all data.” The company operates THE PEN, an AI-assisted creative tool for manga artists, and wholly owns Amana Images Inc., which provides the Qlean Dataset service. |
CEO: Saneyuki Nagai Address: C-Cube Minami Aoyama Building 6F, 7-1-7 Minami-Aoyama, Minato-ku, Tokyo 107-0062 Corporate Site: https://visual-bank.co.jp/en/ Amana Images: https://qleandataset.visual-bank.co.jp/en/company-overview
|
|