Google NotebookLMやAdobe Illustratorで作成したテキスト情報を含まないPDFも、アップロードするだけでOCRして全文テキスト化
スライド共有サービス「ドクセル(Docswell)」を運営する株式会社アプルーシッド(所在地:東京都千代田区、以下「当社」)は、ドクセルにおいて画像PDFの全文書き起こし機能の提供を開始いたしました。
 
本機能により、Google NotebookLMなどで生成された画像ベースのスライドや、Adobe Illustratorなどでアウトライン化されたPDFをアップロードした際にも、スライド内のテキストが自動で書き起こされるようになります。これまで画像PDFでは文字起こし欄が空白となり、検索エンジンに適切にインデックスされにくいという課題がありましたが、今回の対応によりアップロードするだけで全文が書き起こされ、検索による発見可能性が大きく向上します。
開発の背景
ドクセルでは、アップロードされたスライドのテキスト情報を抽出し、検索エンジンからの発見やサイト内検索に活用しています。しかし、以下のようなケースではPDFファイル内にテキスト情報が含まれておらず、文字起こし欄が空白のままとなるため、良質な資料が検索エンジンからスライドを見つけてもらいにくいという課題がありました。
NotebookLMなどのAIツールで生成されたスライド(画像として出力されるため、テキスト情報が含まれないケース)
Adobe Illustratorなどでフォントをアウトライン化して作成されたPDF(文字がパスデータに変換されているケース)
スキャンした紙資料をPDF化したもの(画像データのみでテキストレイヤーがないケース)
近年、NotebookLMをはじめとするAIツールの普及により画像ベースのスライドが増加していることを受け、これらのPDFについてもテキストを正しく認識・書き起こしできるよう、本機能の開発に至りました。
機能概要
画像PDFをドクセルにアップロードすると、スライド内の文字情報を自動的に認識し、全文を書き起こします。書き起こされたテキストはスライドの詳細ページに反映され、GoogleやYahoo!などの検索エンジンからインデックスされるようになります。
対象 画像のみで構成されたPDFファイル(テキストレイヤーを含まないPDF)
処理 スライド変換時に自動で全文書き起こしを実行
テキスト編集 書き起こされたテキストは、編集画面からユーザー自身で編集・修正が可能
費用 無料(既存の全プランでご利用いただけます)
対応状況 本日より提供開始。既にアップロード済みの画像PDFについても順次書き起こしを適用予定
 
ユーザーの皆様にとってのメリット
1. 検索エンジン・AI双方からの発見可能性が向上
画像PDFであってもテキスト情報が付与されることで、Googleなどの検索エンジンにインデックスされやすくなります。これにより、ご自身のスライドがより多くの方に見つけてもらえるようになります。
2. アップロードするだけで完了
ユーザー側での特別な操作は不要です。これまでと同じようにPDFをアップロードするだけで、自動的に全文が書き起こされます。
3. テキストの手動編集にも対応
自動書き起こしされたテキストは、編集画面からご自身で自由に編集・修正いただけます。誤認識の修正や、検索されやすいキーワードの追加などにご活用ください。
AIの情報源としてのドクセル
ドクセルには、検索エンジンのクローラーだけでなく、検索やAIサービスの各種botからも1週間に50万回以上のアクセスがあることがわかっています(※Cloudflareによる計測)。ChatGPTやClaudeなどのAIアシスタントが回答を生成する際の情報源として、ドクセルに公開されたスライドが活用されていることを示しています。
今回の画像PDF全文書き起こし対応により、これまでAIが読み取ることのできなかった画像ベースのスライドについても、テキスト情報が付与されるようになります。検索エンジンだけでなくAIからも「見つけてもらえる」状態になることで、スライドを公開するユーザーにとっての情報発信力がさらに高まります。
ドクセルは、人が読むだけでなく、AIが参照するナレッジプラットフォームとしての役割も担い始めています。
今後の展望
ドクセルでは、今後もスライド共有における利便性向上に取り組んでまいります。検索エンジンからの発見可能性の向上だけでなく、AIを活用した要約生成や多言語対応など、アップロードされた資料の価値を最大化するための機能拡充を予定しています。
「ドクセル」サービス概要
サービス名:ドクセル(英名:Docswell)
URL:https://www.docswell.com/
概要:PDFやPowerPointの資料をアップロードすると、ブラウザ上で閲覧可能なプレーヤ形式に変換し、わかりやすいURLで共有することができるスライド共有サービス
費用:無料。企業向けのロゴ非表示プラン、セキュリティ強化・SSO対応の上位サービスあり
運営会社: 株式会社アプルーシッド(東京都千代田区)
会社概要
会社名:株式会社アプルーシッド
所在地:東京都千代田区平河町1-3-6-2F
代表取締役:川畑雄補
設立:2018年6月
事業内容:スライド共有サービス「ドクセル」などDXの企画・開発・運営及びコンサルティング
URL:https://uplucid.com/