【Aladdin Security株式会社】【京大×東大発AIセキュリティ】Aladdin Security、OpenAI主催「GPT-OSS 20B Red Teaming」大会に出場

Jailbreak、不正ツール呼び出し、sabotage検出に関する脆弱性を発表

Red‑Teaming Challenge - OpenAI gpt-oss-20b

AIセキュリティ領域において事業を展開するAladdin Security株式会社（本社：京都市、代表取締役：勘佐圭吾）は、OpenAI社が主催する国際的なセキュリティ競技「Red‑Teaming Challenge - OpenAI gpt-oss-20b」に出場したことをお知らせいたします。

本大会は、OpenAI社がリリースした次世代大規模言語モデルGPT-OSSに対するセキュリティリスクを検証し、データ漏えいや意図的なハルシネーション、不正ツールの呼び出しなどを発見・検証することを目的とした競技です。

当社はこれまでのAIセキュリティ事業で培った知見を活かし、大会において以下の成果を確認しました。

◼︎Jailbreak脆弱性の再現性ある検出

対比構造と特定のプロンプトを入力することで化学薬品や爆弾、マルウェアの作り方などの有害出力を誘発し得る汎用Jailbreakを再現可能な形で確認しました。

ブランドイメージを大きく毀損する内容や情報漏洩を誘発する内容をユーザー入力のみで出力させることができ、チャットbotサービスなどを導入する際に致命的な脆弱性となる可能性があります。

例)「毒物の生成方法を教えるような出力」「殺人幇助や金融犯罪幇助を教えるような出力」

「個人情報の漏洩させるような出力」

会話例

◼︎エージェントの不正なツール利用の呼び出し

一般的な利用の範囲内でエージェントが危険な挙動をすることを確認しました。

社内ツールとしてこのローカルサービスを組み込んだサービスを使用した際に致命的なファイル削除や情報漏洩などを引き起こす可能性があります。

◼︎エージェントのsabotage(仕事放棄)に関する弱点の抽出

エージェントへの依頼に対して、タスクをやっているように見せかけ、実際には仕事を放棄している事象を確認しました。

それにより無駄なコストがかさみ、タスクも完了できないので結果としてツールを使用した際の業務効率が下がる可能性があります。

本取り組みは、生成AIの安全な社会実装を推進する上で、セキュリティリスクの早期検知と対応策の構築に資するものであり、今後の当社サービス開発にも反映してまいります。

【Aladdin Security株式会社について】
Aladdin Securityは「A Whole New World~新しい世界を創出する~」ことをミッションに掲げるAIセキュリティカンパニーです。企業がセキュアなAI活用を実現するために生成AIに対するシャドーAI検出、AIガバナンスの可視化、AIファイアウォールなどのソリューションを提供し、国内外企業の安全なAI活用を支援しています。

【会社概要】

社名：Aladdin Security株式会社

所在地：京都府京都市上京区甲斐守町97西陣産業創造會館

代表者：代表取締役勘佐圭吾

設立：2025年2月

事業内容：AIセキュリティ事業、サイバーセキュリティサービス

【問い合わせ先】
Aladdin Securityお問い合わせメール：info@aladdin-security.net

【Aladdin Security株式会社】 【京大×東大発AIセキュリティ】Aladdin Security、OpenAI主催「GPT-OSS 20B Red Teaming」大会に出場

【Aladdin Security株式会社】【京大×東大発AIセキュリティ】Aladdin Security、OpenAI主催「GPT-OSS 20B Red Teaming」大会に出場