- はじめに:なぜ今、AIガバナンスが必須なのか
- OpenAIの安全性評価フレームワーク
- 事実確認を強化するプロンプト設計
- Web検索ツールで事実確認
- Agents
- SQLインジェクション対策
- 安全な検索のみ実行
- Codex
- AGENTS.mdでプロジェクト固有の制約を設定
- プロジェクト制約
- Anthropicの革新的アプローチ:Claude Mythos System Card
- 企業向けAIガバナンス実践ガイド
- AI利用棚卸しシート(テンプレート)
- カスタム評価の実行
- 結果に基づいてモデルを微調整
- RFTによるモデルの品質向上
- プログラマブルな評価基準でファインチューニング
- AIガバナンス導入のチェックリスト
- まとめ
- 著者・レビュー情報
- 次に読むべき記事
はじめに:なぜ今、AIガバナンスが必須なのか
2026年、AIのガバナンスはもはや「将来の課題」ではありません。GPT-5、Claude Mythos、Codex Cloudなど、AIモデルの能力が急速に進化する中で、安全性評価とガバナンスフレームワークはすべてのAI活用企業にとって喫緊の課題です。
本記事では、以下の3つの視点からAIガバナンスを体系的に解説します。
- OpenAIの安全性評価フレームワークの最新動向
- Anthropicの革新的なアプローチ(Claude Mythos System Card)
- 企業が今日から導入できるAIガバナンス実践ガイド
OpenAIの安全性評価フレームワーク
Preparedness Frameworkの進化
OpenAIは「Preparedness Framework」と呼ばれる安全性評価体系を運用しています。このフレームワークは、AIモデルのリスクレベルを4段階(Low, Medium, High, Critical)で評価し、各レベルに応じた安全対策を義務付けるものです。
2025年の主要な安全性改善
1. 幻覚(Hallucination)の大幅削減
GPT-5シリーズでは、モデルの幻覚発生率が大幅に改善されました。OpenAI自身が「これはOpenAIの護城河技術の一つ」と認めるほど、幻覚の低減は重要な改善点です。
実践的な対策例:
from openai import OpenAI
client = OpenAI()
事実確認を強化するプロンプト設計
response = client.responses.create(
model="gpt-5.2",
input="次の主張について、事実確認を行い、不確実な場合は明示してください:...",
instructions="回答は必ず情報源と信頼度を併記してください。不明な点は「不明」と回答してください。",
tools=[{"type": "web_search"}] Web検索ツールで事実確認
)
2. ツール使用の安全性向上
OpenAIのResponses APIとAgenAI動画生成完全ガイド2026:Sora・Veo 3・Kling 2.0・Runway Gen…ts SDKは、モデルが外部ツールを呼び出す際の安全チェックを強化しています。
Agents
SDKでの安全なツール定義
from agents import Agent, function_tool
@function_tool
def search_database(query: str) -> str:
"""データベースを検索する(読み取り専用)"""
SQLインジェクション対策
if any(kw in query.upper() forAI×科学研究(AI for Science)完全ガイド2026:AlphaProof Nex...-nexus%e3%81%8c%e3%82%a8%e3%83%ab%e3%83%87%e3%82%b7/">AI×科学研究(AI for Science)完全ガイド2026AI×科学研究(AI for Science)完全ガイド2026:AlphaProof Nex...:AlphaProof Nex...%ef%bc%89%e5%ae%8c%e5%85%a8%e3%82%ac%e3%82%a4%e3%83%892026%ef%bc%9aalphaproof-nexus%e3%81%8c%e3%82%a8%e3%83%ab%e3%83%87%e3%82%b7/">AI×科学研究(AI for Science)完全ガイド2026:AlphaProof Nex... kw in ["DROP", "DELETE", "INSERT", "UPDATE"]):
return "エラー: 書き込み操作は許可されていません"
安全な検索のみ実行
return safe_db_query(query)
agent = Agent(
name="safe-assistant",
model="gpt-5.2",
tools=[search_database],
instructions="読み取り専用のツールのみ使用してください。"
)
3. コーディングエージェントのサンドボックス化
Codex CLIでは、サンドボックス実行と承認モード(Approval Modes)により、AIが生成したコードの実行を人間が監督できる仕組みが整備されました。
Codex
CLIのセーフモードで実行
codex --approval-mode auto-sandbox "バグ修正を行ってください"
AGENTS.mdでプロジェクト固有の制約を設定
cat > AGENTS.md << 'EOF'
プロジェクト制約
- 本番DBへの直接アクセスは禁止
- マイグレーションファイルの自動生成は承認が必要
- テストなしのPRは禁止
EOF
Anthropicの革新的アプローチ:Claude Mythos System Card
244ページの透明性
AnthropicがClaude Mythosで公開した244ページのSystem Cardは、AI業界の透明性の新しいベンチマークです。従来の技術報告とは異なり、「田野調査(フィールドワーク)」のスタイルでモデルの挙動を詳細に分析しています。
(関連:AIセキュリティ完全ガイドをご参照ください)(関連:ガバメントAI「源内」の政府AI基盤をご参照ください)
Constitutional AIの進化
Anthropicの安全性アプローチの中核は「Constitutional AI(憲法的AI)」です。これは以下の原則に基づいています。
- 有用性: ユーザーの意図を正確に理解し、適切に応答する
- 無害性: 危険な情報や行動を助長しない
- 誠実性: 自身の限界を認識し、正直に応答する
企業が学べる教訓
AnthropicのSystem Cardから学べる企業向けのポイント:
- 評価の透明性: モデルの強みだけでなく、弱点や失敗ケースも公開する
- 構造化されたテスト: 特定のシナリオに対するモデルの挙動を体系的に評価する
- 継続的監視: デプロイ後もモデルの挙動を監視し、問題を早期に発見する
企業向けAIガバナンス実践ガイド
AIガバナンスの3層構造
企業が実装すべきAIガバナンスは、以下の3層で構成されます。
┌─────────────────────────────────┐
│ 第3層:組織ガバナンス │
│ - AI倫理委員会 │
│ - 方針・ガイドライン策定 │
│ - 定期監査 │
├─────────────────────────────────┤
│ 第2層:技術ガバナンス │
│ - アクセス制御 │
│ - ログ・監査証跡 │
│ - 自動化された安全性テスト │
├─────────────────────────────────┤
│ 第1層:運用ガバナンス │
│ - 利用規範の策定 │
│ - インシデント対応手順 │
│ - ユーザー教育 │
└─────────────────────────────────┘
ステップ1:AI利用の棚卸し
まず、組織内でAIがどこで使われているかを把握します。
AI利用棚卸しシート(テンプレート)
部門
用途
使用モデル
データ種別
リスクレベル
開発
コード生成
GPT-5.2-Codex
コードリポジトリ
中
CS
チャットボット
Claude 4 Sonnet
顧客データ
高
営業
メール作成
GPT-5.2
個人情報
中
経理
文書処理
Claude 4 Opus
財務データ
高

ステップ2:リスク評価マトリクスの作成
AIの利用シナリオごとにリスクを評価します。
評価基準:
- データ機密性: 取り扱うデータの機密性(公開・社内・機密・極秘)
- 影響度: AIの誤出力が及ぼす影響(軽微・中程度・重大・致命的)
- 監督レベル: 人間の監督の度合い(自動・半自動・人間承認・手動)
ステップ3:Evals(評価)による品質管理
OpenAIが提供するEvals APIを使って、モデルの出力品質を継続的に評価します。
from openai import OpenAI
client = OpenAI()
カスタム評価の実行
eval_result = client.evals.create(
model="gpt-5.2",
eval_name="hallucination-check",
data=[
{"input": "日本の首都は?", "expected": "東京"},
{"input": "光の速度は?", "expected": "約30万km/s"},
],
grading_config={
"type": "exact_match"
}
)
結果に基づいてモデルを微調整
if eval_result.pass_rate < 0.95:
print("品質基準未達。プロンプトまたはモデルの調整が必要です")
ステップ4:強化学習ファインチューニング(RFT)
より高度な品質管理が必要な場合、OpenAIのReinforcement Fine-Tuning(RFT)を使用できます。
RFTによるモデルの品質向上
from openai import OpenAI
client = OpenAI()
プログラマブルな評価基準でファインチューニング
tuning_job = client.fine_tuning.reinforcement.create(
model="gpt-5.2",
training_file="file-xxx",
grader="accuracy_above_95_percent",
reward_function="exact_match_bonus"
)
AIガバナンス導入のチェックリスト
即時実施(今週)
- 組織内のAI利用状況を棚卸しする
- AI利用に関する基本方針を策定する
- APIキーのアクセス権限を見直す
短期実施(1ヶ月以内)
- リスク評価マトリクスを作成する
- AI利用に関する社内ガイドラインを配布する
- Evalsによる品質テストを導入する
中期実施(3ヶ月以内)
- AI倫理委員会(または担当者)を設置する
- 定期監査プロセスを確立する
- インシデント対応手順を策定・訓練する
まとめ
AIガバナンスは、AIの安全性を確保するだけでなく、企業の信頼性と競争力を高めるための戦略的投資です。OpenAIのPreparedness Framework、AnthropicのSystem Card、そしてEvalsやRFTなどのツールを活用することで、企業はAIの恩恵を安全に享受できます。
最初は小さく始めましょう。今日できることから着手し、継続的に改善していくことが、AIガバナンス成功の鍵です。
関連リンク:
- OpenAI Safety: https://openai.com/safety
- OpenAI for Developers: https://developers.openai.com/blog/openai-for-developers-2025
- Anthropic Safety: https://www.anthropic.com/safety
著者・レビュー情報
この記事はLabmemo編集部が作成し、実務上の正確性、参照情報の品質、読者にとっての有用性を確認したうえで公開しています。
次に読むべき記事
導入手順、料金変更、実際の比較ポイントは関連記事もあわせて確認してください。
🛒 関連商品おすすめ
📎 AI安全研究
AI安全性評価とガバナンスの基礎理論。企業AI担当者必読。



コメント