DeepSeek V3を30日使ってわかった実力と向き不向き
AI 2026.04.17
1. はじめに
なぜDeepSeek V3を使い始めたか
2026年初頭、私はAIモデルの選択肢を広げようとしていた。Claude 3.5 SonnetとGPT-4oは常用しているが、コストが気になる場面が増えていた。GLM-5も試し、その安さに驚いた。だが、「推論能力」でもっと安くて強いモデルはないかと探していた時に出会ったのが、DeepSeekが開発したDeepSeek V3だった。
(関連:AI×サイバーセキュリティ完全ガイド2026AI×科学研究(AI for Science)完全ガイド2026:AlphaProof Nex…-nexus%e3%81%8c%e3%82%a8%e3%83%ab%e3%83%87%e3%82%b7/”>AI×科学研究(AI for Science)完全ガイド2026:AlphaProof Nex…:Google Threat Defenseから自…-defense-copilot-autonomous-security/”>AI×サイバーセキュリティ完全ガイド2026:Google Threat Defenseから自…MCP完全ガイド2026:Server自作・主要10選・OpenAIRAG完全ガイド2026:LangChain vs LlamaIndex vs OpenAI …/Google/Micro…%e3%80%8cgemma-4-12b%e3%80%8d%e5%ae%8c%e5%85%a8%e8%a7%a3%e8%aa%ac%ef%bc%9a%e3%82%a8%e3%83%b3%e3%82%b3%e3%83%bc%e3%83%80%e3%83%bc%e3%83%ac%e3%82%b9%e7%b5%b1%e4%b8%80%e3%82%a2%e3%83%bc%e3%82%ad/”>Gemma 4とのオープンソース比較)
DeepSeekは、中国のAI研究企業だ。オープンソースへの貢献でも知られ、DeepSeek Coderシリーズは開発者コミュニティで高い評価を得ている。その最新汎用モデルが、DeepSeek V3である。
コストと性能のバランスを求めて
DeepSeek V3を試そうと思った直接のきっかけは、ある技術記事で「数学的推論能力がGPT-4oに迫る」という記述を見たことだ。しかも、価格はClaude 3.5 Sonnetの約1/10。これが本当なら、革命的だ。
(関連:AIの数学・推論能力)
だが、「中国発のモデルで本当に使えるのか」「日本語は大丈夫か」という懸念もあった。そこで、実際に30日間、日常業務で使い込んでみることにした。この記事は、その実体験に基づいた honest なレビューだ。メーカーのスペックシートを鵜呑みにするのではなく、実際に使ってわかった強みと弱みを整理している。
2. DeepSeek V3の基本スペック
モデル概要
DeepSeek V3は、DeepSeekが開発した汎用大規模言語モデルだ。2025年末に公開され、OpenRouterなどのAPIプロバイダ経由で利用可能になった。
主な特徴:
- パラメータ数: 671B(アクティベート時は37B)
- コンテキストウィンドウ: 最大128Kトークン
- アーキテクチャ: Mixture-of-Experts(MoE)
- 多言語対応: 中国語、英語、日本語など
MoEアーキテクチャを採用している点が特徴だ。全パラメータの一部のみを活性化させることで、巨大なモデルを効率的に動作させている。これが、高性能と低コストを両立させる秘密だ。
提供元(DeepSeek)
DeepSeekは、2023年に設立された中国のAI企業だ。ハイフライヤー(High-Flyer)というヘッジファンドが母体で、金融領域でのAI活用からスタートした。その後、汎用LLMの開発に注力し、DeepSeekシリーズを展開している。
特徴的なのは、オープンソースへの積極的な姿勢だ。DeepSeek Coder(コード生成特化モデル)は、GitHubで公開され、開発者コミュニティで高い評価を得ている。DeepSeek V3も、モデルの重みが公開されており、ローカル環境での実行も可能だ
🛒 Amazonで詳しく見る
Amazonで詳細・価格を確認
。
日本での知名度はまだ低いが、技術者の間では「数学的推論が強いモデル」として話題になり始めている。
価格帯
DeepSeek V3最大の特徴は、性能に対して圧倒的な安さだ。競合モデルと比較してみよう:
| モデル | 入力価格(/1M tokens) | 出力価格(/1M tokens) |
|---|
| Claude 3.5 Sonnet | $3.00 | $15.00 |
| GPT-4o | $2.50 | $10.00 |
| DeepSeek V3 | $0.27 | $1.10 |
| GLM-5 | $0.15 | $0.60 |
※価格は2026年3月時点の概算で、プロバイダーにより変動あり
GLM-5よりは高いが、Claude 3.5 Sonnetの約1/10、GPT-4oの約1/9のコストだ。この価格で「GPT-4oに迫る推論能力」が得られるなら、破格と言える。
3. 実際の使用感(5つの観点)
30日間、DeepSeek V3を様々なタスクで使い込んだ。コード生成、文章作成、要約、推論、そして数学的問題の解決など、日常業務で遭遇する多様なシナリオを試した。その結果を5つの観点から評価する。
3.1 コード生成
正確性
DeepSeek V3のコード生成能力は、さすがにDeepSeek Coderの系譜を引くだけあって、優秀だ。Python、JavaScript、TypeScript、Rust、Goなど、主要な言語で実用的なコードを出力できる。
ある日、RustでCLIツールを書いてもらった時のことだ。ファイルの読み書き、引数のパース、エラーハンドリングを含む中規模のツールだった。DeepSeek V3は、Rust特有の所有権システムを考慮したコードを生成し、一発でコンパイルが通った。GLM-5では何度か修正が必要だったタスクだ。
一方で、最新のライブラリや、マイナーなフレームワークを使う場面では、Claude 3.5 Sonnetに劣る印象を受けた。例えば、2025年に登場した新しいJSフレームワークを使った実装では、存在しないAPIを提案したり、非推奨の書き方をすることがあった。
複雑なロジックへの対応
複雑なアルゴリズムの実装は、DeepSeek V3の得意分野だ。ある時、グラフ理論のアルゴリズム(最短経路探索)を実装してもらった。隣接リストの構築、優先度付きキューの使用、経路の復元まで、正しく実装された。
GLM-5と比較すると、複雑なロジックでの正確性が明らかに上だ。GLM-5では、境界条件でバグを出しやすいタスクでも、DeepSeek V3は適切に処理できた。
ただし、アーキテクチャ設計を含む大規模な開発では、Claude 3.5 Sonnetに譲る。複数のモジュールの相互作用や、スケーラビリティを考慮した設計では、深みが足りない印象だ。
エラー修正能力
コードのエラー修正は、DeepSeek V3の最も得意とする領域の一つだ。コンパイルエラー、ランタイムエラー、論理エラーのいずれも、的確に原因を特定し、修正案を提示する。
error[E0382]: borrow of moved value: `data`
というRust特有の借用エラーに対して、DeepSeek V3は所有権の流れを図解しながら説明し、適切な修正を提案した。GLM-5では「.clone()をつければ解決します」という表面的な回答になりがちな場面で、DeepSeek V3は根本的な設計の見直しを提案してくれた。
コード生成の評価: 8.5/10
- 複雑なロジックも正確に実装
- エラー修正能力が特に高い
- アーキテクチャ設計では上位モデルに譲る
3.2 日本語理解
自然な日本語生成
DeepSeek V3の日本語生成能力は、中国発のモデルとしては合格点だ。基本的な文章であれば、大きな違和感のない日本語を出力する。
ただし、GLM-5と比較すると、日本語の自然さでは劣る印象を受けた。GLM-5は、中国語と日本語の言語的近さもあってか、より自然な日本語を生成する傾向がある。DeepSeek V3では、時々「翻訳調」の表現が混じることがある。
例えば、「この件についてご検討いただけますでしょうか」というような、日本語特有のクッション言葉を使った依頼表現で、DeepSeek V3は「この件を検討してもらえますか」と、やや直截的な表現になることがあった。文法的には間違っていないが、ビジネス文脈では不自然だ。
文脈理解
長い会話の中で、文脈を維持する能力は重要だ。DeepSeek V3は、10〜20ターン程度の会話であれば、文脈を適切に維持できる。
ある技術的な議論で、複数の設計案を比較検討する会話を行った。会話が進むにつれて要件が変化していったが、DeepSeek V3は最新の要件を理解し、一貫した回答を続けた。以前の発言との矛盾を指摘すると、適切に修正してくれた。
一方で、日本語特有の「空気を読む」ような文脈理解では、限界がある。暗黙の了解や、行間を読む必要がある場面では、直截的な回答になりがちだ。
敬語・丁寧語の適切さ
敬語の適切な使用は、日本語特有の課題だ。DeepSeek V3は、基本的な敬語表現は使えるが、過剰な敬語や、不適切な敬語になることがある。
「ご確認いただけますでしょうか」とすべき場面で、「ご確認いただけますかでしょうか」と二重敬語に近い表現を出力したことがあった。また、尊敬語と謙譲語の使い分けで、時々混乱することがある。
GLM-5の方が、日本語の敬語表現には慣れている印象だ。DeepSeek V3を使う際は、敬語を含む文章は、必ず人間がチェックする必要がある。
日本語理解の評価: 6.5/10
- 実用的なレベルだが、翻訳調になることがある
- GLM-5の方が日本語は自然
- 敬語の使い分けには注意が必要
3.3 長文処理
コンテキストウィンドウ
DeepSeek V3は、最大128Kトークンのコンテキストウィンドウを持つ。GLM-5と同等だ。約10万語の日本語テキストに相当する。
実際に、4万字程度の技術ドキュメントを入力して要約を依頼した。システム設計書で、複雑なデータフローが記述されたものだ。DeepSeek V3は、全体を把握した上で、要点を的確にまとめてくれた。
GLM-5と比較して、長文処理の品質に大きな差はない。どちらも、コンテキストウィンドウの限界付近では品質が落ちる傾向がある。
要約精度
要約タスクは、DeepSeek V3も得意とする領域だ。長い文章を入力して、「3つのポイントで要約して」と頼めば、的確な要約が返ってくる。
ある日、30ページの研究論文(約1万5,000字)を要約してもらった。専門用語が多数含まれる論文だ。DeepSeek V3は、主要な貢献、手法、結果を明確に整理してくれた。GLM-5と比較して、論理構造の把握に優れている印象を受けた。
ただし、日本語の要約では、GLM-5の方が自然な表現になる傾向がある。DeepSeek V3の要約は、やや硬い印象だ。
情報の一貫性
長文を処理する際、情報の一貫性を維持できるかは重要だ。DeepSeek V3は、文書内の情報を統合し、矛盾なく出力する能力を持つ。
技術文書で、複数の箇所に散らばる仕様情報を統合して整理するタスクを試した。DeepSeek V3は、する情報を適切にグループ化し、一貫した説明を生成した。GLM-5と比較して、論理的な構成に優れている印象だ。
長文処理の評価: 8/10
- 大きなコンテキストウィンドウを活かした処理が可能
- 論理構造の把握に優れる
- 日本語の自然さではGLM-5に譲る
3.4 推論能力
論理的思考
DeepSeek V3の推論能力は、このモデルの最大の強みだ。「AならばB、BならばC、Aは真だからCは?」というような三段論法は、当然のように正しく処理できる。
それだけでなく、複雑な論理構造を含む問題でも、高い正確性を発揮する。例えば、以下のような論理パズルを解かせたことがある:
「A、B、Cの3人がいて、1人だけが嘘つきです。Aは『Bは嘘つきだ』と言い、Bは『Cは嘘つきだ』と言い、Cは『AとBは同じ性格だ』と言いました。誰が嘘つきですか?」
DeepSeek V3は、各発言の整合性を検証し、正解(Bが嘘つき)を導き出した。GLM-5では、この手の問題で誤答することが多い。
ビジネスの意思決定を支援する場面でも、DeepSeek V3の推論能力は光る。複数の選択肢があり、それぞれにメリット・デメリットがある状況で、DeepSeek V3は各選択肢を体系的に分析し、推奨を導き出した。GLM-5では「どちらも一長一短です」という結論に終始しがちな場面で、DeepSeek V3は明確な判断基準を提示してくれた。
複数ステップの推論
段階的な推論を必要とするタスクは、DeepSeek V3の本領発揮する領域だ。数学的な問題や、複雑な因果関係を含む分析でも、途中のステップを明示的に示しながら、正しい結論を導く。
例えば、「売上が10%増加し、変動費が売上の60%で固定費が1000万円の場合、利益は何%増加するか?売上は元々2000万円と仮定する」という問題を投げかけた。DeepSeek V3は、以下のように段階的に計算を示した:
- 元の売上: 2000万円
- 元の変動費: 2000 × 0.6 = 1200万円
- 元の利益: 2000 – 1200 – 1000 = -200万円(赤字)
- 新しい売上: 2000 × 1.1 = 2200万円
- 新しい変動費: 2200 × 0.6 = 1320万円
- 新しい利益: 2200 – 1320 – 1000 = -120万円
- 利益の変化: 赤字が200万円から120万円に減少 = 80万円の改善
GLM-5に同じ問題を投げかけると、「利益は約15%増加します」という誤った回答(売上増加10% + コスト削減効果を単純加算)をすることがある。DeepSeek V3は、前提条件を正確に理解し、論理的に正しい計算を実行した。
数学的・科学的推論
DeepSeek V3の最も際立つ強みは、数学的・科学的推論能力だ。高校レベルの数学から、大学初等レベルの物理・化学まで、幅広い問題を解くことができる。
ある時、大学入試レベルの微分積分の問題を解かせたことがある:
「f(x) = x³ – 3x + 1 の極値を求め、グラフの概形を描け」
DeepSeek V3は、導関数を計算し、極値の候補を求め、増減表を作成し、グラフの概形を正確に説明した。途中の計算ステップも明示され、理解しやすい回答だった。
GLM-5に同じ問題を解かせると、計算ミスをすることが多い。特に、複数のステップを要する計算では、途中で誤りが生じやすい。DeepSeek V3は、この手の問題で驚くほど高い正確性を示す。
科学分野でも同様だ。化学反応式のバランスを取ったり、物理の運動方程式を解いたりするタスクで、DeepSeek V3は安定して正解を導き出した。
推論能力の評価: 9/10
- 論理的思考が非常に正確
- 複数ステップの推論で高い正確性
- 数学的・科学的推論は最大の強み
3.5 レスポンス速度
平均応答時間
DeepSeek V3の応答速度は、競合モデルと比較して高速だ。平均して、最初のトークンが返ってくるまで1〜2秒、完了までの時間は出力トークン数によるが、1,000トークンで4〜6秒程度だ。
体感として、Claude 3.5 SonnetやGPT-4oよりも速い。GLM-5と比較すると、わずかに遅い印象だが、実用上の差はほとんどない。
トークン生成速度
トークン生成速度は、約40〜60 tokens/秒だ。GLM-5(約50〜80 tokens/秒)よりは遅いが、人間が読む速度よりもはるかに速い。長い回答を生成する場合でも、待ち時間は気にならない。
安定性
APIの安定性は、実運用で重要だ。30日間の使用で、DeepSeek V3のAPIがダウンしたことは一度もなかった。タイムアウトやエラーも、極めて稀だ。
OpenRouter経由で使用しているが、プロバイダー側の問題を含めても、可用性は99%を超えていると感じる。GLM-5と同様、安定性については問題ないレベルだ。
レスポンス速度の評価: 8.5/10
- 高速な応答で、待ち時間が少ない
- APIの安定性も良好
- GLM-5よりはわずかに遅いが、実用上の差は小さい
4. 他モデルとの比較
DeepSeek V3をより深く理解するために、主要な競合モデルと比較する。特にGLM-5との比較を重点的に行う。
Claude 3.5 Sonnet
AnthropicのClaude 3.5 Sonnetは、現時点で最高峰の汎用LLMの一つだ。
DeepSeek V3が勝る点:
- コスト: 約1/10の価格
- 数学的推論: 競合レベル(体感では同等)
- 速度: 応答が高速
Claude 3.5 Sonnetが勝る点:
- 日本語表現: 文学的な表現が可能
- 設計力: アーキテクチャ設計で深みがある
- 安全性: 出力の安全性と一貫性
結論: 予算に余裕があり、最高品質を求めるならClaude 3.5 Sonnet。推論能力を重視しつつコストを抑えたいならDeepSeek V3。
GPT-4o
OpenAIのGPT-4oは、マルチモーダル対応と汎用性で定評がある。
DeepSeek V3が勝る点:
- コスト: 約1/9の価格
- 数学的推論: 体感では同等以上
- コード生成: 複雑なロジックで優秀
GPT-4oが勝る点:
- マルチモーダル: 画像理解・生成が高度
- エコシステム: ChatGPTとの連携、プラグイン
- 最新情報: Web検索との統合
結論: 画像処理やChatGPTとの連携が必要ならGPT-4o。推論・コード生成中心でコストを重視するならDeepSeek V3。
GLM-5(重点比較)
GLM-5は、DeepSeek V3と最もポジションが近いモデルだ。どちらも「低コストで実用的な品質」を目指す中国発のモデルである。
価格比較
| モデル | 入力価格(/1M tokens) | 出力価格(/1M tokens) | 相対コスト |
|---|
| DeepSeek V3 | $0.27 | $1.10 | 1.0x |
| GLM-5 | $0.15 | $0.60 | 0.56x |
GLM-5の方が約半額だ。大量のトークンを消費する用途では、GLM-5の方がコストメリットが大きい。
推論能力の比較
ここが両者の最大の違いだ。
DeepSeek V3が圧倒的に勝る点:
- 数学的推論: 複雑な計算も正確に実行
- 科学的推論: 物理・化学の問題で高い正確性
- 複数ステップの推論: 途中ステップを明示的に処理
- 論理パズル: 複雑な条件分岐を正しく処理
GLM-5が勝る点:
具体例を挙げよう。あるデータ分析のタスクで、「AとBの相関係数を計算し、その意味を解釈せよ」という問題を両モデルに投げかけた。
DeepSeek V3は、データを正しく入力し、相関係数を計算し、その値の意味(強い正の相関、弱い負の相関など)を適切に解釈した。一方、GLM-5は計算自体は正しかったが、解釈の段階で「相関係数が0.8なので、Aが増えるとBも増える傾向があります」という表面的な説明にとどまった。
別の例として、以下の問題を両モデルに解かせた:
「容器に水が入っています。1時間ごとに水量が半分になります。最初の水量が100リットルだった場合、3時間後の水量は?」
DeepSeek V3: 「100 → 50 → 25 → 12.5リットル。3時間後は12.5リットルです。」
GLM-5: 「3時間後は100 ÷ 2 = 50リットルです。」(時間の概念を誤解)
この手の問題で、GLM-5は誤答することが多い。DeepSeek V3は、問題の構造を正しく理解し、正確な答えを導き出した。
日本語の比較
GLM-5が勝る点:
- 自然な日本語生成
- 敬語・丁寧語の適切な使用
- ビジネス文脈での自然さ
DeepSeek V3が勝る点:
日本語の文章生成が中心の用途では、GLM-5の方が適している。DeepSeek V3は、翻訳調の表現になったり、敬語の使い分けで混乱したりすることがある。
コード生成の比較
DeepSeek V3が勝る点:
- 複雑なロジックの実装
- エラー修正の的確さ
- Rustなどの厳格な言語での正確性
GLM-5が勝る点:
- 特になし(コード生成ではDeepSeek V3に譲る)
コード生成では、DeepSeek V3が明確に優位だ。特に、複雑なロジックや、厳格な型システムを持つ言語(Rust、Haskellなど)では、DeepSeek V3の正確性が光る。
使い分けの推奨
| 用途 | 推奨モデル | 理由 |
|---|
| 日本語の文章生成 | GLM-5 | 日本語が自然 |
| ドキュメント要約(日本語) | GLM-5 | 表現が自然 |
| ドキュメント要約(英語・中国語) | DeepSeek V3 | 論理構造の把握に優れる |
| コード生成 | DeepSeek V3 | 正確性が高い |
| 数学的・科学的推論 | DeepSeek V3 | 圧倒的に強い |
| 日常的な対話 | GLM-5 | 日本語が自然 |
| 予算が限界ギリギリ | GLM-5 | より安い |
| 推論の正確性が重要 | DeepSeek V3 | 信頼性が高い |
比較表(総合)
| 観点 | DeepSeek V3 | Claude 3.5 Sonnet | GPT-4o | GLM-5 |
|---|
| コスト | ★★★★☆ | ★★☆☆☆ | ★★☆☆☆ | ★★★★★ |
| コード生成 | ★★★★☆ | ★★★★★ | ★★★★☆ | ★★★☆☆ |
| 日本語 | ★★★☆☆ | ★★★★★ | ★★★☆☆ | ★★★★☆ |
| 長文処理 | ★★★★☆ | ★★★★★ | ★★★★☆ | ★★★★☆ |
| 推論 | ★★★★★ | ★★★★★ | ★★★★☆ | ★★★☆☆ |
| 数学的推論 | ★★★★★ | ★★★★☆ | ★★★★☆ | ★★☆☆☆ |
| 速度 | ★★★★☆ | ★★★☆☆ | ★★★★☆ | ★★★★★ |
| 安定性 | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★★ |
※5段階評価
5. 向いている用途
DeepSeek V3の特性を踏まえると、以下の用途に向いている。
具体的な使用シーン
1. 数学的・科学的推論タスク
DeepSeek V3が最も輝くのは、数学的・科学的推論を要するタスクだ。計算問題、論理パズル、科学的概念の説明など、思考力を要するタスクで圧倒的な強さを発揮する。
実際の使用例: 大学レベルの統計学の問題を解く際、DeepSeek V3に検定手順を説明してもらった。帰無仮説と対立仮説の設定、検定統計量の計算、p値の解釈まで、ステップバイステップで正確に説明してくれた。GLM-5では、計算ミスや概念の混同があった。
2. コードレビューと修正
コードのエラー修正や、リファクタリングの提案は、DeepSeek V3に適したタスクだ。複雑なロジックの理解力が高く、的確な修正案を提示できる。
実際の使用例: Rustで所有権エラーが発生した際、DeepSeek V3に原因を尋ねた。DeepSeek V3は、借用チェッカーの観点から問題を説明し、ライフタイムの明示的な追加を提案。修正後、コンパイルが通った。
3. 技術的な文書の要約・分析
技術文書、論文、仕様書などの要約・分析は、DeepSeek V3の得意分野だ。論理構造の把握に優れており、複雑な内容を整理できる。
実際の使用例: アルゴリズムの論文(英語)を要約してもらった。DeepSeek V3は、手法の核心、計算量、貢献を的確にまとめてくれた。GLM-5と比較して、技術的な正確性が高かった。
4. 複雑なロジックを含むコード生成
アルゴリズムの実装、データ構造の操作、複雑な条件分岐を含むコード生成は、DeepSeek V3に任せると効率的だ。
実際の使用例: グラフの最短経路を求めるアルゴリズム(ダイクストラ法)を実装してもらった。隣接リストの構築、優先度付きキューの使用、経路の復元まで、一発で動くコードが生成された。
5. 論理的思考を要する問題解決
論理パズル、意思決定の分析、複雑な条件分岐を含む問題解決は、DeepSeek V3の強みだ。
実際の使用例: ビジネスケースの分析で、3つの選択肢のメリット・デメリットを評価してもらった。DeepSeek V3は、各選択肢を体系的に分析し、推奨とその理由を明確に提示してくれた。
🛒 Amazonで詳しく見る
Amazonで詳細・価格を確認
コメント