Qwen3.5-4Bとは?テキスト・画像・動画を理解するマルチモーダルAI
はじめに
AIモデルの進化は凄まじいですが、2026年2月にリリースされたQwen3.5-4Bは「軽量なのに何でもできる」画期的なモデルです。
テキストだけでなく、画像や動画も理解できるマルチモーダルAIでありながら、4Bパラメータ(40億)というコンパクトなサイズ。ローカルPCでも動作する手軽さが魅力です。
今回は、Qwen3.5-4Bの特徴や使い方を初心者向けにわかりやすく解説します。
Qwen3.5-4Bとは?
基本情報
- 開発元: Alibaba Cloud(アリババクラウド)
- パラメータ数: 4B(40億)
- タイプ: Causal Language Model with Vision Encoder
- コンテキスト長: 262,144トークン(最大1,010,000トークンまで拡張可能)
- 対応入力: テキスト、画像、動画
- 対応言語: 201言語・方言
- ライセンス: オープンウェイト(無料で利用可能)
Qwen3-4Bとの違い
| 項目 | Qwen3-4B(前世代) | Qwen3.5-4B(最新) |
|---|---|---|
| リリース | 2025年 | 2026年2月 |
| マルチモーダル | なし(VL版別途) | 標準搭載 |
| コンテキスト | 256Kトークン | 262Kトークン(最大1M) |
| アーキテクチャ | 従来型 | Gated Delta Networks + MoE |
| 思考モード | なし | デフォルトで有効 |
最大の違いは、Qwen3.5-4Bは標準でマルチモーダル対応している点です。別途VL版をインストールする必要がありません。
主な特徴
1. 統合ビジョン・ランゲージ基盤
Qwen3.5-4BはEarly Fusionと呼ばれる手法で、テキストと視覚情報を統合的に学習しています。
対応可能なタスク:
- 画像の内容理解・説明
- 動画の要約・分析
- 図表・グラフの読み取り
- 数学的視覚問題の解決
- 文書画像のOCR・理解
2. 驚異的なベンチマーク性能
軽量モデルながら、高いベンチマークスコアを記録:
言語タスク:
- MMLU-Pro: 79.1
- C-Eval: 85.1
- IFEval: 89.8
視覚言語タスク:
- MMMU-Pro: 66.3
- Mathvista: 85.1
- OCRBench: 85.0
- VideoMME(字幕付き): 83.5
特に数学的視覚問題(Mathvista)で85.1という高スコアは、同じサイズのモデルの中でトップクラスです。
3. 262Kトークンの超長文対応
262,144トークン(約20万字)を一度に処理可能。さらに、YaRN技術を使えば1,010,000トークンまで拡張できます。
活用例:
- 複数論文の横断分析
- 長編小説の理解
- 大規模コードベースの解析
- 長時間動画の要約
4. 思考モード(Thinking Mode)
Qwen3.5-4Bはデフォルトで思考モードが有効です。回答前に内部で思考プロセスを生成し、より正確な回答を導き出します。
思考例:
問題を分析...
解法を検討...
最適な回答を構成...
最終回答
5. 201言語対応
日本語を含む201言語・方言に対応。多言語環境でも快適に使えます。
使い方
方法1: OpenAI互換APIで使う
vLLMやSGLangを使えば、OpenAI互換のAPIサーバーを起動できます:
# vLLMで起動
vllm serve Qwen/Qwen3.5-4B --port 8000 --tensor-parallel-size 1 --max-model-len 262144 --reasoning-parser qwen3
from openai import OpenAIclient = OpenAI(
base_url="http://localhost:8000/v1",
api_key="EMPTY"
)
テキスト入力
response = client.chat.completions.create(
model="Qwen/Qwen3.5-4B",
messages=[{"role": "user", "content": "日本の四季について教えて"}],
max_tokens=32768
)
print(response.choices[0].message.content)
方法2: 画像入力
messages = [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {"url": "https://example.com/image.jpg"}
},
{
"type": "text",
"text": "この画像について説明してください"
}
]
}
]response = client.chat.completions.create(
model="Qwen/Qwen3.5-4B",
messages=messages,
max_tokens=32768
)
方法3: 動画入力
messages = [
{
"role": "user",
"content": [
{
"type": "video_url",
"video_url": {"url": "https://example.com/video.mp4"}
},
{
"type": "text",
"text": "この動画の内容を要約してください"
}
]
}
]response = client.chat.completions.create(
model="Qwen/Qwen3.5-4B",
messages=messages,
max_tokens=32768,
extra_body={
"mm_processor_kwargs": {"fps": 2, "do_sample_frames": True}
}
)
活用シーン
1. 文書画像の理解
スキャンした文書やPDFの画像をアップロードするだけで、内容を理解・要約できます。OCR機能も内蔵しており、高い精度で文字認識が可能です。
2. 数学・科学問題の解決
図やグラフを含む数学問題を解くのに最適。Mathvistaで85.1という高スコアを記録しており、視覚的な問題解決能力が高いです。
3. 動画コンテンツの分析
長時間の動画を要約したり、特定のシーンを検索したりできます。VideoMMEベンチマークでも83.5点を記録するなど、動画理解能力も優秀です。
4. プログラミング支援
LiveCodeBench v6で55.8点を記録。コード生成やデバッグにも活用できます。
5. 多言語翻訳・学習
201言語対応を活かして、翻訳や外国語学習のアシスタントとしても使えます。
注意点
まとめ
Qwen3.5-4Bは「軽量なのに何でもできる」を実現した画期的なマルチモーダルAIです。
おすすめしたい人:
- テキストだけでなく画像・動画も処理したい人
- ローカルでAIを使いたい人
- 長文処理が必要な人
- コストを抑えたい人
無料で始められるので、まずはHugging FaceやAPIで試してみてはいかがでしょうか?
—
関連リンク
—
関連記事
—
*最終更新: 2026-03-03*


コメント