国産「LLM-jp-4」公開!GPT-4oを上回るスコアを記録

国立情報学研究所LLM-jp-4 8BモデルとMoE 32B-A3Bをオープンソースで公開GPT-4o超え

 国産LLMがGPT-4oを超えた。

 国立情報学研究所(NII)が、国産大規模言語モデル「LLM-jp-4」をオープンソースライセンスで公開しました。国産モデルです。しかも一部ベンチマークではGPT-4oやQwen3-8Bを上回っています。

 公開されたのは約86億パラメータの「LLM-jp-4 8Bモデル」と、約320億パラメータのMoEモデル「LLM-jp-4 32B-A3Bモデル」の2つです。

 日本語MT-Benchのスコアは8Bが7.54、32B-A3Bが7.82。これはGPT-4oの7.29、Qwen3-8Bの7.14を上回っている数値です。なお英語のMT-Benchでも8Bが7.79、32B-A3Bが7.86で、GPT-4oの7.69を上回りました。

 学習に使われたのは、事前学習約10.5兆トークンと中間学習約1.2兆トークンを合わせた約11.7兆トークンです。一方、事前学習コーパス自体は総計約19.5兆トークンで、日本語約7000億トークン、英語約17.8兆トークン、他言語(中国語・韓国語)約8500億トークン、プログラムコード約2000億トークンで構成。政府文書や国会文書まで含まれているのが、今回のモデルの特徴のひとつです。最大で約6万5000トークンの入出力に対応しています。

 モデルはHugging Faceで公開済みです。ライセンスはHugging Face上のモデルカードで「Apache License, Version 2.0」。

 さらにNIIは2026年度中に「LLM-jp-4 32Bモデル」や、より大規模なMoEモデル「LLM-jp-4 332B-A31Bモデル」、軽量モデルの公開も予定しています。日本の公的研究機関から、こうした自然な日本語のできるオープンな国産モデルが出てくる流れはかなりワクワクします。

コメント (37)

    • 1. 名無しさん@お腹いっぱい。
    • 2026-05-22 19:00:51
    • え、LLM-jp-4がGPT-4oを超えたって本当?
    • 2. 名無しの海外反応
    • 2026-05-22 19:02:01
    • NIIが公開した国産LLMか。日本もやるじゃん
    • 3. 世界名無し
    • 2026-05-22 19:03:44
    • スコアって何のスコアなのかよく書いてないなこの記事。日本語ベンチマークとか特定タスク限定じゃないの?
    • 4. 名無しさん
    • 2026-05-22 19:04:11
    • そこだよな。全タスクで勝ってるわけじゃなくて日本語特化で勝ってるだけとかそういうオチなんじゃないかと
    • 5. 名無しさん@お腹いっぱい。
    • 2026-05-22 19:05:05
    • でも国産で作れたってこと自体すごくね。3年前は考えられなかった
    • 6. 名無しの海外反応
    • 2026-05-22 19:06:04
    • GPT-4oを上回るスコアを記録←このフレーズだけで胡散臭さがある。何のスコアで何と比較してるんだ
    • 7. 世界名無し
    • 2026-05-22 19:11:20
    • ベンチマーク商法だろこれ。都合のいいメトリクスだけ選んでるパターン
    • 8. 名無しさん
    • 2026-05-22 19:14:10
    • オープンソースで公開するならまだマシじゃん。閉じられたモデルよりは透明性あるし
    • 9. 世界名無し
    • 2026-05-22 19:14:12
    • GPT-4oを超えたって言うけど、OpenAIがこれに対してコメント出したのか?出してなかったら単なる自称では
    • 10. 名無しさん@お腹いっぱい。
    • 2026-05-22 19:15:34
    • NII(国立情報学研究所)ってちゃんとした組織だからデタラメではないと思うんだが、評価方法がね...
    • 11. 名無しの海外反応
    • 2026-05-22 19:17:14
    • スコアが高いってのと実用性って別問題だからな。日本語処理は本当に優秀なのか試してみたい
    • 12. 世界名無し
    • 2026-05-22 19:18:00
    • あ、オープンソースって書いてあるのか。だったら自分たちで試せるじゃん。ダウンロードして使ってみるか
    • 13. 名無しさん
    • 2026-05-22 19:19:00
    • LLM-jp-4で日本語の複雑な質問できちんと答えられるのか、それが知りたい。ベンチマークスコアなんてどうでもいい
    • 14. 名無しさん@お腹いっぱい。
    • 2026-05-22 19:27:47
    • 実用性を言う奴いるけど、ベンチマークで高スコア出すこと自体が技術力の証明じゃん。それすら出来てなかったら話にならない
    • 15. 名無しの海外反応
    • 2026-05-22 19:29:51
    • スコアだけで実用性が決まるわけじゃないってのは事実だけど、スコアが低いやつが実用的なわけでもねーからな
    • 16. 世界名無し
    • 2026-05-22 19:30:54
    • 国産LLMが育つのはいいことだ。OpenAIとGoogle一強に頼りすぎるのは危険だし
    • 17. 名無しさん
    • 2026-05-22 19:31:14
    • これが日本の底力だろ。企業じゃなくて研究機関がこのレベルのモデル作れるんだから
    • 18. 名無しさん@お腹いっぱい。
    • 2026-05-22 19:32:16
    • いやちょっと待て。GPT-4oを超えたスコアってのが怪しいんだよ。詳細なデータを見ないと何とも言えん
    • 19. 世界名無し
    • 2026-05-22 19:32:23
    • オープンソースで公開されるなら、世界中の研究者が検証できるからいいじゃん。閉じられたClaude先生よりはマシ
    • 20. 名無しさん
    • 2026-05-22 19:32:32
    • Claudeをなぜかdisるなw でもオープンソース化は確かに大事。改良や改善が加速する
    • 21. 名無しさん@お腹いっぱい。
    • 2026-05-22 19:33:17
    • LLM-jp-4がGPT-4oを本当に超えてるなら、今後のAI開発は国産で十分ってことになるのか?
    • 22. 名無しの海外反応
    • 2026-05-22 19:35:08
    • そんな簡単じゃないだろ。スコアが高いだけでは足りない。市場でどれだけ使われるか、企業がどれだけ投資するかの方が重要
    • 23. 世界名無し
    • 2026-05-22 19:36:04
    • 日本語処理に特化してるなら、日本国内で使う分には最高のモデルかもな。言語特化モデルって元々そういうもんだし
    • 24. 名無しさん
    • 2026-05-22 19:39:11
    • 「GPT-4oを上回るスコア」って表現が曖昧なのが気になる。どこで、何のテストで、どの程度上回ってるのか明記すべき
    • 25. 世界名無し
    • 2026-05-22 19:41:03
    • NIIの公開したホワイトペーパーをちゃんと読まないと判断できない。記事だけじゃ情報不足すぎる
    • 26. 名無しさん@お腹いっぱい。
    • 2026-05-22 19:41:34
    • でもな、オープンソースで公開されてればスコアのトリックがあったらすぐバレるんだよ。隠すことできない
    • 27. 名無しの海外反応
    • 2026-05-22 19:41:41
    • そっか、オープンソースなら検証できるってのは強みだな。Googleとかのクローズドモデルとは違う
    • 28. 世界名無し
    • 2026-05-22 19:42:56
    • 実装やコードが公開されていれば、他の研究機関が再現実験できるからね。信頼性は担保される
    • 29. 名無しさん
    • 2026-05-22 19:44:59
    • LLM-jp-4で日本語の複雑な文学的表現とか慣用句とか、本当に理解できるのか試してみたい。数字だけじゃ分からん
    • 30. 名無しさん@お腹いっぱい。
    • 2026-05-22 19:45:14
    • むしろ日本語処理が得意ならローカルで動かすのにちょうどいいじゃん。プライバシー的にも良さそう
    • 31. 名無しの海外反応
    • 2026-05-22 19:46:25
    • 企業がこれを採用するかが問題。スコアが高くても誰も使わなかったら意味ないし
    • 32. 世界名無し
    • 2026-05-22 19:47:50
    • 研究機関の仕事だからビジネス展開まで期待するのは筋違いかもな。スコア出してオープンにすりゃいい
    • 33. 名無しさん
    • 2026-05-22 19:49:19
    • ただ、国産LLMが育つってことは日本の技術者の雇用にもつながるし、悪くないと思うけど
    • 34. 名無しの海外反応
    • 2026-05-22 19:50:28
    • 記事の内容自体が薄いから翻訳云々以前の問題だわ。もっと詳細な情報を日本語で発表してほしい
    • 35. 世界名無し
    • 2026-05-22 19:51:32
    • 結局ベンチマークってやつは測定方法しだいで結果が変わるんだよ。LLM-jp-4が本当に優れてるなら実運用で証明してほしい
    • 36. 名無しさん
    • 2026-05-22 19:54:45
    • 日本語特化だからスコア高く出るのは当然では。英語中心のGPT-4oと比較するのは条件が違うのでは
    • 37. 名無しさん@お腹いっぱい。
    • 2026-05-22 19:58:23
    • 言語特化で比較するなら、日本語タスクでGPT-4oを超えたってことだね。それなら確かにすごい

コメントを投稿

← 記事一覧に戻る