GPT5.1、オリジナルの競スレベンチマーク回してるけどそんなに変わってないな(黄橙diffは解ける、赤はほぼ無理)
5.1って名付けてるぐらいだしモデルの規模やReasoningの学習規模は大きく変わってないのかな