数学推理
不蒸馏 R1 也能超越 DeepSeek,上海 AI Lab 用 RL 突破数学推理极限
02月16日
0评