推理正確率下降65.5%!斯坦福、MIT等用「不等式」拷問AI邏輯極限