Искусственный интеллект уступил людям в самом строгом математическом тесте

Name: Искусственный интеллект уступил людям в самом строгом математическом тесте
Item: Искусственный интеллект уступил людям в самом строгом математическом тесте
Author: RadaKarp

AOinformIT 17.06.2026 в 23:35 88

Фото: Getty Images

Особенность теста заключалась в том, что вопросы не присутствовали в обучающих данных моделей, поэтому нейросети не могли «списывать».

Несмотря на стремительный прогресс искусственного интеллекта в обработке естественного языка и написании кода, современные модели все еще заметно уступают лучшим математикам-человекам в решении сложных научных задач.

Это показало недавнее исследование в рамках проекта First Proof, который считается самым строгим тестом для оценки математических способностей ИИ, пишет WION.

Четырем передовым ИИ-моделям предложили решить десять сложных задач исследовательского уровня. Особенность теста заключалась в том, что вопросы не присутствовали в обучающих данных моделей, а ответы проверяли независимые эксперты-математики. Таким образом, нейросети не могли "списывать".

Организаторы подчеркивают, что эксперимент проводился автономно, без какого-либо участия людей в процессе выполнения заданий. Кроме того, к участию допускались только публично доступные ИИ-системы. В числе участников — OpenAI с ChatGPT 5.5 Pro и академические группы из Калифорнийского университета, Принстонского университета и Швейцарского федерального института технологий в Цюрихе. Эти команды разработали так называемые "хэрнесы" — автоматизированные системы, заставляющие чат-боты многократно проверять и уточнять ответы.

Результаты оказались показательными: лучшая система смогла решить только 6 из 10 задач. Поскольку все задания ранее уже были решены профессиональными математиками, это подтвердило, что человеческая экспертиза по-прежнему превосходит ИИ в работе с новыми, строго исследовательскими математическими проблемами.

Авторы проекта отмечают, что системам искусственного интеллекта предстоит еще пройти долгий путь, прежде чем они смогут автономно выступать в роли надежных исследовательских ассистентов, проверяющих доказательства и полноценных решателей задач для математиков.