Від тестів «кіт чи пес» до вирішення математичних задач. Як великі ШІ-компанії перевіряють власні моделі за допомогою математики?

Компанії OpenAI, Anthropic і DeepMind, які працюють над розробкою штучного інтелекту, дедалі частіше використовують складні математичні задачі як індикатор розвитку своїх моделей.

Про це пише Financial Times.

Замість тестів на розпізнавання зображень на кшталт «кіт чи собака» компанії переходять до задач дослідницького рівня.

Так модель від OpenAI розв’язала конкретний випадок із серії так званих «задач Ердеша».

«Задачі Ередша» — перелік невирішених або складнодоведених математичних задач, які сформулював угорський математик Пал Ередш. Вони охоплюють теорію чисел, комбінаторику та геометрію.
У січні 2026 року інженер-програміст Ніл Сомані, тестував математичні навички нової моделі OpenAI. Тоді він написав задачу в ChatGPT і, давши їй подумати 15 хвилин, він повернувся до повного рішення. Програміст оцінив доказ і формалізував його за допомогою інструменту під назвою Harmonic — але все правильно.
Таким чином, ChatGPT вирішив 11 «задач Ередша».

Це стало продовженням низки досягнень: системи від OpenAI та Google DeepMind продемонстрували результати рівня золотої медалі на Міжнародній математичній олімпіаді та Міжнародному студентському чемпіонаті з програмування минулого року.

Як зазначає FT, математика стала зручним способом вимірювання реального прогресу AI. У новому рейтингу Epoch AI, який відстежує результати на складних математичних тестах, лідирує GPT-5.2 від OpenAI, за ним — Gemini 3 Pro від Google.

Раніше вважалося, що великі мовні моделі не зможуть досягти значних успіхів у математиці, адже вони передбачають наступне слово в тексті, а це створює ризик галюцинацій. Натомість математика вимагає точності, абстрактного мислення, логіки та вміння розпізнавати закономірності.

Ситуація змінилася з появою нових моделей. Вони розв’язують задачі поетапно, можуть перевіряти власні помилки та коригувати відповіді.

Чому саме математика

Окрім OpenAI та Google DeepMind, у напрямі дослідницької математики активно працює Anthropic. Компанія просуває свої системи серед науковців і досягла комерційного успіху з інструментом для програмування Claude Code.

DeepMind, зі свого боку, створила інструменти AlphaProof і AlphaGeometry для розв’язання складних математичних задач.

Математика також важлива для розвитку інструментів програмування — ще однієї сфери, де потрібна висока точність. Саме тому AI-лабораторії зацікавлені у вдосконаленні моделей для роботи з формальними доказами та кодом.

Попри прогрес, AI поки що далекий від автономного розв’язання складних математичних проблем, які можуть вимагати місяців або років роботи. Для цього компаніям треба зробити прориви у безперервному навчанні — здатності моделей накопичувати досвід без втрати попередніх знань.

https://ain.ua/2026/02/17/si-kompaniyi-pereviriaiut-modeli-na-matematicnix-zadacax/

Від тестів «кіт чи пес» до вирішення математичних задач. Як великі ШІ-компанії перевіряють власні моделі за допомогою математики?

Відadmin

Чому саме математика

Від admin

Пов’язаний запис

Resist.UA запускає новий фонд на €50 млн для підтримки українських Defense Tech компаній

Resist.UA запускає новий фонд на €50 млн для підтримки українських Defense Tech компаній

У Британії зʼявиться міністр зі штучного інтелекту: чим він займатиметься?

Залишити відповідь Скасувати коментар

Ви могли пропустити

Ринок злиттів і поглинань в Україні зріс на 14%. Як змінилися угоди в першому півріччі 2026 року?

Resist.UA запускає новий фонд на €50 млн для підтримки українських Defense Tech компаній

Resist.UA запускає новий фонд на €50 млн для підтримки українських Defense Tech компаній

У Британії зʼявиться міністр зі штучного інтелекту: чим він займатиметься?