«Творці нового тесту під назвою «Останній іспит людства» стверджують, що незабаром ми можемо втратити можливість створювати достатньо складні тести для моделей ШІ.», — пишуть на: www.nytimes.com
Кредит…Рун Фіскер
Коли штучний інтелект пройде цей тест, будьте уважніТворці нового тесту під назвою «Останній іспит людства» стверджують, що незабаром ми можемо втратити можливість створювати достатньо складні тести для моделей ШІ.
Кредит…Рун Фіскер
Протягом багатьох років системи штучного інтелекту вимірювалися, надаючи новим моделям різноманітні стандартизовані порівняльні тести. Багато з цих тестів складалися зі складних завдань рівня SAT у таких сферах, як математика, природничі науки та логіка. Порівняння балів моделей за час служило приблизним показником прогресу ШІ.
Але згодом системи штучного інтелекту виявилися надто хорошими в цих тестах, тому було створено нові, складніші тести — часто з типами запитань, з якими аспіранти можуть зіткнутися на іспитах.
Ці тести також не в хорошому стані. Нові моделі таких компаній, як OpenAI, Google і Anthropic, отримують високі бали в багатьох завданнях на рівні доктора філософії, що обмежує корисність цих тестів і викликає жахливе запитання: чи системи штучного інтелекту стають занадто розумними, щоб ми могли їх вимірювати?
Humanity’s Last Exam – це дітище Дена Хендрікса, відомого дослідника безпеки ШІ та директора Центру безпеки ШІ. (Оригінальна назва тесту «Останній бій людства» була відхилена через надмірну драматичність.)