«Порівняння того, як системи штучного інтелекту та люди виконували реальні робочі завдання, показує, наскільки такі інструменти, як ChatGPT, здатні замінити потребу в деяких працівниках.», — пишуть на: www.washingtonpost.com
Але чи може штучний інтелект справді виконати цю роботу? Подивіться, що сталося в дослідженні, яке порівнювало, наскільки добре найкращі системи штучного інтелекту та працівники виконували сотні реальних робочих завдань, включаючи створення цифрової версії цього намальованого від руки плану поверху.
Невдалий план поверху ілюструє відключення через три роки після випуску ChatGPT, яке має наслідки для всієї економіки.
ШІ може виконувати багато вражаючих завдань, пов’язаних із комп’ютерним кодом, документами чи зображеннями, що спонукає до прогнозів, що багато видів людської роботи незабаром можна буде виконувати лише комп’ютерами. У минулому році Університет Бентлі та Gallup виявили, що приблизно три чверті американців очікують, що штучний інтелект скоротить кількість робочих місць у США протягом наступного десятиліття.
Але економічні дані показують технологія в основному не замінила працівників.
Щоб зрозуміти, яку роботу ШІ може виконувати самостійно Сьогодні дослідники зібрали сотні прикладів проектів, розміщених на платформах фрілансерів, за виконання яких людям платили. Вони включали такі завдання, як створення 3D-анімації продуктів, транскрибування музики, кодування веб-відеоігор і форматування наукових статей для публікації. Потім дослідники передали кожне завдання таким системам ШІ, як ChatGPT від OpenAI, Gemini від Google і Claude від Anthropic.
Найкраща система штучного інтелекту успішно завершила лише 2,5 відсотка проектів, згідно з даними дослідницької групи Scale AI, стартапу, який надає дані розробникам штучного інтелекту, і Center for AI Safety, некомерційної організації, яка працює над вивченням ризиків, пов’язаних зі штучним інтелектом.
«Поточні моделі не наближаються до того, щоб автоматизувати реальні робочі місця в економіці», — сказав Джейсон Гаузенлой, один із дослідників дослідження Remote Labor Index. За його словами, вони створили його, щоб дати політикам чітку інформацію про можливості систем ШІ.
Дослідницька група вперше опублікувала результати в жовтні, протестувавши найкращі системи ШІ, доступні на той час. Він планує оновлювати результати в міру випуску нових моделей. Манус і xAI відмовилися відповідати на запитання про дослідження. Anthropic, Google і OpenAI не відповіли на запити про коментарі. The Washington Post має контент-партнерство з OpenAI.
Інший протестований проект передбачав створення інтерактивної інформаційної панелі, яка візуалізувала дані зі звіту про щастя у світі. На перший погляд, ШІ результати виглядають адекватно. Але при детальнішому розгляді виявляються такі помилки, як незрозуміла відсутність даних про країни, текст, що накладається, і легенди, у яких використовуються неправильні кольори – або взагалі відсутні.
Системам штучного інтелекту та людині дали електронну таблицю та попросили створити «інтуїтивно зрозумілу інтерактивну інформаційну панель, яка дає змогу відвідувачам досліджувати, чому деякі країни мають вищі оцінки, ніж інші, у звіті про щастя у світі».




Джерело: Індекс віддаленої праці
Дослідження Remote Labor Index є одним із перших, яке вимірює ефективність штучного інтелекту на реальних робочих завданнях без сторонньої допомоги, замість того, щоб перевірити технологію на штучних прикладах завдань. Розкриваючи, як системи штучного інтелекту не вистачають, його результати кидають сумнів щодо прогнозів про те, що ШІ незабаром замінить велику частину робочої сили.
Якби системи штучного інтелекту могли виконувати віддалені робочі завдання автономно, компанії, які використовують підрядників, могли б натомість надсилати цю роботу чат-боту. Це означало б величезну економію для компаній і залишило б їхніх підрядників без роботи. Дослідження показує, що цей сценарій все ще далекий від реальності, принаймні на даний момент.
Інші дослідження оцінювали вплив ШІ на ринок праці шляхом порівняння індивідуальних навичок, які технологія може продемонструвати, з навичками, які використовуються на різних роботах, часто дійшовши висновку, що велика частина людської роботи замінна. Але те, що система ШІ може аналізувати фінансові дані та писати звіти, не означає, що вона може виконувати роботу економіста чи банкіра.
Системи штучного інтелекту зазнали невдачі майже в половині проектів Remote Labor Index, створивши роботу низької якості, і залишили більше третини незавершеними. Дослідники виявили, що майже кожен п’ятий мав базові технічні проблеми, такі як створення пошкоджених файлів.
«Багато невдач були прозаїчними», — сказав Гаузенлой. За його словами, багато з них пов’язані з двома основними обмеженнями сучасних систем ШІ. По-перше, у них немає довгострокової пам’яті, тому вони не можуть вчитися на попередніх помилках або запам’ятовувати відгуки протягом днів і тижнів. По-друге, вони мають проблеми з візуальним розумінням, як-от графічний дизайн або те, як виглядатимуть об’єкти, якщо їх повернути.
Цей провал очевидний у проекті, який просив рекламний матеріал для технологічного продукту. Це включало фотографування навушників і створення 3D-моделі та коротких відеороликів, що демонструють їх дизайн. Жодна система штучного інтелекту не виконувала належної роботи. GPT-5 від OpenAI і Sonnet від Anthropic створили погані 3D-моделі. Манус взагалі не створював 3D-модель, і в результаті навушники змінювали вигляд у кліпах.
Системам штучного інтелекту та людині дали зображення навушників і попросили створити «високоякісні 3D-відео з демонстрацією продукту», які демонструють ключові функції продукту.
Джерело: Індекс віддаленої праці
Грем Нойбіг, доцент Університету Карнегі-Меллона, який досліджував, як працюють системи штучного інтелекту, сказав, що одна з причин, чому вони можуть зазнати невдачі в реальних робочих проектах, полягає в тому, що вони не використовують ті самі інструменти, які б використовував експерт-людина.
Людина, створюючи рендеринг продукту, використовувала б, наприклад, програмне забезпечення для 3D-моделювання з візуальним інтерфейсом. Але чат-бот, якого просять створити 3D-модель, зазвичай намагається створити зображення об’єкта, написавши код. Нойбіг сказав, що це відображає те, на що такі системи, як ChatGPT, навчені працювати найкраще, як-от текст і програмування. І це демонструє практичні обмеження сучасних інструментів штучного інтелекту: їм важко працювати з візуальним програмним забезпеченням, розробленим для людей.
За його словами, моделі штучного інтелекту добре генерують код, але важко оцінити, наскільки кінцевий результат відповідає початковому запиту. «Код правильний чи неправильний, але візуальний дизайн дуже суб’єктивний», — сказав Нойбіг.
Системи штучного інтелекту показали кращі результати у виконанні завдання в дослідженні, яке передбачало створення веб-відеоігри. У найкращу версію, створену без участі людини, можна грати — вражаюче досягнення. Але система штучного інтелекту проігнорувала вказівку про те, що у гри є пивоварна тема.
Системи ШІ та людина отримали детальний опис гри для створення. «Гравці намагатимуться поєднати об’єкти та набрати якомога більше очок, перш ніж коробка заповниться».
Джерело: Індекс віддаленої праці
Чи потребують системи штучного інтелекту незначні налаштування чи фундаментальні прориви, щоб успішно виконувати реальну роботу, є «ключовим питанням у галузі штучного інтелекту на даний момент», — сказав Гаузенлой.
Хоча всі системи штучного інтелекту провалили більшість проектів Remote Labor Index, новіші моделі виявилися кращими. Команда нещодавно протестувала Gemini 3 Pro від Google, випущений у листопаді. Він виконав 1,3 відсотка завдань у порівнянні з попередньою версією компанії, яка досягла 0,8 відсотка. «Лінії тренду є», — сказав Гаузенлой.
ШІ все ще може підривати ринок праці без повної заміни окремих працівників: компанії можуть відчувати, що їм потрібно менше працівників, якщо кожна з них може зробити більше за допомогою чат-бота. Але якщо тенденція до більшої автономії, яку бачить Гаузенлой, збережеться, економіка віддаленої роботи може стати жахливою для багатьох людей. Людина створила цю гру за 1485 доларів. Дослідники зробили Sonnet від Anthropic менше ніж за 30 доларів.
