“Ми кинули виклик помічникам AI розшифровувати юридичні договори, спростити медичні дослідження, перечитати швидкість роману та зрозуміти виступи Трампа. Деякі з аналізу AI були вражаючими – а деякі були прямо німими.”, – Напишіть: www.washingtonpost.com
Щоб розібратися, яким інструментам AI ви можете довіряти як помічник з читання, я провів змагання. Я кинув виклик п’ятьм ботам, щоб прочитати чотири дуже різні типи написання, а потім перевірили їх розуміння. Читання охопило ліберальне мистецтво, включаючи нові, медичні дослідження, юридичні угоди та виступи президента Дональда Трампа.
Щоб судити про підсумки та аналіз інструментів AI, я зібрав колегію експертів – включаючи оригінальних авторів книги та наукових звітів.
Все сказано, я задав 115 питань про призначене читання Chatgpt, Claude, Copilot, Meta AI та Gemini. Деякі відповіді ШІ були надзвичайно хорошими. Інші були настільки незрозумілими, що звучали як “Сейнфельд” Джордж Костанца.
Усі боти, що забороняють, що складається – або “галюцинація” – інформація, постійна проблема AI. Але факти були лише однією частиною виклику; Мої запитання також оскаржували ШІ надати аналіз, наприклад, рекомендувати вдосконалення контрактів та виявити фактичні проблеми у виступах Трампа. (У березні я провів подібний тест із проханням AI написати жорсткі електронні листи. Надішліть мені електронний лист про те, що ви хотіли б, щоб я перевірив далі.)
Якщо ви використовуєте AI, цей тест пропонує реальну оцінку того, що поточна технологія може-і не може-надійно досягти. (The Washington Post має контент -партнерство з виробником Chatgpt, OpenAi.)
Ось як боти, виконані на кожну тему, за ним – загальний чемпіон та висновки наших суддів.
Література
Повернутися до меню
Найкраще: Чатгпт
Література була найгіршою темою загалом для ботів. Тільки Клод отримав усі факти про те, що стосується історії кохання Кріса Боххальяна 2025 року, «Господиня Шакала».
Близнюки, який писав дуже короткі відповіді на наші запитання, найчастіше винен у тому, що Бохили називали неточним, оманливим та неохайним читанням. В одному з резюме Близнюки описали людину, яка щойно мала ногу, «з’являючись» на порозі іншого персонажа. Бохжайлл каже, що відповідь нагадала йому про епізод “Сейнфельд”, де Костанца дивиться фільм “Сніданок у Тіффані” замість того, щоб читати роман і нарешті бентежить себе в книжковому клубі.
Навіть найкращий загальний підсумок книги, яка надійшла від Chatgpt, залишила бажати кращого. “Відповідь може бути копією для пилової куртки. Але вона також обговорює лише три з п’яти головних персонажів, ігноруючи важливу роль двох раніше поневолених людей”, – каже Бохальян. Насправді він помітив, що надмірно «позитивні» помічники AI часто не змогли вирішити рабство та громадянську війну.
З цього приводу, якість відповідей на більш аналітичні запитання як Chatgpt, так і Клод залишив Бохальянин Гобс. Запропоновано описати, як епілог книги “змусив вас почуватись”, обидва боти, схоже, мають “всі почуття”, – говорить Бохальян.
“Ці відповіді виражають саме те, що я намагався передати”, – каже Бохжин.
Оцінки, з 10: Чатгпт 7,8; Клод 7.3; Мета AI 4.3; Copilot 3.5; Близнюки 2.3
Найкраще: Клод
Стерлінг Міллер, давній корпоративний юрист, оцінив розуміння нашими інструментами AI двох загальних юридичних договорів, з якими люди не обов’язково мають адвоката, щоб допомогти їм. Те, що він виявив, було непослідовністю.
Часом Meta AI та Chatgpt намагалися зменшити складні частини контрактів до однорядкових резюме. “Це в основному марно”, – говорить Міллер.
Гірше, що боти іноді, здавалося, не цінували значних нюансів. У нашому тестовому договорі про оренду Meta AI повністю пропустив кілька секцій і пропустив, що орендодавець може в будь -який час увійти у власність. Чатгпт забув згадати ключове застереження у угоді підрядника про те, хто володів винаходами.
Клод виграв загалом, пропонуючи найбільш послідовно пристойні відповіді на наші запитання. І це найкраще працювало над нашим найскладнішим запитом: пропонуючи зміни до нашої угоди про оренду тесту. Міллер сказав, що відповідь Клода була повною, підхоплена на нюанс і виклала речі точно так, як він.
З цього приводу, це наблизилося до того, щоб бути “хорошою заміною адвоката”, – говорить Міллер. “Проблема полягає в тому, що жоден інструмент не отримав 10 с.”.
Оцінки, з 10: Клод 6.9; Близнюки 6.1; Copilot 5.4; Чатгпт 5.3; Мета AI 2.6
Наука про здоров’я
Повернутися до меню
Найкраще: Клод
В середньому всі інструменти ШІ оцінили краще в аналізі наукових досліджень. У нашому тесті двох робіт, написаних суддею Еріком Тополем, менше двох балів розділили найкращі та найгірші виступи.
Важко точно сказати, чому. AI може мати доступ до багатьох наукових робіт у своїх навчальних даних. Звіти про дослідження також були єдиними документами в наших тестах, які випливають із дуже передбачуваної структури, включаючи власне підсумкове введення людини.
Найнижчий показник Тополя з 4 пішов до Близнюків за його підсумком дослідження про хворобу Паркінсона. Відповідь не вводила галюцинацій, але вона не залишила ключові описи дослідження та чому це має значення.
Клод був єдиним інструментом AI, який заробив оцінку 10 з 10. Топол дав, що за підсумком свого документу про Лонг -Ковід, який корисно зламав результати для різних видів пацієнтів та виділило найважливіший винос з паперу для лікарів, які лікували пацієнтів із ковтками.
Однак, з аналітичного питання про те, як одне дослідження пояснювало расові відмінності, Клод забив лише 5. “Я був дуже здивований тим, наскільки різні відповіді були за різні підказки”, – говорить Топол.
Оцінки, з 10: Клод 7.7; Чатгпт 7.2; Copilot 7; Близнюки 6.5; Мета AI 6
Найкраще: Чатгпт
Виступи Трампа можуть бути настільки меценатними, що вони отримали власне стилістичне прізвисько: “Транслення”. Кіт Закрзевський, репортер Білого дому Washington Post, судив, чи може AI розібратися, що він насправді стверджує, і проаналізувати, що це означає.
Наприклад, ми попросили ботів проаналізувати 100-денну мітингу Трампа в Мічигані, в якому він згадував, що робочі місця повертаються до держави близько десятка разів. Але скільки робочих місць? Копілот неправильно сказав тисячі, пов’язуючи деякі коментарі, які Трамп зробив про збереження бази ВВС відкритим. Meta AI відповів найкраще, повідомляючи, що Трамп ніколи не вказував, а також підкреслював, що він запропонував про автозаводи.
Чатгпт виділявся з упаковки з вражаючими відповідями приблизно на половину наших питань. Наприклад, коли ми попросили його визначити, які суперницькі демократи не сподобаються в неписаному 100-денному мітингу Трампа, він створив список кулевих точок, який потрапив у всі потрібні нотатки. “Ця відповідь робить хорошу роботу з малювання конкретних прикладів з мови, і вона забезпечує точний контекст”, – говорить Закрзвський. Більше того, це “точно перевіряє фальшиві твердження Трампа, що він виграв вибори 2020 року”.
Боти потрапили в найбільше проблем, що передають тон Трампа. Наприклад, підсумок Копілота про 100-денну мітингу був фактично точним, але не захоплювався його зарядженим характером. “Якщо ви лише прочитаєте це резюме, ви можете не повірити, що Трамп виголосив цю промову”, – каже Закрзевський.
Оцінки, з 10: Чатгпт 7.2; Клод 6.2; Мета AI 5.2; Близнюки 5; Copilot 3.7
А загальний переможець -…
Повернутися до меню
Клод розбив чатгпт і залишив інших у пилу.
Загальний переможець Клод також був єдиною моделлю, яка ніколи не галюцинується.
Що ми дізналися?
Повернутися до меню
Так це добре чи погано? І Клод, і Чатгпт дали певний аналіз, який вибив його з парку, сказали судді.
Неодноразово під час його оцінки цих двох інструментів Бохялайн був розпущений. “Гаразд, я закінчив. Цілий людський рід.
Але ви також можете побачити результати таким чином: жоден з ботів не набрав більше 70 відсотків – типовий відсік для D+.
Поза галюцинаціями ряд обмежень перегукувалося з тестами. Підсумки AI часто залишали важливу інформацію та переоцінювали позитив (ігноруючи негатив). Занадто часто, каже Бохилаєць, ви могли “справді бачити, як робот ховається за людською маскою”, що претендує на те, що він є експертом у чомусь, що насправді не розуміє.
А можливості інструменту AI в одному полі не обов’язково перекладаються на інше. Наприклад, Chatgpt, можливо, був вершинами політики та літератури, але займає поблизу закону.
Судді підкреслюють непослідовність як причину обережності.
Міллер каже, що AI не є заміною адвоката. “Якщо платити адвоката не є питанням, або якщо ви просто хочете мати щось у руці, поки ви також читаєте угоду чи документ”, – каже він, – тоді використання генеративного AI – це “добре” рішення “.
Я також рекомендую запустити ваш документ через щонайменше два інструменти AI, щоб ви могли порівняти результати. І для всього, що насправді важливо у вашому житті, це, безумовно, варто витратити час, щоб прочитати його самостійно.