«Сектор штучного інтелекту зараз має справу з серйозною проблемою з навчальними даними, особливо через те, що централізовані технологічні монополії блокують розробників ранніх стадій доступу до високоякісних інформаційних каналів. Платформа децентралізованої інфраструктури даних Perceptron намагається усунути це структурне вузьке місце, розгорнувши рівень децентралізованої інфраструктури, який передає веб-інформацію через звичайні пристрої користувачів. Резюме», — пишуть на: www.crypto.news
Сектор штучного інтелекту зараз має справу з серйозною проблемою з навчальними даними, особливо через те, що централізовані технологічні монополії блокують розробників ранніх стадій доступу до високоякісних інформаційних каналів. Платформа децентралізованої інфраструктури даних Perceptron намагається усунути це структурне вузьке місце, розгорнувши рівень децентралізованої інфраструктури, який передає веб-інформацію через звичайні пристрої користувачів.
Резюме
- Perceptron використовує пропускну здатність споживача для збору загальнодоступних веб-даних і надання дешевших наборів даних для навчання ШІ.
- Платформа стверджує, що її мережа охоплює понад 150 країн і винагороджує учасників, перевіряючи якість даних перед тим, як вони будуть надані корпоративним клієнтам.
- Perceptron запустив AI Data Fund на суму 10 мільйонів доларів, щоб допомогти розробникам отримати доступ до інфраструктури даних і прискорити розробку моделей AI.
Сучасні медіа повністю зосереджені на висвітленні того, як провідні імена у сфері штучного інтелекту постійно розгортають апаратні системи наступного покоління, щоб збільшити свою необроблену обчислювальну потужність. Але одним із операційних обмежень, про які найменше говорять, є якість навчальних даних, які є основою будь-якої функціональної моделі ШІ.
Проблема полягає в тому, що переважна більшість відкритого веб-контенту вже ретельно зібрана, а агресивний корпоративний контроль над загальнодоступними програмними інтерфейсами заблокував решту основ збору наборів даних за непомірними багатомільйонними платними стінами. По суті, це стало надзвичайно дорогим ексклюзивним привілеєм для жменьки величезних технологічних монополій.
Для технічних гігантів, які зараз лідирують у гонці ШІ, забезпечення цих дорогих інформаційних каналів не є особливою фінансовою проблемою, але як щодо недостатньо фінансованих інноваторів? Без необхідних бюджетів стартапи на ранніх стадіях намагаються створити конкурентоспроможні продукти.
«OpenAI платить приблизно від 60 до 100 мільйонів доларів на рік таким компаніям, як Reddit і Twitter, щоб отримати доступ до даних через API», — сказав співзасновник і генеральний директор Perceptron Пітер Ентоні під час нещодавнього інтерв’ю crypto.news.
“Багато нових проектів зі штучним інтелектом не мають бюджету, щоб витратити від 60 до 100 мільйонів доларів на доступ до даних. Якщо ви створюєте найкращу модель у світі, вона буде марною, якщо вона не матиме доступу до якісних даних. Ви можете бути найрозумнішою дитиною в школі, але якщо ви не можете отримати доступ до жодної книги, у вас насправді не буде багато інформації для представлення”.
Ентоні зрозумів, що асиметрія ринку залишає простір для альтернативної інфраструктури, яка обслуговуватиме незалежний сегмент ринку, що зрештою привело його до співзасновника Perceptron, платформи, яка планує використовувати незадіяну пропускну здатність споживача для вирішення «проблеми вузького місця даних», від якої зараз страждає ШІ.
«Більшість даних у світі вже отримали доступ і зібрали їх, але є багато даних, які приховані в різних місцях, до яких ще немає доступу, тому ми збираємо дані та позиціонуємося, щоб мати змогу надавати дані компаніям зі штучним інтелектом за зниженою ціною», — пояснив Ентоні.
Збирання неактивної смуги пропускання
Але що це за незадіяна пропускна здатність, яку Perceptron планує використовувати? Ентоні пояснив, що це невизнаний економічний актив, який звичайні користувачі постійно створюють за допомогою звичайного цифрового перегляду лише для того, щоб спостерігати, як великі корпорації витягують його та отримують від нього прибуток.
“Зараз щоразу, коли ми з вами використовуємо Інтернет на наших телефонах, наших комп’ютерах, ми генеруємо дані. Ці дані збираються, пакуються у великі набори даних такими компаніями, як Google, і продаються за мільйони, іноді мільярди доларів. Але ми з вами ніколи не бачимо жодного цента цієї вартості”.
Що Perceptron зробив, так це повністю перевернути цю екстрактивну модель з ніг на голову. Вони побудували мережу, що охоплює понад 150 країн і включає приблизно 800 000 вузлів, і ці вузли працюють від окремих користувачів, які просто запускають розширення браузера в Chrome або програму на своїх пристроях Android.
Хоча ці інсталяції кінцевих точок не збирають приватні цифрові файли та не надають фірмі конфіденційну особисту телеметрію, вони натомість захищають локалізовані географічні перспективи, які Ентоні описав як «різні точки огляду» у відкритій мережі, які потім можна витягти невеликими фрагментами та об’єднати в один значущий набір даних.
“Дуже важливо, щоб ми зосередилися на тому факті, що він не використовує персональні дані, він не підключається до ваших власних особистих даних та інформації, але, скажімо, прямо зараз ви перебуваєте в Малаві. Коли ви переглядаєте певний веб-сайт, я міг би піти й подивитися на той самий веб-сайт, але ймовірність того, що я в Дубаї, ми побачимо інший тип результатів. Усе, що ми отримуємо від цієї ситуації, — це можливість використовувати ваш комп’ютер, щоб переглянути щось як звичайна веб-сторінка чи що там інше».
Для ілюстрації Ентоні зазначив, що якщо корпоративному клієнту потрібен набір даних дописів у соціальних мережах, пов’язаних із охороною здоров’я, із США, Perceptron може координувати свою глобальну сітку вузлів, щоб отримувати окремі публічні дописи без взаємодії з обмежувальними корпоративними API.
Оскільки ці дані вже є у вільному доступі для громадськості через будь-який стандартний веб-браузер, маршрутизація збору через окремі термінальні вузли законно обходить комерційні системи оплати. Після отримання цих незначних пакетів даних мережа передає неочищені дані назад на централізований сервер, де спеціалізовані моделі штучного інтелекту очищують і перевіряють інформацію для контролю якості.
«Завдяки цьому ми можемо значно скоротити витрати, які зараз стягують багато великих централізованих компаній, таких як Google».
Працює на основі економічного циклу, який стимулює якісних учасників мережі
Наступне питання полягає в тому, навіщо комусь добровільно передавати своє обладнання в таку мережу, і відповідь проста: спільний цикл цінностей гарантує, що ці вузли зароблять бали за їх пасивне підключення, які планується перетворити на рідні криптотокени.
За словами Ентоні, ця розподілена модель «дозволить їм заробляти бали», які діють як пряма метрика їхнього внеску в мережу, і тому «щоразу, коли компанія отримує дохід, токени повертатимуться в екосистему» для підтримки циклічної економічної петлі.
«Також будуть відкладені токени, які використовуються для викупу токенів», — додав він.
Однак не кожен, хто керує вузлом, по суті має право на постійну винагороду, оскільки існує постійна проблема контролю якості, яка може поставити під загрозу цілісність набору даних, якщо її не перевірити.
Perceptron вирішує це, направляючи зібрані пакети назад на централізований сервер, де автоматизовані алгоритми систематично оцінюють вхідні дані щодо цільових тестів перед тим, як видавати будь-яку компенсацію.
Крім того, Ентоні сказав, що стартап нещодавно придбав компанію, що спеціалізується на програмному забезпеченні перевірки транзакцій і платежів, щоб структурно автоматизувати цей процес перевірки.
Для подальшого залучення учасників мережі, водночас створюючи набори даних, Perceptron також планує запустити структуровану платформу Data Questing, яка дозволить учасникам перетворити активні людські зусилля на унікальні навчальні дані.
«Ми прагнемо ефективно створювати набори даних і створювати набори даних, які зараз недоступні через централізовані процеси», — додав Ентоні.
Кінцева мета
У довгостроковій перспективі Ентоні сказав, що він хотів би побачити перехід мережі на модель, орієнтовану на бізнес-аналітику, яка здатна надавати глибоку аналітику для корпоративних клієнтів.
“Різниця полягає в тому, що традиційні набори даних є статичними, вони збираються один раз і швидко застарівають. Але існує величезна кількість даних, що генерується щоразу, коли ви взаємодієте з будь-чим в Інтернеті, і зараз більшість з них просто витрачається даремно”, – сказав Ентоні.
“Один єдиний сервер, який намагається стежити за всіма цими різними користувачами, не може зібрати значущу інформацію в такому масштабі. Нам потрібен перехід до розподіленої бізнес-аналітики, щоб ми могли фактично покращити такі послуги, як електронна комерція, торгівля та багато іншого”.
Perceptron також запустив 10-мільйонний фонд AI Data Fund, через який платформа планує фінансувати незалежних розробників і підтримувати розгортання «реальних проектів, які надають реальні послуги». Згідно з умовами програми, відібрані команди інженерів безкоштовно отримують п’ять тижнів допомоги в інфраструктурі даних і до 5 ТБ реальних даних для прискорення оптимізації ранніх моделей ШІ.
“Мета полягає в тому, щоб підтримувати проекти, коли вони ростуть і їхні вимоги до даних збільшуються. Ми можемо стати одним із їхніх постачальників, це одночасно і інвестиція в ширшу екосистему та спосіб для нас отримати постійний довгостроковий дохід”, – зазначив Ентоні.
На момент публікації Ентоні сказав, що Perceptron вже активно постачає різноманітні продукти для обробки даних різним комерційним підприємствам. Мережа надає широкі набори даних зображень платформам для створення тексту у відео, включаючи компанію під назвою Everlyn AI, для навчання моделей точному синтезу візуального вмісту.
Крім того, проект також відходить від стандартної компіляції зображень, оскільки платформа увійшла в сектор аналізу настроїв, відстежуючи публічний дискурс у Twitter, YouTube і на ринках цифрових активів. Аналіз цих суспільних настроїв допомагає криптокомпаніям і біржам створювати інструменти відстеження, які дають ранні сигнали для запобігання раптовим коливанням цін.
