Founders Fund, Pantera и Franklin Templeton присоединяются к «Арене» Sentient для проведения стресс-тестирования ИИ-агентов корпоративного уровня
В последние два года компании ускорили интеграцию ИИ-агентов в реальные рабочие процессы: от обслуживания клиентов и бэкэнд-операций до финансовых и комплаенс-процессов, требующих принятия решений с высокими ставками. Поскольку эти системы все чаще внедряются в реальные бизнес-процессы, возникает новая проблема: хотя агенты могут извлекать информацию, им часто сложно обеспечить стабильные, интерпретируемые и воспроизводимые процессы рассуждения, когда работа становится «беспорядочной», многоэтапной или сопряженной с высоким риском.
Сегодня лаборатория открытого исходного кода Sentient официально запустила Arena — готовую к производству среду реального времени, в которой тысячи разработчиков искусственного интеллекта по всему миру могут проводить стресс-тестирование и соревноваться в решении самых сложных задач, с которыми сталкиваются предприятия. В первоначальный состав участников первой фазы Arena входят Founders Fund, Pantera и Franklin Templeton, которая управляет активами на сумму более 15 триллионов долларов, что свидетельствует о том, что институты проявляют ранний и явный интерес к «структурированной оценке ИИ-агентов перед их внедрением».
«Когда компании применяют ИИ-агенты в исследованиях, операционной деятельности и рабочих процессах, связанных с обслуживанием клиентов, вопрос уже не в том, достаточно ли мощны эти системы... а в том, насколько они надежны в реальных рабочих процессах», — сказал Джулиан Лав, управляющий партнер Franklin Templeton Digital Assets. Лав добавил, что структурированные среды, такие как Arena, помогут отрасли отличать «многообещающие идеи» от «возможностей, которые действительно можно использовать в производстве».
Соучредитель Sentient Химаншу Тьяги заявил: «ИИ-агенты больше не являются просто экспериментами внутри компаний; они входят в критически важные процессы, которые затрагивают клиентов, финансирование и операционные результаты». Это изменение влияет на критерии оценки. Недостаточно, чтобы системы выглядели впечатляюще в демонстрационных версиях. Компаниям необходимо знать: в производственных средах, где стоимость сбоев высока, а доверие хрупко, могут ли агенты по-прежнему надежно рассуждать? Бизнесу нужна сопоставимость, повторяемость и метод отслеживания улучшений надежности в долгосрочной перспективе, который не зависит от базовой модели или набора инструментов».
Arena имитирует реальный хаос рабочих процессов в предприятии: неполная информация, длинный контекст, неясные инструкции и противоречивые источники. Arena не просто оценивает, дают ли агенты «правильные ответы», но и записывает полные следы рассуждений, чтобы инженерные команды могли точно определять причины сбоев и проверять улучшения с течением времени.
Это обеспечивает нейтральный, независимый от поставщиков эталон для оценки рассуждений по различным моделям и технологическим стекам. Arena делает акцент на производительности на уровне производства, а не на демонстрационной производительности, тем самым формируя проверяемые возможности агентов, применимые к сценариям с высоким уровнем риска, которые предприятия также могут переносить на свои частные данные и внутренние инструменты.
В первом испытании разработчики, присоединившиеся к Arena, сосредоточатся на фундаментальной проблеме корпоративного уровня: рассуждениях на основе документов. ИИ-агенты должны анализировать и обрабатывать сложные неструктурированные данные — этот тип работы лежит в основе таких сценариев, как финансовый анализ, исследование первопричин, написание инвестиционных меморандумов и обслуживание клиентов.
Другими участниками начальной фазы являются alphaXiv, Fireworks, OpenHands и OpenRouter; по мере расширения Arena в области задач, отраслей и интеграции моделей ожидается присоединение новых участников.
Недавние исследования также подчеркивают пробел, который Arena стремится устранить: 85% компаний выражают желание стать «агентными предприятиями», причем почти три четверти из них планируют внедрить автономных агентов, но менее четверти фактически имеют зрелые системы управления; многие компании испытывают трудности с масштабированием пилотных проектов до крупномасштабного внедрения в производство. В среднем компании используют около дюжины агентов, часто разбросанных по изолированным сценариям; многие считают, что без более эффективных возможностей координации и сотрудничества добавление дополнительных агентов только увеличит сложность и снизит ценность.
«В OpenHands мы всегда стремились поддерживать разработчиков в использовании агентов для решения реальных практических задач», — сказал Грэм Нойбиг, главный научный сотрудник и соучредитель OpenHands. «Мы также рады поддержать участников в использовании OpenHands Software Agent SDK для решения этих сложных задач».
Алекс Аталла, соучредитель и генеральный директор OpenRouter, заявил: «Arena — это именно та инициатива, которая может продвинуть открытый исходный код в области искусственного интеллекта — она позволяет исследователям соревноваться, повторять и внедрять инновации в открытой среде». Мы надеемся на углубление сотрудничества с Sentient и предоставление инфраструктуры, которая ускорит проведение экспериментов и упростит их масштабирование».
Arena будет запущена на глобальном уровне, приглашая тысячи разработчиков ИИ подать заявки на участие в первой ограниченной группе, а офлайн-мероприятия запланированы в Сан-Франциско с марта 2026 года.
О компании Sentient Labs
Sentient Labs — ведущая организация в области технологических исследований и разработки продуктов, занимающаяся продвижением искусственного интеллекта с открытым исходным кодом. Являясь двигателем инноваций Sentient Foundation, Sentient Labs проводит передовые исследования в области искусственного интеллекта, согласования и сотрудничества агентов. Sentient является основным разработчиком высокопроизводительных фреймворков, таких как ROMA, и моделей с открытым исходным кодом, таких как Dobby. Миссия Sentient заключается в том, чтобы превратить искусственный интеллект с открытым исходным кодом из «эксперимента» в «необходимость». Предоставляя инфраструктуру для создания мощных, компоновных агентских систем, Sentient позволяет разработчикам коммерциализировать инструменты с открытым исходным кодом и достигать уровня удобства использования, приемлемого для предприятий. Sentient стремится сделать открытый исходный код стандартом по умолчанию для глобальных критически важных операций искусственного интеллекта.
Вам также может понравиться

Соучредитель Polygon Сандип: Запись после взрыва цепного моста

Значительное обновление веб-версии: Более 10 расширенных стилей диаграмм для более глубокого анализа рынка.
Для предоставления более мощных и профессиональных инструментов анализа компания WEEX выпустила масштабное обновление своих веб-графиков для торговли — теперь они поддерживают до 14 расширенных стилей графиков.

Утренний отчет | Aethir заключает контракт с компанией Axe Compute на сумму 260 миллионов долларов; New Fire Technology приобретает торговую команду Avenir Group; торговый объем Polymarket превышен Kalshi

Прогноз Цены Биткойна: Крупная Ставка Blackrock на Рынок
BlackRock делает крупнейшую ставку на биткойн, размещая $871 миллионов в ETF за неделю. На фоне волатильности, BTC удерживает…

Токенизированное золото высаживается на Solana: Будет ли Bitcoin Layer 2 следующим для RWA-бома?
OCBC из Сингапура перевела институциональное золото в блокчейн через Solana и Ethereum, сохраняя $525 миллионов в активном управлении.…

Cardano Криптовалюта Удерживает $0.24, Объем ADA Вырос на 48%: Ожидается Восстановление?
Объем торгов Cardano достиг $600 млн, что является редким явлением и усиливает интерес к валюте. Несмотря на удержание…

Майкл Сейлор Намекает на Большие Закупки Биткойна и Паевые Выплаты
Стратегия компании под руководством Майкла Сейлора готовится к значительной закупке биткойна, что может оказаться крупным событием на рынке.…

Прогноз цены Ethereum: мемкойны ETH набирают обороты, Wojak подскочил на 300% после 100,000% роста ASTEROID
Мемкойны на базе Ethereum доказывают, что на рынке могут возникать значительные заработки на спекуляциях. Недавняя волатильность ETH сигнализирует…

Прогноз цены Ethereum: запуск GOLDX от крупнейшего банка Сингапура
OCBC запускает первый токенизированный фонд золота GOLDX на Ethereum и Solana, обеспечивая доступ к золоту на сумму $525…

Приток в Bitcoin ETF достиг почти $1 миллиарда за неделю
Приток в Bitcoin ETF за неделю составил почти $1 миллиард, что является рекордом с середины января. Основная доля…

$293 млн хакерская атака уничтожила $8 млрд TVL Aave: Дефи-протокол в кризисе?
Хакеры украли 116,500 rsETH токенов, что стоит $293 млн, через мост LayerZero Kelp DAO. Этот инцидент привел к…

Прогноз цены XRP: Запуск Wrapped XRP на Solana — ключ к DeFi для держателей XRP?
Wrapped XRP (wXRP) теперь активен на Solana благодаря Hex Trust и LayerZero, предлагая держателям XRP новые возможности в…

Прогноз Цен на Биткоин: Продолжающаяся Война с Ираном и Проблемы Криптовалют
Закрытие Ормузского пролива привело к повышению цен на нефть и падению мировых фондовых рынков, однако биткоин остался относительно…

Цена Bitcoin остается ниже $79K — может ли квантовый безопасный кошелек BMIC привлечь держателей BTC?
Диапазон $76K–$79K определяет следующий шаг Bitcoin: анализ графика от Crypto Patel. Квантовые компьютеры угрожают безопасности стандартных кошельков; BMIC…

Группа из 39 фирм призывает ЕС ускорить правила DLT, предупреждая о возможном отставании от США
39 европейских финансовых компаний и отраслевых организаций просят ЕС ускорить изменения в правилах блокчейнов, чтобы избежать отставания от…

Цикл BTC 2024 ‘драматически’ уступает предыдущим халвингам: Аналитик
Аналитик Алекс Торн утверждает, что текущий цикл Bitcoin значительно слабее трех предыдущих циклов халвинга. Волатильность и рост цены…

Сейлор намекает на более крупную покупку BTC через несколько дней после идеи полумесячных дивидендов
Майкл Сейлор предложил увеличить частоту выплат дивидендов для стабилизации цен на акции. Планируется выплачивать дивиденды дважды в месяц,…

Европейские инвесторы могут сменить банк ради крипто-доступа
35% европейских инвесторов готовы сменить банк при более выгодных крипто-условиях. Регулирование крипто в ЕС укрепляет доверие: MiCA вступает…
Соучредитель Polygon Сандип: Запись после взрыва цепного моста
Значительное обновление веб-версии: Более 10 расширенных стилей диаграмм для более глубокого анализа рынка.
Для предоставления более мощных и профессиональных инструментов анализа компания WEEX выпустила масштабное обновление своих веб-графиков для торговли — теперь они поддерживают до 14 расширенных стилей графиков.
Утренний отчет | Aethir заключает контракт с компанией Axe Compute на сумму 260 миллионов долларов; New Fire Technology приобретает торговую команду Avenir Group; торговый объем Polymarket превышен Kalshi
Прогноз Цены Биткойна: Крупная Ставка Blackrock на Рынок
BlackRock делает крупнейшую ставку на биткойн, размещая $871 миллионов в ETF за неделю. На фоне волатильности, BTC удерживает…
Токенизированное золото высаживается на Solana: Будет ли Bitcoin Layer 2 следующим для RWA-бома?
OCBC из Сингапура перевела институциональное золото в блокчейн через Solana и Ethereum, сохраняя $525 миллионов в активном управлении.…
Cardano Криптовалюта Удерживает $0.24, Объем ADA Вырос на 48%: Ожидается Восстановление?
Объем торгов Cardano достиг $600 млн, что является редким явлением и усиливает интерес к валюте. Несмотря на удержание…




