Founders fondos, Pantera y Franklin Templeton se unen a Sentient's "Arena" para hacer pruebas de estrés a agentes de IA de nivel empresarial
En los últimos dos años, las empresas han estado acelerando la integración de los agentes de IA en los flujos de trabajo reales: desde el servicio de atención al cliente y las operaciones de backend hasta los procesos de finanzas y cumplimiento que requieren la toma de decisiones de alto stake. A medida que estos sistemas están cada vez más integrados en las operaciones comerciales reales, está surgiendo un nuevo problema: si bien los agentes pueden recuperar información, a menudo luchan por proporcionar procesos de razonamiento estables, interpretables y reproducibles cuando el trabajo se vuelve “desordenado”, de varios pasos o de alto riesgo.
Hoy, el laboratorio de IA de código abierto Sentient lanzó oficialmente Arena, un entorno listo para la producción y en tiempo real para que miles de desarrolladores de IA de todo el mundo pongan a prueba el estrés y compitan de forma iterativa sobre los problemas de razonamiento más difíciles que enfrentan las empresas. La alineación inicial de participantes en la primera fase de Arena incluye Fondo Fundadores, Pantera y Franklin Templeton, que gestiona más de $15 billones en activos, lo que envía una señal de que las instituciones están mostrando un interés temprano y claro en "evaluaciones estructuradas de agentes de IA antes del despliegue".
"Cuando las empresas aplican agentes de IA a la investigación, las operaciones y los flujos de trabajo orientados al cliente, la pregunta en long no es si estos sistemas son lo suficientemente potentes... sino si son confiables en flujos de trabajo reales", dijo Julian Love, socio gerente de Franklin Templeton Digital Activos. Love agregó que entornos estructurados como Arena ayudarán al sector a distinguir entre "ideas prometedoras" y "capacidades que verdaderamente se pueden usar en la producción".
Himanshu Tyagi, cofundador de Sentient, declaró: "Los agentes de IA en long no son solo experimentos dentro de las empresas; están entrando en procesos críticos que afectan a clientes, fondos y resultados operativos. Este cambio cambio cambia los criterios de evaluación. No basta con que los sistemas se vean impresionantes en las demostraciones. Las empresas necesitan saber: en entornos de producción, donde el costo del fracaso es alto y la confianza es frágil, ¿los agentes aún pueden razonar de manera confiable? Las empresas necesitan comparabilidad, repetibilidad y un método para seguir las mejoras de confiabilidad en long plazo que no dependa del modelo o pila de herramientas subyacente".
Arena simula el verdadero caos de los flujos de trabajo empresariales: información incompleta, contexto largo, instrucciones vagas y fuentes contradictorias. Arena no solo evalúa si los agentes proporcionan "respuestas correctas", sino que registra rastros de razonamiento completos para que los equipos de ingeniería puedan identificar las causas de los fallos y validar las mejoras a lo largo del tiempo.
Esto proporciona un punto de referencia neutral y agnóstico para el proveedor para la evaluación del razonamiento en diferentes modelos y pilas de tecnología. Arena enfatiza el rendimiento a nivel de producción en lugar del rendimiento demo, formando así capacidades de agentes verificables aplicables a escenarios de alto riesgo, que las empresas también pueden transferencia a sus datos privados y herramientas internas.
En el primer desafío, los desarrolladores que se unan a Arena se centrarán en un problema fundacional a nivel empresarial: el razonamiento de documentos. Los agentes de IA necesitan razonar y calcular sobre datos complejos y no estructurados: este tipo de trabajo sustenta escenarios como el análisis financiero, la investigación de causas raíz, la redacción de memorandos de inversión y el servicio de atención al cliente.
Otros participantes en la fase inicial incluyen alphaXiv, Fireworks, OpenHands y OpenRouter; a medida que Arena se expanda en tareas, industrias e integraciones de modelos, se espera que se unan más participantes.
Investigaciones recientes también ponen de relieve el vacío que Arena tiene como objetivo de dirección: El 85% de las empresas expresa su deseo de convertirse en “empresas auténticas”, con casi tres cuartas partes planeando desplegar agentes autónomos, pero menos de una cuarta parte en realidad tiene sistemas de gobernanza maduros; muchas empresas luchan por escalar los proyectos piloto a implementaciones de producción a gran escala. En promedio, las empresas están ejecutando alrededor de una docena de agentes, a menudo dispersos en escenarios aislados. Muchos creen que sin mejores capacidades de orquestación y colaboración, agregar más agentes solo aumentará la complejidad y disminuirá valor.
"En OpenHands, siempre hemos estado ansiosos por ayudar a los desarrolladores a utilizar agentes para resolver problemas reales y prácticos", dijo Graham Neubig, Científico Jefe y Cofundador de OpenHands. "También nos complace apoyar a los participantes en el uso del SDK del agente de software OpenHands para abordar estos complejos desafíos".
Alex Atallah, cofundador y CEO de OpenRouter, declaró: "Arena es exactamente el tipo de iniciativa que puede impulsar la IA de código abierto: permite que los investigadores compitan, iteren e innoven en un entorno abierto. Esperamos profundizar nuestra colaboración con Sentient y proporcionar la infraestructura necesaria para que los experimentos sean más rápidos y fáciles de escalar".
Arena se lanzará globalmente, invitando a miles de desarrolladores de IA a postularse para la primera cohorte limitada, con eventos offline programados para tener lugar en San Francisco a partir marzo 2026.
Acerca de Sentient Labs
Sentient Labs es una organización líder en investigación tecnológica y productos dedicados a avanzar en la inteligencia artificial de código abierto. Como motor de innovación de la Sentient Foundation, Sentient Labs lleva a cabo una investigación de vanguardia en razonamiento de IA, alineación y colaboración de agentes. Sentient es el desarrollador principal de marcos de alto rendimiento como ROMA y modelos de código abierto como Dobby. La misión de Sentient es hacer la transición de la IA de código abierto de "experimento" a "necesidad". Al proporcionar la infraestructura para construir sistemas de agentes potentes y componibles, Sentient permite que los desarrolladores comercialicen herramientas de código abierto y alcancen la usabilidad a nivel empresarial. Sentient se asigna a hacer del código abierto el estándar predeterminado para las operaciones de IA de misión crítica a nivel mundial.
También te puede interesar

Hace un momento, Sam Altman fue atacado de nuevo, esta vez a balazos

Bloqueo de estrechos, resumen stablecoin | Rewire News Morning Edition

De las grandes expectativas al polémico cambio de tendencia, el airdrop Genius activa la reacción de la comunidad

La fábrica de vehículos eléctricos de Xiaomi en el distrito de Daxing en Beijing se ha convertido en la nueva Jerusalén para la élite americana

Arnés de adelgazamiento, habilidad para engordar: La verdadera fuente de la productividad de la IA 100x

Ultraman no tiene miedo de que su mansión sea atacada; tiene una fortaleza.

Las negociaciones entre EE. UU. e Irán colapsan, Bitcoin enfrenta una batalla para defender el nivel de $70,000

Reflexiones y confusiones de un inversor de capital riesgo en criptomonedas.

Noticias matutinas | Ether Machine a plazo acuerdo de SPAC por 1.600 millones de dólares; SpaceX holdea aproximadamente 603 millones en Bitcoin; Michael Saylor vuelve a publicar información de Bitcoin Tracker

ETF de criptomonedas semanal | La semana pasada, la entrada neta de ETF de Bitcoin al contado en EE. UU. fue de 816 millones de dólares; la entrada neta de ETF de Ethereum al contado en EE. UU. fue de 187 millones de dólares.

Avance de noticias de esta semana | Estados Unidos publicará los datos del IPP de marzo; el presidente francés Macron pronunciará un discurso en la Semana Blockchain de París.

¿Cómo se auto-custodian los activos digitales? Lista de verificación de 15 pasos del cofundador de OpenAI

Director de Gestión de Productos de Circle: El futuro de la tecnología Cross-Chain: Creación de una pila tecnológica de interoperabilidad para sistemas financieros en Internet.
Guía de fichas para aficionados de la UCL 2026: Cómo operar con criptomonedas de la UEFA Champions League sin comisiones en WEEX.
Descubre los cupones de aficionado de la UCL, como los del PSG, el Barcelona y el Man City. Aprende a operar con criptomonedas de la UEFA Champions League sin comisiones y a obtener recompensas en WEEX.
Temporada 2 de WEEX Poker Party: ¡Descubra cómo obtener recompensas en criptomonedas ahora!
Aprenda cómo funciona la Temporada 2 de WEEX Poker Party (Evento de la Tarjeta Joker). Descubra las reglas, la puntuación, las recompensas y las estrategias para obtener recompensas en criptomonedas a través del intercambio gamificado.

Yu Weiwen: Desarrollo constante del ecosistema de stablecoins conformes a la normativa de Hong Kong.

Tras el alto el fuego de TACO, la guerra con Irán solo está en pausa.

