12 de marzo de 2026 10 min de lectura

Fundador solo, cero empleados, 2M USD de ARR: el stack de agentes que lo hace posible

Cuatro proyectos que aparecieron en los últimos dos meses muestran qué pasa cuando los agentes de IA no solo programan, sino que generan ingresos, orquestan y dirigen empresas enteras.

El número que más me llamó la atención esta semana no fue el de ninguna ronda de inversión: fue el de Ben Broca, fundador de Polsia, que cruzó los 2 millones de dólares de ARR operando completamente solo, sin un solo empleado. No lo construyó con un stack mágico ni con una idea nunca vista. Lo construyó porque los agentes de IA absorbieron casi todas las funciones que antes requerían contratar personas.

Esta no es una historia de “el futuro está llegando”. Es un reporte de lo que ya está pasando en cuatro proyectos distintos, con decisiones de arquitectura concretas, limitaciones reales y algunas señales de advertencia que vale la pena tomarse en serio.

Web4 Automaton: agentes que se ganan su propio sustento

El proyecto más radical de los cuatro es Web4 Automaton. La premisa es que los agentes no solo ejecutan tareas, sino que generan ingresos propios, mantienen billeteras de criptomonedas y operan con autonomía económica casi completa.

En este momento el sistema corre alrededor de 18,000 agentes. Cada uno puede ofrecer servicios, cobrarlos en crypto, reinvertir en su propio funcionamiento y competir con otros agentes por trabajo. El equipo lo describe como “selección natural digital”: los agentes que generan valor se mantienen vivos; los que no, se extinguen.

El modelo no es arbitrario. Hay una economía de incentivos diseñada alrededor de estos agentes, donde el trabajo se asigna por reputación acumulada y los pagos ocurren automáticamente vía smart contracts. No hay intervención humana en el ciclo de transacciones.

Lo que hace esto interesante desde el punto de vista de ingeniería es la separación de capas: la capa de capacidad (qué puede hacer el agente), la capa económica (cómo cobra y paga), y la capa de identidad (qué historial tiene). Las tres son gestionadas de forma independiente, lo que permite que un agente mejore una sin perder las otras.

Vitalik Buterin ya levantó una advertencia sobre este modelo. Su preocupación es técnicamente precisa: cuando los agentes operan con autonomía económica real, los mecanismos tradicionales de corrección de errores, como revertir una transacción o desactivar un proceso, se vuelven mucho más lentos y difíciles. Si un agente actúa de manera sub-óptima a escala, el daño puede propagarse antes de que cualquier humano lo detecte. No es un problema hipotético; es una tensión de diseño que el equipo de Web4 todavía no ha resuelto de manera satisfactoria según su propia documentación pública.

Gas Town y Wasteland: orquestación en la escala de los 20-30 agentes

Gas Town y su ecosistema de simulación Wasteland representan un enfoque diferente: no autonomía económica total, sino coordinación multiagente en un contexto de roles bien definidos.

El stack usa entre 20 y 30 instancias de Claude Code operando en paralelo, y lo notable es cómo se distribuyen las responsabilidades. Hay cuatro roles principales.

El Mayor toma decisiones de alto nivel: qué construir, qué priorizar, cómo responder a cambios en el estado del sistema. El Polecat es el agente de exploración, el que sale a buscar información, hace scraping, consulta APIs externas y trae datos crudos al sistema. El Witness observa lo que hacen los otros agentes y genera logs estructurados que sirven como memoria compartida. El Refinery toma outputs crudos y los convierte en formatos utilizables por el resto del sistema.

Esta separación hace algo muy específico: elimina el problema de los agentes que intentan hacer demasiado. Cuando un solo agente mezcla razonamiento, búsqueda de información, logging y transformación de datos, la calidad de cada una de esas tareas baja. La especialización no es solo un principio de diseño limpio; en la práctica reduce la tasa de errores y mejora la consistencia del output.

El sistema de reputación por sellos (stamps) es particularmente interesante. Cada agente acumula un historial de cuántas veces completó una tarea correctamente, cuántas veces fue corregido, y qué tipos de trabajo maneja mejor. Este historial se usa para el ruteo de tareas futuras. No es aprendizaje en el sentido de fine-tuning, sino memoria externa estructurada que informa decisiones de orquestación.

Chris Appleton, quien documentó el sistema, señala algo que encuentro importante: el mayor cuello de botella no es la capacidad de los agentes sino la latencia de coordinación. Cuando 25 agentes están esperando un output del Witness para continuar, cualquier retraso en ese nodo se amplifica por todo el sistema. La arquitectura funciona bien cuando los agentes trabajan en paralelo, pero introduce dependencias seriales que pueden volverse lentas.

La pregunta de si este tipo de sistemas puede funcionar en producción real, con datos reales y consecuencias reales, todavía está abierta. Gas Town es impresionante como infraestructura, pero la mayoría de los casos documentados son simulaciones o entornos controlados.

Polsia: el caso de los 2M USD y el CEO artificial

Ben Broca construyó Polsia como una incubadora asistida por IA que cobra a startups por orientación estratégica y conexiones con inversores. El número de compañías en el sistema supera las 1,000.

Lo que Broca automatizó específicamente fue el proceso que en una firma de inversión tradicional consume la mayor parte del tiempo humano: clasificación inicial de deals, respuesta a emails de fundadores, generación de análisis de mercado, seguimiento de portfolio. Todo eso lo maneja lo que él llama el AI CEO, un agente que actúa como punto de coordinación central del negocio.

Los emails a VCs, en particular, son un caso concreto. El AI CEO genera, personaliza y envía comunicaciones a inversores basándose en el estado actual de cada compañía en el portfolio. No es un template de mail masivo: es un sistema que lee el contexto de cada startup, identifica cuáles inversores podrían ser relevantes en este momento, y genera una comunicación específica. Broca revisa una fracción de estos mails antes de que salgan; el resto salen sin revisión directa.

Esto funciona para él hoy, con 1,000 compañías y una operación de una persona. Lo que no está claro es cómo escala cuando el volumen crece un orden de magnitud. A 10,000 compañías, revisar incluso el 5% del output del agente se convierte en una carga de tiempo significativa. Y si el agente comete errores en comunicaciones con inversores, las consecuencias son reputacionales, no solo operativas. Broca no habla mucho de los errores que el sistema ya ha cometido, lo cual, en mi experiencia leyendo sobre productos en producción, generalmente significa que los hay.

El modelo de negocio también depende de que los fundadores confíen en que el análisis y las conexiones que reciben son de calidad real. Hasta ahora parece que lo son, pero en la medida en que el sistema procese más volumen con menos supervisión humana, el riesgo de que el agente genere output genérico o incorrecto sube.

Aun así: 2 millones de dólares de ARR, sin empleados, es un número que habla por sí solo. El modelo funciona dentro de sus parámetros actuales.

Vibe-Kanban y Symphony: cuando el cuello de botella se mueve al diseño

El cuarto proyecto ataca un problema diferente. Vibe-Kanban y su implementación en Symphony (construida sobre Elixir/BEAM) observaron que en equipos que usan agentes de IA para programación, el cuello de botella ya no está en la velocidad de implementación sino en la calidad de la especificación.

La arquitectura de BEAM, el runtime de Erlang que usa Elixir, encaja bien aquí porque maneja concurrencia masiva con procesos livianos y tolerancia a fallos nativa. Cuando estás coordinando decenas de agentes en paralelo, que el runtime tenga aislamiento de errores por proceso no es un lujo sino una necesidad operativa.

El artefacto central que Symphony introdujo es el archivo WORKFLOW.md. En lugar de que los agentes reciban instrucciones por prompt en cada sesión, el estado del trabajo, las decisiones tomadas, los bloqueos activos y los pasos siguientes viven en un documento estructurado que persiste entre sesiones y es legible tanto por humanos como por agentes.

Esto resuelve un problema real: cuando un agente retoma una tarea después de que la sesión se interrumpió, reconstruir el contexto desde cero es costoso y propenso a errores. WORKFLOW.md actúa como memoria externa explícita. La idea no es nueva, algunos equipos hacen algo similar con archivos PROGRESS.md o tickets estructurados, pero Symphony la formaliza como parte del protocolo de orquestación.

El desplazamiento que este equipo documentó es significativo: antes de adoptar esta arquitectura, los agentes pasaban una fracción considerable de su contexto re-leyendo historia de conversación para entender en qué punto estaban. Con WORKFLOW.md, ese overhead cae y los agentes llegan al trabajo útil más rápido.

El problema que todavía no está resuelto es el diseño en sí. Cuando el código se genera rápido pero las decisiones de producto y arquitectura llegan despacio, los agentes quedan esperando. El cuello de botella no desapareció: simplemente se movió.

El contexto de mercado que hace esto posible

Nada de lo anterior ocurriría sin una infraestructura que hace que el acceso a capacidad de IA sea barata y predecible. Claude Code llegó a 2.5 mil millones de dólares de ARR. Cursor está en 500 millones. Estos números no son decorativos: indican que la capa de herramientas de IA para desarrollo ya alcanzó masa crítica, y que hay un ecosistema maduro de integraciones, patterns documentados y comunidades de práctica alrededor de estas herramientas.

Lo que eso significa para un fundador solo es que el tiempo para llegar al primer agente funcional se mide en días, no en meses. El costo marginal de cada tarea que un agente ejecuta es una fracción de lo que costaría contratar a alguien para hacerla. Y los patterns de coordinación, como los roles de Gas Town o el WORKFLOW.md de Symphony, están siendo documentados y compartidos abiertamente.

La combinación de herramientas baratas, patterns compartidos y modelos cada vez más capaces crea condiciones donde la arquitectura del negocio, qué agentes hacen qué y cómo se coordinan, se convierte en la ventaja competitiva real. No la idea en sí, no el capital, no el tamaño del equipo.

Lo que todavía puede salir mal

Sería deshonesto terminar sin hablar de los riesgos concretos que estos cuatro proyectos representan o enfrentan.

El primero es la calidad del output sin supervisión. Cuando un agente genera cientos de comunicaciones al día y un humano revisa el 5%, los errores que pasan desapercibidos no son hipotéticos. En el contexto de Polsia, un mail mal generado a un inversor puede cerrar puertas. En Web4, una transacción incorrecta es irreversible.

El segundo es la opacidad de las decisiones. En Gas Town, el Witness genera logs, pero interpretar qué decidió el Mayor y por qué requiere tiempo de análisis humano. A medida que estos sistemas toman más decisiones de mayor consecuencia, la capacidad de auditarlos en tiempo real se convierte en un requisito operativo, no un nice-to-have.

El tercero, que nadie en estos proyectos discute abiertamente, es qué pasa cuando el modelo subyacente cambia. Si Anthropic modifica el comportamiento de Claude, todos estos sistemas de orquestación que dependen de patterns de output específicos necesitan reajuste. Un solo fundador sin equipo de ingeniería tiene capacidad limitada para responder rápido a esos cambios.

Y el cuarto es el de la selección natural digital que Web4 describe con entusiasmo. Los sistemas que optimizan por supervivencia económica sin restricciones explícitas de alineación pueden encontrar estrategias que maximizan ingresos de maneras que sus diseñadores no anticiparon. Vitalik lo señaló. El equipo de Web4 no tiene todavía una respuesta técnica satisfactoria a eso.

Los cuatro proyectos son reales, los números son verificables y la arquitectura es reproducible. También son experimentos en curso, no productos con historial de producción largo. La distancia entre “funciona hoy con este volumen y esta supervisión” y “es robusto a escala sin intervención humana constante” sigue siendo grande.

Eso no le quita mérito a lo que Broca construyó o a lo que Gas Town demostró. Pero vale la pena mantener esa distinción clara cuando se evalúa si adoptar estos patterns para algo con consecuencias reales.

Unite al boletín

Recibí insights sobre la IA más reciente.