El balance billing es un modelo de pricing donde el precio base del plan del cliente se convierte en un saldo gastable en dólares. Cada acción deduce un monto monetario real. Si el balance se agota antes de que termine el período, el excedente se acumula y se cobra al final del ciclo, similar al metered billing. La diferencia clave: el cliente piensa en dólares, no en unidades abstractas ni en conteos de créditos.
Cómo funciona el balance billing
Un plan de balance tiene un precio base que funciona como el presupuesto de gasto del cliente. Al inicio de cada período de facturación, el cliente paga el precio base y recibe ese monto como su balance.
Tomá un plan de $100/mes para un producto de infraestructura de IA. El cliente arranca cada mes con un balance de $100.00. Cada llamada a API de un modelo de lenguaje deduce un costo calculado de ese balance. Una llamada que procesa 2,000 tokens de entrada y genera 500 tokens de salida a las tarifas configuradas podría costar $0.0043. Después de 15,000 llamadas así, el cliente gastó aproximadamente $64.50 y tiene $35.50 restantes.
Si el cliente gasta más de $100.00 en un mes dado, el exceso se cobra como overage en la factura de cierre. Este es el mismo mecanismo de true-up usado en metered billing: el uso nunca se bloquea, y el overage se liquida al final del período.
Dos modos de pricing
El balance billing soporta dos formas de determinar cuanto cuesta cada unidad de uso.
Precio fijo por unidad
El modo más simple. Definís un precio por unidad de consumo, y cada evento de uso deduce ese monto. Un servicio de procesamiento de imágenes podría cobrar $0.02 por imagen procesada. Una API de traducción podría cobrar $0.005 por cada 1,000 caracteres. El cliente ve un costo claro y predecible por acción.
Pricing de modelos de IA
Para productos de IA, el balance billing se integra con el catálogo de modelos de IA. En lugar de configurar precios por unidad manualmente, el sistema usa los costos de tokens del proveedor del modelo de IA (tokens de entrada, tokens de salida, tokens de cache) y aplica un margen configurable encima.
Por ejemplo, si el costo upstream es $3.00 por millón de tokens de entrada y $15.00 por millón de tokens de salida, y configurás un margen de 40%, el cliente paga $4.20 y $21.00 respectivamente. El margen se define en puntos básicos por feature por plan.
Esto hace que el balance billing sea la opción natural para productos de IA. El pricing se mantiene alineado con tus costos reales, y controlás tu margen sin actualizar precios manualmente cuando el proveedor upstream cambia sus tarifas. Consultá la documentación de AI token billing para la configuración.
Cómo se diferencia el balance de créditos y metered
Balance, créditos, y metered son los tres modelos de consumo, y cada plan usa exactamente uno.
Con credits-based billing, el cliente piensa en unidades abstractas. Un crédito puede costar $0.10, pero el cliente no ve eso. Ve "50 créditos restantes." Los créditos también bloquean al cliente cuando se agotan, forzando la compra de un credit pack para continuar.
Con metered billing, el cliente tiene una cuota de uso incluida (10,000 llamadas a API) y paga overage por unidad. El cliente piensa en unidades de consumo, no en dólares.
El balance billing se comporta como metered billing (overage al final del período, sin bloqueo), pero el modelo mental es diferente. El cliente ve "$37.20 restantes" en lugar de "6,200 llamadas restantes." Para productos de infraestructura y de IA donde el costo por acción varía según el tamaño del modelo, la longitud de la entrada, o la complejidad del procesamiento, un único saldo en dólares es más informativo que un conteo de unidades heterogéneas.
Cuándo usar balance billing
El balance billing es el modelo correcto cuando tu producto tiene costos variables por acción y querés que el cliente tenga visibilidad en tiempo real de su gasto en dólares.
Los productos de IA son el caso de uso principal. Un cliente usando múltiples modelos con distintos precios de tokens necesita una vista unificada de gasto. Los créditos requerirían tipos de cambio entre modelos, lo cual se complica. El balance billing maneja esto naturalmente porque todo se resuelve en dólares.
Los productos de infraestructura cloud que combinan múltiples tipos de recursos también se benefician. Un cliente corriendo cómputo, almacenamiento, y transferencia de red ve un único balance reflejando el costo agregado, en lugar de trackear tres metros separados.
El balance billing es menos adecuado cuando querés un límite duro de gasto. Como el overage se cobra al final del período en lugar de bloquear el uso, un cliente puede excederse durante un pico. Si necesitás un corte duro, los créditos son mejor opción.
Ejemplos del mundo real
Los créditos de AWS funcionan con un modelo de balance: tenés un saldo en dólares, y cada servicio deduce de él. Proveedores de APIs de IA como OpenAI y Anthropic cobran basado en consumo de tokens con costos denominados en dólares, lo cual se mapea directamente al balance billing cuando se revende a través de un producto SaaS.
Consideraciones de implementación
El balance billing requiere precisión sub-centavo. Una sola llamada a API puede costar $0.000043. Redondear eso al centavo más cercano en cada transacción perdería o ganaría montos significativos a lo largo de millones de eventos. Commet usa una escala de tarifa donde 10,000 equivale a $1.00, habilitando precios tan granulares como $0.0001 por unidad.
Para productos de IA, un único evento de uso puede incluir tokens de entrada, tokens de salida, y tokens de cache, cada uno con precio diferente. El sistema debe calcular el costo total, aplicar el margen, y deducir del balance de forma atómica.
Relacionados
- Metered Billing: cuota de uso incluida con overage por unidad al final del período
- Credits-Based Billing: unidades abstractas de créditos que bloquean cuando se agotan
- Usage-Based Billing: resumen de los tres modelos de consumo
- AI Token Billing: configuración de pricing de modelos de IA con márgenes
- Modelos de consumo: elegir entre metered, créditos, y balance