Resumen
- Los servicios de IA necesitan cobro por uso porque cada llamada a un LLM tiene un costo real y variable. Con tarifa plana, los usuarios pesados destruyen tu margen.
- Elegí uno de tres modelos de consumo por plan: medido (cantidad incluida + excedente), créditos (bloques prepagos) o balance (billetera prepaga). Son mutuamente excluyentes.
- La implementación son tres pasos: definí un plan con features medidas, reportá eventos de uso desde tu código, y dejá que el sistema de billing agregue y facture automáticamente.
- Para medir tokens de varios proveedores de LLM, registrá cada llamada con su identificador de modelo y dejá que un catálogo de precios calcule el costo — todo termina en una sola factura.
¿Cómo implemento cobro por uso en servicios de IA?
Elegí un modelo de consumo (medido, créditos o balance), creá un plan con features medidas y un event code para cada una, y reportá un evento de uso desde tu código cada vez que un cliente consume la feature. Tu plataforma de billing agrega los eventos, aplica cantidades incluidas o deducciones, y genera las facturas automáticamente.
La razón por la que los servicios de IA necesitan esto: cada llamada a un LLM tiene un costo real y medible que escala con los tokens de entrada y salida. Un solo request puede costar desde $0.001 hasta $0.50. Un cliente que hace 100 requests por día cuesta 100x más de servir que uno que hace uno solo. Si cobrás $49/mes por acceso ilimitado, tus usuarios más pesados destruyen tu margen mientras los livianos los subsidian.
Los tres modelos de consumo cubren toda estrategia de pricing de IA:
Medido (cantidad incluida + excedente)
Los clientes se suscriben a un plan con una cantidad base incluida. El consumo que la supere se cobra como excedente al cierre del período. Un cliente Pro tiene 100,000 tokens incluidos, usa 250,000, y paga los 150,000 extra a tu tarifa de excedente.
Ideal para: plataformas de API, herramientas de analytics y asistentes de IA con uso estable donde los clientes quieren acceso ininterrumpido. Tradeoff: sorpresas de excedente, y cargás con el riesgo crediticio durante el período. Más detalle en el glosario de cobro medido.
Créditos (bloques prepagos)
Los clientes compran bloques de créditos que se consumen a medida que usan el producto. Una consulta simple cuesta 100 créditos, una generación compleja 1,000. A saldo cero, recargan.
Ideal para: generación de imágenes, generación de código y productos donde el costo por request varía mucho — la abstracción de créditos oculta esa varianza. Tradeoff: fricción cuando los créditos se agotan en medio de un flujo. Mirá cobro por créditos para entender el modelo.
Balance (billetera prepaga)
Los clientes depositan un monto en dólares en una billetera. Cada evento de uso deduce el costo real en tiempo real.
Ideal para: infraestructura para developers, APIs de IA y productos multi-modelo donde los clientes esperan visibilidad directa de costos. Tradeoff: ver el costo por request puede hacer que los clientes se vuelvan cautelosos con el uso.
Una regla que te ahorra dolores después: estos modelos son mutuamente excluyentes dentro de un mismo plan. Mezclarlos crea confusión. Elegí uno por plan y comprometete con él.
¿Cómo agrego cobro por uso a un SaaS existente que acaba de sumar features de IA?
Mantené tus tiers de suscripción actuales y agregá una feature de IA medida encima. Tu plan base sigue siendo predecible; la feature de IA recibe una cantidad incluida y una tarifa de excedente. Sin migración de pricing ni reescritura de planes — los clientes existentes siguen pagando lo mismo salvo que usen mucho las features nuevas.
Este es el camino más común para productos SaaS que lanzaron un asistente o una feature de generación después del lanzamiento. La suscripción fija ya cubre la parte predecible de tus costos. La feature de IA es la única parte con costo variable, así que es la única que necesita medición.
En concreto:
- Creá una feature medida con un event code como
ai_chatotokens_processed. - Agregala a tus planes existentes con una cantidad incluida acorde al uso típico — por ejemplo, $29/mes con 50,000 tokens incluidos y excedente a $0.03 por cada 1,000 tokens.
- Reportá el uso desde el código que llama al modelo.
- En la renovación, la factura muestra el precio base más el excedente como líneas separadas.
Una cantidad incluida generosa mantiene a la mayoría de los clientes dentro del precio base, así que el cambio se siente como un lanzamiento de feature y no como un aumento de precio. Los usuarios pesados — los que de verdad te cuestan plata — pagan proporcionalmente más.
¿Qué herramientas debería usar para cobro por uso en una API de IA?
Necesitás tres cosas: una API de eventos de uso idempotente (los reintentos nunca deben cobrar dos veces), un catálogo de precios de modelos de IA que se mantenga actualizado, y facturación automática que agregue eventos en líneas de factura. Una plataforma de billing pensada para uso de IA, como Commet, cubre las tres sin que construyas infraestructura de medición.
Qué evaluar en cualquier herramienta:
- Ingesta idempotente. Las redes fallan y las colas reentregan. Cada evento de uso necesita una clave de idempotencia para que los reintentos sean seguros.
- Pricing consciente del modelo. Los precios de tokens cambian y difieren por proveedor. Commet mantiene un catálogo de 180+ modelos de IA con precios actuales de tokens de entrada, salida y caché, sincronizado a diario — definís un margen en lugar de hardcodear tarifas.
- Los tres modelos de consumo. Tu primer modelo de pricing rara vez es el último. Pasar de medido a créditos no debería requerir cambiar de proveedor.
- Pagos, impuestos y compliance resueltos. Commet opera como Merchant of Record: procesa pagos con tarjeta, maneja el cálculo, cobro y remisión de impuestos, cobra en moneda local en más de 20 mercados, y hace payouts en moneda local en 112 países. Esa es la parte que la mayoría de los stacks de billing te dejan a vos — la comparación como alternativa a Stripe desglosa la diferencia.
El precio de la capa de billing también importa — mirá la página de precios para ver cuánto cuesta el stack de cobro por uso a medida que escalás.
¿Cómo mido el uso de IA (tokens, requests, cómputo)?
Reportá un evento de uso cada vez que un cliente consume la feature. Para requests, registrá value: 1 por llamada. Para tokens, pasá el modelo y los conteos de tokens y dejá que la plataforma los valorice. Para cómputo, definí un event code como compute_minutes y registrá la cantidad. Incluí siempre una clave de idempotencia.
Medir por request es una sola llamada:
import { Commet } from "@commet/node";
const commet = new Commet({ apiKey: process.env.COMMET_API_KEY! });
await commet.usage.track({
customerId: "user_123",
feature: "ai_chat",
value: 1,
idempotencyKey: "req_abc123",
});Para cobro por tokens, pasá el identificador del modelo y los conteos de tokens. Commet busca los precios actuales del modelo, aplica tu margen, y deduce el costo del balance del cliente:
await commet.usage.track({
customerId: "user_123",
feature: "ai_chat",
model: "gpt-4o",
inputTokens: 1500,
outputTokens: 300,
});Si usás el Vercel AI SDK, @commet/ai-sdk elimina el tracking manual por completo. Envolvé tu modelo con tracked() y cada llamada a generateText y streamText reporta tokens automáticamente:
import { tracked } from "@commet/ai-sdk";
import { Commet } from "@commet/node";
import { openai } from "@ai-sdk/openai";
import { generateText } from "ai";
const commet = new Commet({ apiKey: process.env.COMMET_API_KEY! });
const model = tracked(openai("gpt-4o"), {
commet,
feature: "ai_chat",
customerId: "user_123",
});
const result = await generateText({ model, prompt: "Hello!" });Para cargas en tiempo real (IA de voz, análisis de video, transcripción), medí tiempo de cómputo — los clientes entienden "minutos" mejor que "tokens". La misma llamada a track(), con un event code compute_minutes y el tiempo transcurrido como valor.
¿Cómo facturo uso de IA de varios proveedores de LLM en una sola factura?
Usá un plan de balance y registrá cada llamada con su identificador de modelo — gpt-4o, anthropic/claude-sonnet-4.6, el que haya usado el cliente. Los tokens de cada proveedor se valorizan desde el catálogo a las tarifas de ese modelo, se deducen de un mismo balance, y cualquier excedente termina como líneas en una sola factura al cierre del período.
Este es el setup estándar para productos de IA que rutean entre proveedores — un producto de chat que alterna entre OpenAI y Anthropic, o una plataforma de agentes sobre el Vercel AI Gateway. Al cliente no le importa qué proveedor sirvió el request; le importa recibir una factura que pueda leer.
Registrá cada llamada con el formato proveedor/modelo:
await commet.usage.track({
customerId: "user_123",
feature: "ai_chat",
model: "anthropic/claude-sonnet-4.6",
inputTokens: 10000,
outputTokens: 2000,
cacheReadTokens: 7000,
});Los tokens leídos de caché son bastante más baratos que los tokens de entrada normales, y Commet valoriza cada tipo de token por separado — los clientes pagan tarifas justas incluso con prompt caching intensivo.
Como el catálogo ya conoce los precios de cada modelo, definís un solo porcentaje de margen por feature en lugar de mantener una tabla de tarifas por proveedor. Cuando un proveedor cambia precios, el catálogo se actualiza y tu margen queda intacto. La vista AI Costs del dashboard muestra cada request con su modelo, desglose de tokens y el margen aplicado.
¿Cómo dejo que los clientes compren créditos prepagos y deduzcan de una billetera?
Son dos modelos de consumo distintos — elegí el que coincida con cómo piensan tus clientes. Créditos: los clientes compran packs y cada acción consume una cantidad fija de créditos. Balance: los clientes recargan una billetera en dólares y cada evento deduce el costo real. Ambos deducen en tiempo real y se venden desde el Customer Portal.
Elegí créditos cuando el costo por request varía y querés ocultar esa varianza detrás de una unidad estable: una generación de imagen cuesta 10 créditos, una de texto 2, una síntesis de voz 25. Los créditos de la suscripción se reinician cada período; los créditos comprados como packs nunca expiran, lo que los hace seguros para comprar en volumen. Cuando se agotan, el cliente compra otro pack desde el Customer Portal — sin ticket de soporte ni llamada de ventas.
Elegí balance cuando los clientes esperan transparencia de costos: el precio base del plan se convierte en un saldo para gastar, y cada evento deduce el costo real en dólares. El pricing por tokens de IA (los parámetros model + tokens de arriba) funciona sobre planes de balance, porque la deducción es el costo real del modelo más tu margen. Los clientes agregan fondos con recargas desde el portal, y el excedente más allá del balance se factura al cierre del período.
En ambos casos la deducción ocurre en tiempo real, así que los créditos o el saldo restante que el cliente ve en el portal siempre están al día — y eso es lo que mata los tickets de "¿por qué me cobraron esto?".
Lo esencial
El cobro por uso no es opcional para servicios de IA — la estructura de costos lo exige. Elegí un modelo de consumo por plan: medido para uso estable, créditos para costos variables por request, balance para transparencia de costos. Registrá cada evento con clave de idempotencia, usá pricing consciente del modelo para tokens, y dejá que la plataforma de billing maneje la agregación y la facturación. El objetivo es siempre el mismo: que los clientes paguen por lo que consumen, sin fricción en el producto.