// Pilar 03 · Inteligencia Artificial & Automatización

IA aplicada a problemas reales.
No experimentos.

Si no ahorra horas, reduce errores o abre un ingreso nuevo, no vale la pena construirlo. Trabajamos con Claude (Anthropic), GPT (OpenAI), Gemini, Kimi (Moonshot), Mistral, DeepSeek, Llama y Qwen — el modelo correcto para cada caso, no el que esté de moda.

8+
modelos LLM
en producción
60-85%
cobertura típica
en chatbots
5-10×
reducción
en costo de tokens
24/7
agentes activos
en LATAM
// 01 · A quién atendemos

Cuatro tipos de problema donde la IA sí rinde.

La IA no resuelve todo — pero estos cuatro escenarios son donde casi siempre libera valor real. Si te identificas con alguno, hay caso de negocio.

Operación con tareas repetitivas

"Quiero automatizar lo que cuesta horas al día"

Tu equipo gasta horas copiando datos, contestando preguntas iguales, llenando formularios o moviendo info entre sistemas. La IA libera ese tiempo para lo que sí importa.

Te encajan: Agentes · Automatización n8n · OCR · Workflows
Equipo con muchos documentos

"Procesamos cientos de facturas, contratos, IDs"

Despachos legales, contables, financieras, importadoras. Recibes documentos en PDF/imagen, los lees a mano y cargas a un sistema. Lo automatizamos con OCR + IA + validación.

Te encajan: CFDI 4.0 · Contratos · INE · Actas · Facturación
Negocio con muchos clientes

"Necesito atender 24/7 sin contratar más gente"

E-commerce, clínicas, restaurantes, servicios. Las mismas 20 preguntas se repiten cada día. Bot con IA + handoff humano cuando se complica.

Te encajan: WhatsApp · Web chat · Voz · CRM integrado
Empresa con datos

"Quiero predecir y decidir mejor"

Tienes histórico de ventas, clientes, operaciones. Usar IA para anticipar churn, demanda, fraude o segmentos abre decisiones que antes eran intuición.

Te encajan: Análisis predictivo · Forecasting · Scoring · BI
// 02 · Tres caminos

Asistente, automatización end-to-end o modelo propio.

La IA tiene tres formas básicas de aterrizar en un negocio. Cada una resuelve un problema distinto y tiene su propia economía. Te ayudamos a elegir la que conviene a tu caso.

01 // camino 01

Asistente conversacional con RAG

Chatbot que sí sabe de tu negocio

No el chatbot genérico que confunde. Un asistente que lee tu documentación, productos, políticas y procesos para responder con precisión y citar la fuente. WhatsApp, web, app o voz.

  • RAG sobre tu base de conocimiento (Pinecone, Qdrant, pgvector)
  • Multi-canal: WhatsApp, web, voz, Slack, Telegram
  • Handoff a humano con contexto y memoria
  • Modelos: Claude, GPT-4o, Gemini, Kimi o Llama privado
02 // camino 02

Automatización end-to-end

IA + n8n + sistemas que ya tienes

No solo IA — workflows que conectan IA con SAP, HubSpot, Shopify, WhatsApp, correos y bases de datos. La IA es un eslabón, el flujo completo es lo que ahorra horas reales.

  • n8n autohospedado o Make + funciones IA
  • Triggers desde correos, webhooks, formularios, queues
  • OCR + extracción + validación + alta en CRM/ERP
  • Reintentos, dead letter queues y observabilidad
03 // camino 03

Modelo propio / Fine-tuning

Cuando tus datos no salen de tu infraestructura

Para datos sensibles (banca, salud, gobierno) corremos modelos open-source en GPUs propias o cloud privada. Llama, Qwen, Mistral o DeepSeek con fine-tuning sobre tu corpus.

  • Llama, Qwen, Mistral, DeepSeek sobre vLLM o TGI
  • Fine-tuning con LoRA/QLoRA en H100 o A100
  • Endpoint privado en AWS/GCP o servidores propios
  • Zero Data Retention · sin envío a terceros
// 03 · Soluciones que construimos

12 tipos de IA en producción.

Esto es lo que ya entregamos a clientes en LATAM. Cada categoría tiene su stack, su economía y su patrón de implementación. Casi siempre un caso real combina 2 o 3.

4 a 8 semanas

Agente Conversacional Multi-canal

WhatsApp, web, voz, Slack, Telegram

Bot que entiende contexto, mantiene memoria, escala de WhatsApp a llamada y deriva a humano cuando se complica. RAG sobre tu doc para respuestas precisas con cita de fuente.

Qué incluye
  • WhatsApp Business Cloud + Web chat + Slack
  • RAG con Pinecone, Qdrant o pgvector
  • Handoff a humano con transcripción completa
  • Cumplimiento LFPDPPP + transparencia "te atiende un agente IA"
  • Métricas: cobertura, escalado a humano, satisfacción
Ideal para: E-commerce, clínicas, servicios, B2B
5 a 10 semanas

Procesamiento Documental Automatizado

Facturas, contratos, INEs, actas, recibos

Recibes documentos por correo o portal, OCR + LLM extraen los campos, validan contra reglas (SAT, formato, totales) y los cargan a tu sistema. Revisión humana solo cuando la confianza es baja.

Qué incluye
  • CFDI 4.0 con validación SAT
  • Contratos con extracción de cláusulas y vigencias
  • INE/IFE/comprobantes con anti-fraude
  • AWS Textract, Document AI o Azure Form Recognizer + LLM
  • Confidence scoring + revisión humana selectiva
Ideal para: Despachos, contables, financieras, importadoras
4 a 8 semanas

Voz e IA Telefónica

Llamadas inbound y outbound automatizadas

Agentes de voz que reciben llamadas, agendan citas, califican leads, hacen recordatorios o cobranza preventiva. Suenan natural con ElevenLabs y resuelven con Claude o GPT en tiempo real.

Qué incluye
  • Vapi o Retell AI como orquestador
  • Voces ElevenLabs con clonación opcional
  • Whisper para transcripción + Claude/GPT para reasoning
  • Integración con CRM y agendas (Google, Outlook, Calendly)
  • Grabación, transcripción y resumen automático
Ideal para: Clínicas, inmobiliarias, cobranza, ventas
6 a 12 semanas

Análisis Predictivo

Anticipar churn, demanda, fraude, conversión

Modelos clásicos de ML (XGBoost, LightGBM, Prophet) entrenados sobre tu data histórica. Predicen qué cliente se va a ir, qué producto se va a vender más y qué transacción es sospechosa.

Qué incluye
  • Forecasting de demanda con Prophet o LightGBM
  • Scoring de churn y propensión a comprar
  • Detección de fraude (banca, e-commerce)
  • MLflow o DVC para versionar modelos y datasets
  • Monitoreo de drift + reentrenamiento automático
Ideal para: Empresas con histórico de datos limpio
3 a 6 semanas

Generación de Contenido con IA

Texto, imágenes, video, voz a escala

Pipelines que generan descripciones de producto, copy para ads, imágenes de marketing, videos cortos y voiceovers. Con guardrails de marca y revisión humana donde importa.

Qué incluye
  • Descripciones SEO masivas (Claude, GPT)
  • Imágenes con DALL·E 3, Stable Diffusion, Flux
  • Video corto con Runway, Pika, Luma
  • Voiceovers con ElevenLabs (clonación opcional)
  • Brand voice locked + tone validator
Ideal para: E-commerce con catálogo grande, agencias
4 a 8 semanas

Asistente Interno · RAG corporativo

Tu equipo pregunta, la IA responde con tus docs

Búsqueda semántica sobre tus políticas, manuales, contratos, base de conocimiento. Responde en lenguaje natural citando la fuente exacta. Ahorra horas de "¿quién sabe esto?".

Qué incluye
  • Indexación de Notion, Confluence, Drive, SharePoint
  • Pinecone, Qdrant, Weaviate o pgvector
  • Reranking con Cohere Rerank o Voyage
  • Permisos por rol (no todos ven todo)
  • Auditoría de queries y respuestas
Ideal para: Empresas con mucha documentación interna
4 a 8 semanas

Computer Use · Browser Automation

IA que opera tu navegador o sistemas

Anthropic Computer Use o Browserbase para que un agente IA abra apps, llene formularios, descargue reportes o haga procesos en sistemas que NO tienen API. La última frontera de automatización.

Qué incluye
  • Anthropic Computer Use (Claude 3.5 Sonnet+)
  • Browserbase, Stagehand o Playwright
  • Sistemas legacy sin API que sí se pueden automatizar
  • Captura de pantalla + razonamiento visual
  • Logs, replay y guardrails de acciones
Ideal para: Procesos en sistemas legacy o portales gubernamentales
5 a 10 semanas

Personalización con IA

Recomendaciones, contenido y precios dinámicos

Recomendadores que aumentan AOV, contenido que se adapta al usuario en tiempo real, pricing dinámico según demanda y stock. Más venta sin más tráfico.

Qué incluye
  • Recomendadores collaborative + content-based
  • Embeddings con OpenAI, Voyage o BGE
  • Reranking en tiempo real
  • Personalización de email y landing por segmento
  • A/B testing con significancia estadística
Ideal para: E-commerce, SaaS, media, marketplaces
3 a 6 semanas

Automatización entre Sistemas

IA + n8n + Make + tus sistemas

Workflows que conectan correos, formularios, CRM, ERP, WhatsApp y bases de datos con IA en el medio para clasificar, extraer, decidir o redactar.

Qué incluye
  • n8n autohospedado en VPS o Kubernetes
  • Make o Zapier según volumen y precio
  • Triggers: webhook, email, queue, schedule
  • IA como nodo: clasificación, extracción, decisión
  • Reintentos + dead letter + observabilidad
Ideal para: Cualquier negocio con sistemas múltiples
2 a 4 semanas

Speech-to-Text y Traducción

Llamadas, reuniones, audios transcritos y traducidos

Transcripción automática de llamadas de venta, reuniones, podcasts. Resumen ejecutivo, action items extraídos y traducción a 50+ idiomas.

Qué incluye
  • Whisper de OpenAI (o local con whisper.cpp)
  • Deepgram, AssemblyAI o Speechmatics
  • Diarización de hablantes (quién dijo qué)
  • Resumen + action items con Claude o GPT
  • Traducción a 50+ idiomas con DeepL + LLM
Ideal para: Sales teams, podcasters, médicos, abogados
8 a 14 semanas

Visión por Computadora

Inspección visual, conteo, clasificación

Modelos de visión que identifican defectos, cuentan inventario, clasifican productos o detectan anomalías en cámaras de seguridad o líneas de producción.

Qué incluye
  • Modelos custom con YOLOv8 o Grounding DINO
  • GPT-4 Vision o Claude 3.5 con visión para casos generales
  • Pipelines edge (Jetson Nano) o cloud según latencia
  • Anotación con Roboflow + entrenamiento iterativo
  • Métricas: precision, recall, false positive rate
Ideal para: Manufactura, retail, agro, seguridad
6 a 12 semanas

Agentes Multi-step (CrewAI · LangGraph)

IA que descompone tareas y se coordina sola

Para tareas que requieren varios pasos, herramientas y decisiones intermedias. Un agente investiga, otro analiza, otro escribe — coordinados con LangGraph o CrewAI.

Qué incluye
  • LangGraph para flujos con estado y ramas
  • CrewAI para multi-agentes con roles
  • AutoGen de Microsoft para casos avanzados
  • Tool calling con APIs reales (no solo conversación)
  • Tracing con Langfuse o LangSmith
Ideal para: Investigación, due diligence, reportería compleja
// 04 · Casos de uso reales

Combos que sí funcionan, por industria.

Cada industria tiene su mix óptimo. Aquí están seis combinaciones reales con resultado típico medido — para que ubiques cuál se parece a tu caso y qué esperar.

Ahorro: 5-8 horas por semana por abogado

Despacho Legal

"Reviso 200 contratos al mes y se me pasan cláusulas"

Pipeline que ingiere PDFs de contratos, extrae partes, vigencias, cláusulas críticas y banderas de riesgo. Resume ejecutivo de 1 página y revisión humana solo donde la IA dudó.

Combo de stack
  • OCR Document AI + Claude 3.5 Sonnet
  • Extracción estructurada (Pydantic)
  • Banderas de riesgo configurables por tipo
  • Almacén búsqueda semántica con Qdrant
  • Integración con DocuSign + CRM
40-60% de consultas resueltas sin humano

Centro Médico

"Mis recepcionistas no dan abasto con WhatsApp"

Agente IA en WhatsApp que pre-agenda citas, contesta dudas frecuentes (horarios, costos, ubicación), envía recordatorios y deriva a humano cuando es delicado o urgente.

Combo de stack
  • WhatsApp Business Cloud API
  • Claude o GPT-4o con RAG sobre catálogo de servicios
  • Integración con Calendly o agenda propia
  • Escalado a humano por keywords sensibles
  • Cumplimiento NOM-024 + LFPDPPP
Reducción 50% tickets a soporte humano

E-commerce

"Mi atención post-compra es un cuello de botella"

Bot que resuelve "¿dónde está mi pedido?", "¿puedo cambiar mi talla?", "¿cómo devuelvo?" — con acceso a Shopify y la paquetería en tiempo real. Liberación masiva al equipo de soporte.

Combo de stack
  • WhatsApp + web chat con Claude
  • Integración Shopify + 99minutos/DHL/Estafeta
  • Recomendador de productos integrado al chat
  • Recuperación de carritos abandonados
  • Métricas: CSAT, FCR, deflection rate
Costo por cita real cae 60-80%

Inmobiliaria

"Recibo 1,000 leads/mes y solo 5% son reales"

Agente que califica leads en WhatsApp con preguntas inteligentes, agenda visita virtual o presencial, manda info por correo y solo pasa al asesor humano los leads pre-calificados.

Combo de stack
  • WhatsApp + Lead Gen Forms
  • Calificación con Claude + scoring custom
  • Agenda automática (Calendly) según asesor disponible
  • CRM (HubSpot, Salesforce o GoHighLevel) sync
  • Voz con Vapi para llamadas de seguimiento
Tiempo de cotización: de 90min a 10min

Empresa de Servicios

"Cada cotización me toma 1-2 horas"

Pipeline donde el cliente describe su necesidad por correo o web, la IA extrae requisitos, calcula con tu lógica de negocio y genera una cotización draft que solo necesita revisión.

Combo de stack
  • Email parser + extracción Claude
  • Reglas de negocio en YAML o DB
  • Cálculo determinístico (no IA en pricing)
  • PDF generado + envío automático
  • Aprobación humana antes de envío final
95% de incidencias clasificadas automáticamente

Logística

"Mis incidencias entran por mil canales y se pierden"

Agente que recibe incidencias por correo, WhatsApp y portal, las clasifica (daño, retraso, faltante, error), las prioriza y crea ticket en el sistema con toda la info ya estructurada.

Combo de stack
  • Multi-canal ingest (correo, WhatsApp, web)
  • Clasificación con Claude + reglas custom
  • Extracción de evidencia (fotos, guías)
  • Sync con sistema interno o ServiceNow
  • Dashboard de SLA y tendencias
// 05 · Modelos y plataformas

Claude, GPT, Gemini, Kimi, Mistral, DeepSeek, Llama y más.

Trabajamos con los modelos frontier (cloud) y los mejores open-source para deploy privado. Elegimos según tarea, costo, latencia y sensibilidad de datos — no por afinidad ni comisión.

LLM frontier · El más razonador

Claude (Anthropic)

Claude Opus, Sonnet y Haiku. Excelente para tareas complejas, análisis de documentos largos, código y razonamiento. Es el favorito para tareas que requieren precisión y matiz.

Ideal para: Análisis, código, agentes complejos
LLM frontier · El más versátil

GPT (OpenAI)

GPT-4o, o1, o3 y modelos de razonamiento. Multimodal (texto + imagen + voz) con la API más madura del mercado. Por algo es la referencia.

Ideal para: Casos generales, multimodal, voice
LLM frontier · Contexto gigante

Gemini (Google)

Gemini 2.0 Pro y Flash. Fortaleza: contexto de 1-2 millones de tokens (puede leer libros enteros) y excelente integración con Google Cloud y Workspace.

Ideal para: Documentos masivos, video, integración GCP
LLM · Fuerte en chino + razonamiento

Kimi (Moonshot AI)

Modelo de Moonshot AI con contexto de 200k tokens, fuerte en razonamiento, matemáticas y tareas complejas. Alternativa potente y económica al frontier de USA.

Ideal para: Mercados asiáticos, razonamiento, costo
LLM · Europeo con buena licencia

Mistral AI

Mistral Large, Medium y Codestral. Modelos con licencia comercial flexible, buen balance precio/calidad y opciones open-weight para deploy privado.

Ideal para: EU compliance, deploy privado, código
LLM · Open + razonamiento

DeepSeek

DeepSeek V3 y R1 — modelos open-source con razonamiento al nivel de o1 de OpenAI a una fracción del costo. Pesos disponibles para deploy en GPUs propias.

Ideal para: Costo bajo, razonamiento, self-hosted
LLM · Open-source de referencia

Llama (Meta)

Llama 3.x y 4 — el estándar de open-weight. Comunidad gigante, fine-tuning amplio, deploy en cualquier GPU. Para datos que no salen de tu infraestructura.

Ideal para: Datos sensibles, deploy on-premise
LLM open-source · Multilingüe

Qwen (Alibaba)

Qwen 2.5 y QwQ. Excelente en múltiples idiomas, fuerte en código y matemáticas. Contexto largo y opción de razonamiento como QwQ-32B.

Ideal para: Multilingüe, code, multi-región
Hub de modelos open-source

Hugging Face

El "GitHub de la IA". 500k+ modelos disponibles, datasets, papers y herramientas. Inferencia con Inference Endpoints o despliegue propio con TGI.

Ideal para: Open-source, fine-tuning, datasets
Frameworks de orquestación

LangChain · LlamaIndex

Frameworks para construir aplicaciones con LLMs: cadenas, agentes, RAG, herramientas. LangGraph para flujos con estado complejo. LlamaIndex enfocado en data.

Ideal para: Construir apps complejas con LLMs
Vector databases

Pinecone · Qdrant · Weaviate

Bases de datos vectoriales para RAG. Pinecone (managed cloud), Qdrant (open-source self-hosted), Weaviate (con módulos de generación), pgvector (sobre PostgreSQL).

Ideal para: RAG, búsqueda semántica
Automatización + IA

n8n · Make · Zapier

Plataformas de workflow que conectan 1,000+ apps con nodos de IA integrados. n8n autohospedable con 400+ integraciones, Make visual y Zapier con la mayor red.

Ideal para: Workflows multi-sistema con IA
// 06 · Métricas que sí medimos

IA que rinde se mide. Si no, es solo demo.

No reportamos benchmarks sintéticos ni métricas que solo se ven bonitas. Estas son las que vas a ver mes a mes — las que dicen si está aportando valor real.

Cobertura
Resolution rate

% de consultas resueltas por la IA sin necesidad de escalado a humano. Métrica más directa de impacto en costo de operación.

Bot maduro: 60-85%
Hallucination
Tasa de alucinación

% de respuestas factualmente incorrectas. Se mide con evaluación humana sobre muestra. Por debajo de 2% es aceptable, por debajo de 0.5% es excelente.

Producción: < 2%
Latencia
p50 / p95 / p99

Tiempo de respuesta. p95 < 3 segundos para chatbots, < 800ms para autocomplete. La latencia mata el UX más rápido que la calidad.

Chat: p95 < 3s
Costo / consulta
Cost per request

Cuánto cuesta cada respuesta en tokens. Caching, RAG correcto y model routing pueden reducir 5-10× sin perder calidad.

Optimizado: < $0.01 USD
Precision · Recall
Métricas clásicas ML

Para clasificación y extracción. Precision: de los que dijo que sí, cuántos eran sí. Recall: de los que eran sí, cuántos detectó. F1 balancea.

Documentos: F1 > 0.9
ROI
Horas ahorradas

Métrica final de negocio: ¿cuántas horas-persona libera al mes? Se mide con baseline pre-IA vs operación con IA. Si no ahorra, no debería existir.

PoC útil: 20+ hrs/mes
Drift
Performance degradation

En modelos predictivos clásicos: qué tanto cambian los datos de entrada vs el dataset de entrenamiento. Drift alto → reentrenamiento.

Monitoreo continuo + alertas
CSAT IA
Satisfacción de usuario

Encuesta corta tras conversación: "¿la respuesta resolvió tu problema?". Mejor proxy de calidad que cualquier benchmark sintético.

CSAT > 80% en producción
// 07 · Stack tecnológico

El stack es consecuencia del problema, no la pregunta inicial.

Primero entendemos el caso, los datos disponibles, la latencia tolerable y el presupuesto. Después elegimos el modelo y herramientas. Estas son las que dominamos.

Modelos Frontier · Cloud

  • Claude (Anthropic)
  • OpenAI
  • Gemini
  • Kimi (Moonshot AI)
  • Mistral AI

Modelos Open-source

  • Llama (Meta)
  • Qwen (Alibaba)
  • Mistral AI
  • DeepSeek
  • Hugging Face

Frameworks de Orquestación

  • LangChain
  • Pinecone

Automatización

  • n8n
  • Zapier

Voz · Speech

  • ElevenLabs
  • Vapi (voice agents)
  • OpenAI

Inferencia Rápida

  • Groq
  • Hugging Face

Cloud para IA

  • Amazon Web Services
  • Google Cloud
  • Cloudflare
// 08 · Modelos de contratación

Tres formas de trabajar con nosotros.

Desde un PoC corto para validar antes de invertir en escala, hasta un modelo propio fine-tuned con ownership total. Elegimos el modelo de contratación según el riesgo y madurez del caso.

PoC + Handoff
Validamos un caso · 4-8 semanas
Para validar antes de invertir en escala
  • Discovery del caso de mayor ROI
  • PoC funcional con datos reales
  • Métricas de impacto medidas
  • Handoff documentado a tu equipo
Hablar de este modelo →
Más solicitado
Mensualidad de operación
Modelo más solicitado
Para operar la IA día a día
  • Operación + monitoreo + tuning
  • Mejora continua basada en métricas
  • Tokens y compute incluidos hasta cierto umbral
  • SLA de respuesta + soporte WhatsApp
Hablar de este modelo →
Modelo propio · Enterprise
Fine-tuning + ownership
Para datos sensibles y compliance
  • Modelo open-source fine-tuned con tus datos
  • Deploy en tu infra (cloud privado u on-premise)
  • Ownership del modelo y los pesos
  • Zero Data Retention · sin envío a terceros
Hablar de este modelo →
// 09 · Preguntas frecuentes

Las dudas que nos hacen casi todos.

Separadas por nivel. Si tu pregunta no está aquí, escríbenos y la contestamos por correo o en una llamada de 30 min sin compromiso.

// Preguntas básicas

Qué hace la IA, cuánto cuesta, qué cuida

Las dudas más comunes cuando alguien evalúa por primera vez si la IA tiene sentido en su negocio.

  • 01 ¿En qué me puede ayudar la IA en mi negocio?
    Tres familias de tareas: (1) Repetitivas que cuestan horas (clasificar correos, llenar formularios, copiar datos entre sistemas), (2) Atención a clientes que se preguntan lo mismo todo el día (WhatsApp, web, voz) y (3) Decisiones con datos (predecir churn, demanda, fraude). Si tu trabajo entra en alguna, hay caso real.
  • 02 ¿Es caro implementar IA?
    Depende del caso. Un chatbot WhatsApp con RAG arranca en $40,000-80,000 MXN setup + $3,000-15,000 MXN/mes de tokens y operación. Procesamiento documental: $80,000-150,000 setup + $5,000-25,000/mes. Lo que NO recomendamos es invertir $20k MXN en una app genérica que no resuelve nada — sale más caro al final.
  • 03 ¿Necesito cambiar mi sistema actual?
    En la mayoría de casos no. La IA se integra encima de lo que ya tienes — vía API, webhook, RPA o Computer Use cuando no hay API. Lo que sí evaluamos: si tu sistema actual es un Excel sin estructura, primero ordenamos los datos. La IA no arregla data caótica.
  • 04 ¿Mis datos se quedan seguros si uso Claude o GPT?
    Con planes empresariales sí. Anthropic Enterprise y OpenAI Enterprise tienen Zero Data Retention: tus prompts no se almacenan ni se usan para entrenar. Para datos extra sensibles (banca, salud), corremos modelos open-source (Llama, Qwen, Mistral) en tu infra — los datos nunca salen.
  • 05 ¿Cuánto tarda implementar un chatbot con IA?
    Bot básico (FAQ + pre-agendamiento): 2-4 semanas. Bot con RAG sobre tu documentación: 4-8 semanas. Bot con integraciones complejas (CRM, ERP, pagos): 8-12 semanas. La fase más larga suele ser la curaduría de tu base de conocimiento — tener la doc ordenada acelera todo.
  • 06 ¿Funciona en español mexicano y entiende coloquialismos?
    Sí. Claude, GPT-4o y Gemini hablan español mexicano natural — incluyendo "neta", "chido", "ahorita", regionalismos. Para chatbots WhatsApp en México son la mejor opción. Si necesitas vocabulario muy específico (legal, médico, contable mexicano), los entrenamos con tu corpus.
  • 07 ¿Puede atender en WhatsApp 24/7 sin que se note que es bot?
    Sí, técnicamente. Pero recomendamos siempre transparentar que es un agente IA — es ético, cumple LFPDPPP y los usuarios responden mejor cuando saben. El truco no es esconder la IA, es hacer que resuelva mejor que el promedio humano (y sí, suele lograrlo con preguntas frecuentes).
  • 08 ¿Va a reemplazar a mis empleados?
    No reemplaza, libera. La IA absorbe lo repetitivo (50-70% del volumen) y deja a tu equipo con lo que sí requiere criterio: casos complejos, ventas relacionales, decisiones difíciles. En la mayoría de clientes la planta no se recorta — la IA permite escalar atención sin contratar más.
  • 09 ¿Cuánto cuesta correr esto al mes?
    Tres componentes: (1) tokens de los modelos (depende del volumen — un chatbot que atiende 1,000 conversaciones/mes cuesta $400-1,500 MXN solo en tokens), (2) infra (vector DB, servidores, queues — $1,500-8,000 MXN/mes), (3) operación nuestra (monitoreo, tuning — varía según plan). Te damos proyección antes de construir.
  • 10 ¿Puedo entrenar la IA con mis propios documentos?
    Sí, y casi siempre lo hacemos vía RAG (no fine-tuning). Tus documentos se indexan en una base vectorial; la IA los consulta cuando le preguntas y responde con tu información, citando la fuente. Es más barato, más actualizable y igual de efectivo que un fine-tuning para 90% de casos.
  • 11 ¿Y si la IA da una respuesta mala?
    Tres capas de protección: (1) guardrails que bloquean respuestas fuera de scope o ofensivas, (2) confidence scoring que escala a humano cuando la IA "duda", (3) logging de cada respuesta para auditar después. Y siempre puedes desactivar el bot por una palabra clave si algo se complica en producción.
  • 12 ¿Cumple con la LFPDPPP y leyes de privacidad?
    Sí. Aviso de privacidad explícito al empezar conversación, consentimiento expreso para tratamiento, transparencia sobre uso de IA, listas de supresión y derecho ARCO. Para datos sensibles (salud, financieros) usamos modelos privados en tu infra — la conversación nunca sale de tus servidores.
  • 13 ¿Qué pasa si OpenAI o Claude se cae?
    Diseñamos con fallback. Si Anthropic no responde, automáticamente cambiamos a OpenAI o Gemini sin que el usuario lo note. Para casos críticos también cacheamos respuestas frecuentes y tenemos un modelo open-source local como respaldo final. Multi-provider es estándar en producción seria.
  • 14 ¿Puedo cancelar si no me funciona?
    Sí. PoC es alcance fijo y entregables claros. Mensualidad de operación es cancelable con 30 días de aviso. Si después de 90 días los KPIs pactados no se cumplen, replanteamos o terminamos sin penalización. La IA tiene que dar resultado medible — si no, no tiene sentido.
  • 15 ¿Cómo mido si vale la pena la inversión?
    KPIs antes y después: horas ahorradas/mes, % de consultas resueltas sin humano, error rate vs proceso anterior, tiempo de respuesta a cliente. ROI honesto se mide en 3-6 meses — si no estás recuperando 2-3× la inversión en ese tiempo, replanteamos.
// Preguntas técnicas

Para CTOs, ML engineers y AI leads

Si tu equipo evalúa RAG, fine-tuning, multi-agent, evaluación, guardrails o voice agents — estas son las preguntas que nos hacen.

  • 01 ¿Qué arquitectura RAG usan en producción?
    Pipeline estándar: ingest (parsers para PDF/DOCX/HTML) → chunking semántico (no fixed-size, con respeto de párrafos y headers) → embeddings (OpenAI text-embedding-3-large, Voyage o BGE-large open) → indexación en Pinecone/Qdrant/pgvector → retrieval híbrido (vector + BM25) → reranking (Cohere Rerank o Voyage rerank) → context window armado con citas → generación con guardrails. Evaluación con Ragas o LangSmith Eval.
  • 02 ¿Cómo manejan latencia con modelos grandes?
    Stack típico: streaming desde el primer token (UX mejora 3×), Groq o Cerebras para inferencia ultra-rápida (Llama 70B en <1s), caching agresivo (semantic cache con vector DB para preguntas frecuentes), routing entre modelos (Claude Haiku para simple, Sonnet para medio, Opus solo para complejo) y prompt compression cuando el contexto explota. p95 objetivo: <2s para chat.
  • 03 ¿Pueden hacer fine-tuning de modelos open-source?
    Sí. LoRA o QLoRA sobre Llama 3.x, Qwen 2.5 o Mistral en GPUs A100/H100 (cloud privado o servidores propios). Dataset prep con axolotl o LLaMA-Factory, evaluación con lm-evaluation-harness y benchmarks custom. Para casos específicos: full fine-tuning si justifica el costo y tienes >50k ejemplos de calidad.
  • 04 ¿Cómo abordan evaluación y guardrails?
    Evaluación: golden dataset por caso de uso (mín. 100-500 ejemplos), métricas automáticas (Ragas para RAG, custom para clasificación), human-in-the-loop con muestreo aleatorio + anotadores. Guardrails: NeMo Guardrails o Guardrails AI, LLM-as-judge para output validation, regex + classifiers para PII, jailbreak detection con Llama Guard.
  • 05 ¿Pueden integrar Anthropic Computer Use?
    Sí, en producción. Claude 3.5 Sonnet con Computer Use API para automatizar interacciones en sistemas sin API. Stack: Docker container con browser, screenshots cada acción, validación humana opcional para acciones destructivas, replay debugging y audit log completo. Casos típicos: portales SAT/IMSS, ERPs legacy, sistemas internos sin documentación.
  • 06 ¿Trabajan con multi-agent (CrewAI, AutoGen, LangGraph)?
    Sí. LangGraph para flujos con estado complejo y ramas condicionales (preferido para producción). CrewAI para multi-rol con personas distintas (researcher → analyst → writer). AutoGen de Microsoft para casos avanzados con bucles de auto-corrección. Anti-pattern frecuente: usar multi-agent para problemas que un agente con herramientas resuelve mejor — empezamos simple.
  • 07 ¿Qué hacen con PII en prompts y respuestas?
    Capa pre-prompt: redacción de PII con Microsoft Presidio o regex custom (CURP, RFC, INE, tarjetas), tokenización (reemplazar con [PERSON_1], [RFC_1] y mapear de vuelta en post-procesamiento). Capa post-respuesta: validación de que el modelo no haya inferido o filtrado PII. Logs sin PII desde el inicio. Para datos médicos/financieros: deploy on-premise sin que la conversación llegue a APIs externas.
  • 08 ¿Cómo manejan caching y reducción de tokens?
    Tres capas: (1) Prompt caching de Anthropic/OpenAI para system prompts largos (descuento 90% sobre tokens repetidos), (2) semantic cache con vector DB para preguntas frecuentes (10-30% hit rate típico), (3) response cache con TTL para queries determinísticas. Resultado: 40-70% de reducción de costo en producción madura.
  • 09 ¿Trabajan con voice agents (Vapi, Retell, Bland)?
    Sí. Stack típico: Vapi o Retell como orquestador (handle telephony, ASR, TTS), Whisper o Deepgram para transcripción, Claude o GPT-4o para reasoning, ElevenLabs o Cartesia para TTS de calidad, función calling para integraciones (CRM, agenda). Latencia objetivo: <500ms para que la conversación se sienta natural. Twilio para PSTN cuando se necesita número mexicano.
  • 10 ¿Cómo es su pipeline de evaluación continua?
    Eval offline: golden dataset versionado en Git, run en cada cambio de prompt o modelo, A/B contra baseline. Eval online: muestreo aleatorio del tráfico real → anotadores humanos → cálculo de hallucination, accuracy, satisfaction. Dashboards en Langfuse o LangSmith con alertas si la calidad baja >5% vs baseline. Reentrenamiento o ajuste de prompts disparado por métrica, no por fecha.
// siguiente paso

Empezamos por un caso con ROI claro.

No por un proyecto genérico que "explora" IA. Te ayudamos a identificar el caso de mayor impacto en tu operación, lo aterrizamos en un PoC en 4-8 semanas y medimos resultado real antes de pensar en escalar.

WhatsApp