focus-group-mx / documentación
Skill abierto que organiza grupos de enfoque sintéticos sobre un panel de evaluación de 19 perfiles mexicanos documentados con fuentes públicas oficiales. Diseñado para detectar fallas de mensaje antes de pagar pauta, como complemento al trabajo de investigación con humanos reales.
Qué es
focus-group-mx es un skill de Claude Code que organiza grupos de enfoque sintéticos: un panel de evaluación de 19 perfiles mexicanos somete cualquier mensaje, anuncio, promoción o página de aterrizaje a juicio estructurado.
Cada perfil tiene un expediente de aproximadamente 2,500 palabras: biografía, valores, situación económica, hábitos de consumo, tecnología disponible, lenguaje propio, historia electoral y sesgos culturales. Los perfiles cubren los niveles socioeconómicos A/B, C+, C, C-, D+, D, E definidos por AMAI 2024, distintas regiones del país, edades de 22 a 78 años y combinaciones de género, religión y educación.
Cuando se aplica el skill a un texto, los 19 perfiles emiten una evaluación en siete dimensiones operacionalizadas con anclas conductuales explícitas. El resultado es un diagnóstico con puntaje agregado, citas literales por perfil, objeciones detectadas, riesgos culturales identificados y recomendaciones de mejora.
Para qué sirve
El skill se diseñó para resolver un problema concreto que enfrentan equipos de marketing, agencias pequeñas y dueños de PYMEs en México: revisar la calidad de un mensaje antes de invertir presupuesto en su distribución.
Casos de uso primarios
- Evaluación previa de anuncios para Facebook, Instagram, TikTok o YouTube antes de comprar pauta
- Revisión de mensajes de WhatsApp masivos antes de envío a base de clientes
- Validación de promociones, descuentos y ofertas para distintos segmentos NSE
- Detección temprana de tono problemático, riesgo de rechazo público o malentendidos culturales
- Evaluación de páginas de aterrizaje desde la perspectiva de varios perfiles simultáneamente
- Comparación A/B/C entre versiones de texto publicitario antes de probarlas con presupuesto real
Casos de uso secundarios
- Evaluación de mensajes políticos a nivel local o estatal (con las limitaciones documentadas en sección 08)
- Detección preliminar de fallas en campañas de marca antes de producción audiovisual
Los 19 perfiles
El panel actual se compone de 19 perfiles diseñados manualmente con base en datos de INEGI, AMAI, ENDUTIH, INE y PROFECO. Cada uno tiene expediente público auditable dentro del repositorio.
Distribución por nivel socioeconómico (AMAI 2024)
| NSE | Perfiles | % del panel | % población MX (AMAI) |
|---|---|---|---|
| A/B | 1 | 5.3% | 6.5% |
| C+ | 3 | 15.8% | 14.3% |
| C | 4 | 21.1% | 16.9% |
| C- | 3 | 15.8% | 13.4% |
| D+ | 3 | 15.8% | 18.6% |
| D | 3 | 15.8% | 22.8% |
| E | 2 | 10.5% | 7.5% |
Distribución por género, edad y región
- Género: 10 femenino, 9 masculino
- Edad: rango 22 a 78 años, mediana 41
- Regiones representadas: CDMX, Estado de México, Jalisco, Nuevo León, Querétaro, Aguascalientes, Veracruz, Chiapas, Yucatán, Sinaloa, Guerrero
- Historial electoral 2024: 11 Sheinbaum, 6 Xóchitl Gálvez, 2 Máynez (distribución ajustada para replicar 59.76 / 27.45 / 10.32 reales del INE)
El panel completo
Cada perfil incluye en su expediente: biografía narrativa, contexto familiar, ingreso y gasto típico mensual (ENIGH 2024), dispositivos y conectividad (ENDUTIH 2024), categorías de consumo frecuente, marcas de afinidad, lenguaje propio con muletillas y modismos regionales, sesgos políticos, religión, valores y miedos. La intención es que el modelo pueda emitir reacciones coherentes con un mexicano de ese perfil específico, no con un mexicano genérico.
Cómo funciona
El flujo del skill es sencillo y reproducible. El operador entrega el texto a evaluar, define la categoría (consumo masivo, política, fintech, etc.) y el skill emite los pasos en secuencia.
- Entrada. Se recibe el mensaje a evaluar (texto, descripción de anuncio, página, promoción) junto con la categoría aplicable.
- Asignación de panel. Se selecciona el subconjunto de perfiles relevantes para la categoría. No siempre se usan los 19; depende del público objetivo declarado.
- Evaluación individual. Cada perfil emite reacción en siete dimensiones con anclas conductuales explícitas (sección 06).
- Citas literales. Cada perfil ofrece al menos una cita literal en su propio lenguaje, capturando objeción principal o reacción dominante.
- Cálculo del puntaje. Se calcula el puntaje agregado por categoría (ponderado por dimensión) y se identifican cuadrantes de comportamiento.
- Reporte. Se entrega documento con puntaje agregado, principales objeciones, riesgos detectados y recomendaciones de mejora.
Ejemplo mínimo de uso en Claude Code
$ claude
> Usa el skill focus-group-mx para evaluar este texto.
Categoría: consumo_masivo
Texto: "Estrena temporada con 30% off. Solo este finde. Llévate
3 sneakers por $1,499 y paga en 12 sin intereses."
[Claude carga el skill, selecciona panel relevante, ejecuta
las 7 dimensiones por perfil, calcula puntaje agregado y emite
reporte con objeciones, riesgos y recomendaciones]
Las 7 dimensiones
El puntaje agregado se construye sobre siete dimensiones operacionalizadas con anclas conductuales. Cada dimensión se mide en escala de 0 a 10, con descripciones específicas para los niveles 0-1, 2-3, 4-5, 6-7 y 8-9. Esto permite reducir el ruido inter-evaluador y aumentar la consistencia entre perfiles y entre corridas.
| Dimensión | Qué mide | Ancla baja (0-1) | Ancla alta (8-9) |
|---|---|---|---|
| Comprensión | ¿Se entiende qué se ofrece? | "No entendí nada" | "Cristalino al primer leerlo" |
| Credibilidad | ¿Suena cierto o suena falso? | "Esto es engaño" | "Lo creo sin reservas" |
| Relevancia | ¿Es para alguien como yo? | "No me habla a mí" | "Esto me describe perfecto" |
| Intención | ¿Compraría a causa de este mensaje? | "Ni de chiste" | "Voy a comprarlo ahora" |
| Accesibilidad | ¿El precio cabe en mi bolsillo? | "Imposible para mí" | "Es muy razonable" |
| Viralidad | ¿Lo compartiría con alguien? | "Lo dejo pasar" | "Se lo mando a mi prima" |
| Riesgo cultural | ¿Hay potencial de rechazo público? | "Ofensivo o tone-deaf" | "Limpio culturalmente" |
El puntaje final, denominado Comprabilidad, se calcula como promedio ponderado de las primeras seis dimensiones, donde los pesos varían según la categoría del mensaje (los anuncios de imagen de marca pesan más en Viralidad y Riesgo cultural, las promociones pesan más en Intención y Accesibilidad). La dimensión de Riesgo cultural funciona como modificador negativo cuando supera cierto umbral.
Metodología y operacionalización
La operacionalización de las dimensiones sigue el enfoque de Behaviorally Anchored Rating Scales, propuesto originalmente por Smith y Kendall (1963) y desarrollado posteriormente en literatura de psicometría laboral y de medición de actitudes. Las anclas conductuales reducen el ruido entre evaluadores al sustituir adjetivos abstractos por descripciones de comportamiento observable.
Por qué BARS y no escalas Likert genéricas
Una escala Likert tradicional ("muy malo, malo, regular, bueno, muy bueno") deja al evaluador interpretar la magnitud de cada adjetivo. Esto genera variabilidad inter-evaluador alta. BARS sustituye cada nivel por una descripción de respuesta observable, lo que reduce la varianza y permite que distintos modelos de lenguaje, o el mismo modelo en distintas corridas, lleguen a juicios más consistentes.
El puntaje Comprabilidad
El puntaje se construye con pesos diferenciados por categoría de mensaje. La calibración inicial se realizó comparando casos conocidos del mercado mexicano contra resultados observados, y posteriormente se probó la consistencia con cuatro modelos distintos para evaluar la estabilidad del prompt y de las anclas.
Cuadrantes Comprabilidad × Dispersión
Una métrica auxiliar es el dispersión, definido como la desviación estándar de las evaluaciones individuales entre los 19 perfiles. La combinación de Comprabilidad alta con dispersión bajo indica resonancia universal; Comprabilidad alta con dispersión alto indica resonancia polarizada (típica de mensajes virales con detractores); Comprabilidad baja con dispersión bajo indica fracaso estructural; Comprabilidad baja con dispersión alto indica mensaje confuso o mal segmentado.
Validaciones realizadas
A continuación se documentan las validaciones realizadas hasta la fecha, con etiquetas explícitas sobre qué tipo de evidencia constituye cada una. La intención es transparencia metodológica completa.
1. Pruebas retrospectivas sobre casos conocidos del mercado mexicano
Se aplicó el método a diez piezas reales del mercado MX cuyo desempeño es de dominio público (cinco exitosas, cinco fracasos). El método separó correctamente los diez casos en su cuadrante esperado.
Casos evaluados: Aeroméxico DNA (2017), Bimbo Contigo (2020), Coca-Cola Nombres (relanzamiento 2025), Coca-Cola Sombras de Rojo (2026), Tecate Sin Violencia (2019, Cannes Glass Lion); Pepsi Kendall Jenner (2017), Indio #OrgullosamenteIndio (2018), Victoria #LadyPrieta (2014), Aeroméxico Casting Polanco (2013), Tecate Es Fácil Ser Hombre (2011).
Categoría: validación retrospectiva. No constituye validez predictiva, dado que el resultado de cada caso era conocido al construir las anclas. Útil como evidencia de que la operacionalización detecta diferencias estructurales entre piezas eficaces e ineficaces.2. Replicación de la distribución del voto presidencial 2024
El panel evalúa los spots oficiales de las tres principales candidaturas (Sheinbaum, Gálvez, Máynez) y emite distribución agregada de intención. Los resultados aproximan el voto final reportado por INE con menos de dos puntos porcentuales de diferencia.
Categoría: ejercicio de calibración. Los perfiles tienen voto 2024 codificado en sus expedientes, por lo que la replicación no constituye predicción independiente. Útil como evidencia de coherencia interna del panel.3. Convergencia entre cuatro modelos de lenguaje
El mismo prompt aplicado a cuatro modelos distintos (Claude Opus, Gemini, Grok, ChatGPT) produce evaluaciones con correlación promedio de r̄ = 0.88 en los diez casos retrospectivos.
Categoría: confiabilidad del prompt, no validez del método. Indica que las anclas conductuales reducen el sesgo de modelo único. No constituye evidencia de precisión predictiva en el mundo real.4. Pendiente: comparación directa contra humanos reales
Esta es la validación más importante y aún no se ha realizado. Está programada como prioridad inmediata: ocho mexicanos reales evaluarán tres piezas también evaluadas por el panel, y se comparará dimensión por dimensión la coincidencia entre veredictos humanos y sintéticos. El resultado de esa comparación se publicará en este mismo sitio cuando esté disponible.
Lo que el método no hace
La utilidad de un instrumento se evalúa tanto por lo que detecta como por lo que ignora. A continuación, las limitaciones documentadas del método en su versión actual.
- No predice volumen de ventas ni retorno de inversión publicitaria con precisión cuantitativa
- No incluye representación explícita de personas LGBT+ en el panel actual (corrección programada para v3.0)
- Incluye únicamente un perfil indígena (tsotsil), insuficiente para mensajes dirigidos a las 68 lenguas y comunidades originarias de México
- No modela tasa de participación electoral (turnout), por lo que su uso en escenarios políticos requiere supuestos externos
- No sustituye estudios formales de recordación, notoriedad de marca ni medición continua de marca
- No realiza análisis interseccional explícito (género × NSE × edad × región) a nivel cuantitativo, aunque los perfiles individuales sí lo reflejan cualitativamente
- No ha sido comparado de manera directa contra humanos reales (validación en curso, ver sección 07)
- No es apropiado para decisiones de inversión publicitaria mayor a un millón de pesos sin validación adicional
Estas limitaciones se documentan en el repositorio público y se incluyen en cada reporte que el skill emite, en la sección "Lo que este diagnóstico no captura".
Fuentes públicas
Los expedientes de cada perfil se construyeron a partir de fuentes públicas oficiales mexicanas. Cada cifra de ingreso, gasto, dispositivo, hábito o afinidad puede rastrearse a su fuente original.
| Fuente | Año | Información utilizada |
|---|---|---|
| ENIGH (INEGI) | 2024 | Ingreso y gasto de hogares por decil y región |
| NSE AMAI | 2024 | Clasificación socioeconómica estándar de la industria |
| ENDUTIH (INEGI) | 2024 | Disponibilidad y uso de tecnologías de información |
| INE | 2024 | Resultados de la elección presidencial y microdatos electorales |
| PROFECO QQP | 2024-2026 | Precios reales de productos de consumo masivo |
| Censo Población y Vivienda (INEGI) | 2020 | Distribución demográfica y características de hogar |
| ENSANUT (INEGI/INSP) | 2022 | Salud y nutrición para perfiles de hábitos |
| CONEVAL | 2024 | Líneas de bienestar y pobreza por entidad |
El corpus completo de investigación utilizado, organizado por tema y catalogado, ocupa aproximadamente 4 GB y está documentado en el repositorio bajo research/INDEX.md.
Instalación y uso
El skill está pensado para integrarse con Claude Code en cualquier máquina. La instalación se realiza clonando el repositorio público en el directorio de skills.
Pasos de instalación
$ cd ~/.claude/skills
$ git clone https://github.com/lahh1986/sistemia-skills-mx.git
$ ls sistemia-skills-mx/skills/
focus-group-mx/
Invocación dentro de Claude Code
> Usa focus-group-mx para evaluar este texto:
[el texto a evaluar]
Categoría: [consumo_masivo | politica | fintech | servicios_locales]
Público objetivo: [opcional, NSE específico]
Salida esperada
El skill devuelve un documento estructurado con: puntaje Comprabilidad agregado, las tres principales objeciones por dimensión, citas literales de los perfiles más relevantes, riesgos culturales detectados, recomendaciones específicas de mejora y sección de limitaciones aplicables al caso.
Hoja de ruta
El proyecto se desarrolla en abierto. Los siguientes hitos están planeados para los próximos meses.
| Versión | Foco | Estado |
|---|---|---|
| v2.0 | 19 perfiles, 10 pruebas retrospectivas, calibración elección 2024 | Publicado |
| v2.1 | Comparación directa contra humanos reales (n=8 × 3 piezas) | En curso, junio 2026 |
| v2.2 | Programa piloto con 10 PYMEs mexicanas para validar utilidad operacional | Programado, junio-julio 2026 |
| v3.0 | Expansión del panel a 25 perfiles con representación LGBT+ y diversidad indígena adicional | Programado, Q3 2026 |
| v3.1 | Modelado de turnout para escenarios políticos | Programado, Q4 2026 |
Contacto piloto
El método está abierto y cualquier persona con Claude Code puede usarlo directamente desde el repositorio. Si prefieres no instalar nada y recibir el diagnóstico llave en mano, estamos abriendo cupo limitado para un programa piloto.
Cómo funciona el piloto
- Mandas tu mensaje, anuncio, página o promoción por WhatsApp
- Recibes diagnóstico estructurado en 48 horas con puntaje agregado, citas de los perfiles, objeciones y recomendaciones
- Primer diagnóstico sin costo
- Diagnósticos posteriores: $1,500 MXN por mensaje, paquete de cinco a $6,000 MXN
- A cambio te pedimos comentarios honestos sobre la utilidad del reporte
Manda tu mensaje por WhatsApp
+52 55 2947 7307 — recibimos texto, captura de tu anuncio o liga a tu página. Si lo prefieres, también puedes mandarme un correo y agendamos una llamada de quince minutos antes.