Este trabajo propone mejorar la evaluación y priorización de ideas de innovación mediante Procesamiento
de Lenguaje Natural (NLP, por sus siglas en inglés) y modelado de tópicos. Se aborda la necesidad de
automatizar el análisis de ideas para facilitar su implementación en las empresas. El objetivo principal es
identificar el modelo más adecuado para extraer temas relevantes de ideas empresariales, evaluando modelos
como LDA y BERTopic en términos de coherencia y perplejidad.
La metodología incluye el preprocesamiento de los datos textuales, comenzando con la detección de
idioma y traducción al inglés para estandarizar las ideas. Posteriormente, se aplica tokenización, eliminación
de palabras comunes y stemming para reducir palabras a su forma base. Esto permite generar representaciones
numéricas, que los modelos de tópicos pueden analizar.
Los resultados muestran que el modelo BERTopic supera a LDA en coherencia, facilitando la segmentación
e interpretación de ideas. Finalmente, el trabajo sugiere áreas de mejora, como la optimización de modelos
y su despliegue en plataformas como Amazon SageMaker, lo que permitirá una integración eficiente en
entornos empresariales.
Este estudio contribuye a la automatización del análisis de ideas de innovación, ofreciendo una herramienta
para que las empresas analicen grandes volúmenes de información de manera rápida y efectiva.