TaDiRAH - Taxonomía sobre Actividades de investigación digital en humanidades

Modelización de tópicos

Modelización de tópicos es una herramienta de minería de texto de uso frecuente para el descubrimiento de estructuras semánticas ocultas en un cuerpo de texto. Intuitivamente, dado que un documento trata de un tema en particular, se podría esperar que algunas palabras aparezcan en el documento con más o menos frecuencia. Un documento normalmente se refiere a múltiples temas en diferentes proporciones. Los tópicos producidos por la modelización de tópicos son clusters de palabras similares, capta intuitivamente en un marco matemático, que permite examinar un conjunto de documentos y descubrir, sobre la base de las estadísticas de las palabras en cada uno, cuáles son los temas y cuál es el balance de cada documento de temas.

Detalles