Aplicando el modelado de tópicos a la gestión del conocimiento en línea

122

Cómo el modelado de tópicos nos ayudó a reestructurar el blog Abierto al Público y aumentar la visibilidad de búsqueda

Cuando se trata de la gestión del conocimiento, y en el caso del conocimiento abierto en particular, el principal desafío ya no parece ser la falta de información. Las personas con acceso al Internet, tienen en sus manos el potencial de conectarse con una gran cantidad de conocimiento, y cada vez más, en formatos de acceso gratuito. Dicho esto, la sistematización, navegación y síntesis continua de tanta información es uno de los dilemas actuales relacionados con conectar los recursos más relevantes y accionables con quiénes los buscan. Esto va más allá de un esfuerzo meramente estético, la promoción o el marketing. Como hemos observado recientemente en todo el mundo, la llamada “infodemia” exige con urgencia nuevas formas de apoyar que las personas puedan encontrar el conocimiento que buscan, y que los creadores de contenido asuman una mayor responsabilidad de presentar el conocimiento y la información de manera clara y completa a sus lectores.

Por estas razones, el BID está constantemente explorando y perfeccionando técnicas para conectar mejor la región de América Latina y el Caribe con conocimiento abierto de calidad. Un ejemplo muy particular de esto, de los muchos esfuerzos en curso, incluye el trabajo que ha realizado nuestro equipo para mejorar la organización del contenido publicado aquí en Abierto al Público. En este artículo, compartimos algunos de los aprendizajes sobre cómo hemos utilizado técnicas como el modelado de tópicos y la optimización para motores de búsqueda (SEO) para abordar el trabajo de la gestión de contenido de manera más eficiente, con la motivación de guiar mejor a los lectores a encontrar el contenido y los recursos de aprendizaje más adecuados. significativo y práctico para ellos. Esperamos que también pueda utilizar estas técnicas para organizar mejor y compartir sus conocimientos.

Un gran hito, nuevos temas emergentes y mucho contenido

Abierto al Público es, ante todo, un recurso del BID para compartir aprendizajes sobre el conocimiento abierto. Como recientemente celebramos más de cinco años de estar en línea, el blog ha publicado más de 500 artículos relacionados con todo lo abierto en relación con el desarrollo social y económico en América Latina y el Caribe, a través de temas como el conocimiento abierto, los datos abiertos, el gobierno abierto, la innovación abierta y, más recientemente, la tecnología de código abierto.

Con tantos temas, ¿cómo navegar y darle sentido a todo, especialmente para visitantes que llegan por primera vez? Para nosotros, fue un momento importante para reflexionar sobre esta cuestión, por varias razones. Por un lado, nuestra cobertura relacionada con el movimiento abierto siguió evolucionando más allá de las categorías originales del blog. Necesitábamos un nuevo método para agrupar contenido de una manera que tuviera sentido para los lectores y, al mismo tiempo, ofreciera flexibilidad para incorporar contenido futuro a medida que continuamos creciendo y siguiendo nuevas líneas de conversación. En segundo lugar, el volumen de contenido desalienta la clasificación y reordenación manual. Ésta es una consideración importante porque queremos ser eficientes en el uso de nuestro tiempo y recursos.

Con esto en mente, queríamos ver cómo la inteligencia artificial y el procesamiento del lenguaje natural podrían desempeñar un papel para complementar nuestra estrategia y agilizar la tarea de ordenar y categorizar nuestro contenido de una manera equilibrada y coherente – un esfuerzo que de otro modo hubiera sido totalmente manual.

Centrando en el SEO: mapeo de conocimiento que beneficie tanto a las personas como a los motores de búsqueda

Al igual que en el debate sobre las buenas prácticas para los datos abiertos, también es fundamental para una buena gestión del conocimiento y el contenido que tanto las personas como las máquinas puedan encontrar y seguir los temas relacionados.

Por esta razón, comprender la ciencia detrás de la optimización de motores de búsqueda se convirtió en un punto focal importante de nuestra estrategia de gestión del contenido. Para mejorar la forma en que aparece su contenido en los resultados de búsqueda, los motores de búsqueda como Google escanean constantemente la web para evaluar los mapas del sitio de diferentes proveedores de contenido y tratar de comprender de qué se trata ese contenido, al mismo tiempo que toman una determinación sobre la calidad y relevancia de ese información a la búsqueda de un usuario. Debido a esto, aprendimos lo importante que es mantener categorías y etiquetas consistentes, así como también mantener vínculos relevantes entre contenido relacionado.

Cuando se trata de categorías, cada artículo solo debe pertenecer a una, como la rama de un árbol o el eje en el centro de una rueda. La cantidad de categorías debe estar aproximadamente equilibrada en términos de la cantidad de contenido en cada una, y una lógica clara debe conectar el contenido a su categoría y al mismo tiempo diferenciarlo de las otras categorías.

Aprende más sobre el rol de las categorías y la agrupación de contenidos en el SEO.

Pero, ¿cuántas categorías necesitaríamos para organizar tanto contenido? Esta fue nuestra siguiente pregunta. Necesitábamos comparar y evaluar nuestras opciones sin demasiada clasificación manual. Es en este contexto donde el modelado de tópicos adquiere una gran relevancia.

Cómo utilizamos el modelado de tópicos para identificar y crear categorías de contenido

El modelado de tópicos es una de las varias técnicas de procesamiento del lenguaje natural dentro del campo más amplio de la inteligencia artificial.

Se puede aplicar para identificar automáticamente temas, patrones o agrupaciones subyacentes, ocultos o latentes dentro de grandes volúmenes de texto, también conocido en su conjunto como el “corpus”. Como hemos aprendido y compartido de experiencias anteriores relacionadas con la Inteligencia Artificial, es clave recordar que el éxito depende en gran medida de la cantidad y calidad de los datos que se utilizarán. En el caso del modelado de tópicos, ese mismo recordatorio también es válido.

En el caso de Abierto al Público, primero reunimos alrededor de 500 artículos (el corpus) en un solo archivo csv para su análisis. Esto se puede lograr utilizando técnicas de raspado web o de otro modo, dependiendo de su acceso a las fuentes de archivos originales y sus formatos.

El siguiente paso fue limpiar los datos para maximizar el énfasis en el contenido temático. Por ejemplo, eliminamos la puntuación y las palabras que no proporcionaban mucha información comparativa sobre el contenido del texto, como preposiciones, conjunciones, etc. Las técnicas de programación en Python pueden ayudar a facilitar este proceso.

Después de limpiar y preparar el conjunto de datos, comenzamos el proceso iterativo de entrenamiento del algoritmo de modelado de temas. Esto significó ejecutar el conjunto de datos del corpus limpiado a través de un motor. Cada iteración consistió en asignar un número arbitrario diferente de cubos, o temas, en los que clasificar los términos encontrados en el corpus. El resultado proporcionaría las agrupaciones de cada artículo individual junto con una probabilidad de confianza sobre qué tan bien ese contenido coincidía con el resto de la información en la misma agrupación.

¿Qué herramientas están disponibles para implementar el modelado de tópicos?

Hay varias herramientas que te pueden ayudar a ejecutar el ejercicio de modelado de temas, tales como:

  • La biblioteca Gensim desarrollada en código abierto para python o el paquete de modelos tópicos para R.
  • Aunque no son abiertos, hay otros servicios disponibles que te permiten realizar el modelado de temas, incluso con una experiencia de codificación limitada y costo razonable. Dos ejemplos de estas alternativas son Amazon Comprehend AWS Service y el módulo LDA (LatentDirichtletAllocation) incluido en Azure Machine Learning Studio.

Interpretando los resultados

Analizar los resultados de un ejercicio de modelado de temas puede ser una tarea muy subjetiva, por lo que es importante involucrar a expertos en la materia en el proceso. Es importante realizar una validación cruzada de los patrones potenciales que la máquina ha interpretado con una validación más humana. Jugamos con combinaciones que iban desde 3 temas hasta 10 temas, y comparamos cuidadosamente los resultados de cada salida, hasta que finalmente nos concentramos en el equilibrio ofrecido en los resultados del rango de 5 temas, que llegó a interpretarse como estas categorías:

Una vez que llegamos a ese punto, repetimos el proceso de modelado de temas con el contenido dentro de cada una de las categorías para identificar subtemas o grupos más específicos. Esta segunda ronda nos ayudó a crear contenido nuevo que pudiera resaltar el contenido dentro de cada categoría y sus subtemas relacionados. A partir de ahí, también podríamos realizar las validaciones y ajustes finales en cuanto a etiquetas específicas o incorporando frases clave específicas en relación al SEO.

Aplicar e implementar los resultados en nuestra estrategia para mejorar la visibilidad de búsqueda

Esta estructura de clasificación nos ha ayudado a expandir nuestra cobertura de contenido y al mismo tiempo mantener puntos de enfoque específicos. También nos ha ayudado con problemas heredados comunes, como evitar la duplicación de contenido existente al tener un mapeo claro del contenido a mano, para poder seguir construyendo constructivamente sobre las conversaciones existentes donde hemos invertido antes en diferentes temas de conversación. Esto ayuda a Abierto al Público a responder a los intereses de los usuarios con contenido estructurado y conectado. También ha contribuido a que el contenido sea más visible y atractivo para los motores de búsqueda.

Como resultado de este y algunos otros cambios editoriales, Abierto al Público ha más que duplicado la visibilidad de su contenido durante el año pasado.

Fuente: https://blogs.iadb.org/