Proceso KDT

El proceso de descubrimiento de conocimiento en texto, implica dominio en diferentes áreas de conocimiento: Métodos de recuperación de información, Extracción de la información, Procesamiento del lenguaje natural y Minería de datos. El dominio de estos conocimientos, ayuda al investigador a desarrollar cada una de las etapas necesarias previas al descubrimiento de información.
Estas etapas se encuentran contenidas en metodologías que estructuran el proceso completo. Una de ellas utilizada para la minería de datos se denomina KDD (knowledge discovery in databases), mientras que para el proceso de minería de texto existe una variante llamada KDT (knowledge discovery in text). Ambas son similares, sin embargo, existe una diferencia fundamental entre texto y dato: la falta de estructura en texto, característica que dificulta su análisis. (Natalia Hernandez M, 2016). En la tabla 1 se observa una comparación entre el del KDD y el KDT.

Tabla 1. Comparación KDD vs KD. Fuente: (Justicia de la Torre, 2017).

Etapas del proceso KDT

Definición de conceptos: El primer paso de esta metodología es la definición de los conceptos claves. Estos conceptos son escogidos según el objetivo de cada investigador, por ejemplo si se busca conocer la percepción sobre las energías renovables, los conceptos clave serán las energías renovables, más todos los que se enmarquen dentro de esta clasificación.

 

Recopilación de información: El objetivo de esta etapa es recopilar la información o datos que serán objeto de estudio, la cual puede realizarse de forma manual o a través de herramientas de recopilación. Un ejemplo de recopilación manual es realizar encuestas de opinión a un gran número de personas, mientras que un ejemplo de recopilación a través de herramientas, es extraer texto de páginas web a través de API’s o web scraping.

 

Pre-Procesamiento: Como sabemos el texto no tiene una estructura adecuada para el descubrimiento de conocimiento, pero antes de darle la estructura necesaria se necesita asegurar la homogeneidad del texto, es decir, que no existan conceptos o caracteres que distorsionen posteriormente la detección de patrones, un ejemplo son las abreviaciones por lo que es conveniente transformarlas a la palabra real.

 

Transformación: En esta etapa se procede a dar la estructura necesaria al texto para la posterior detección de patrones o minería de texto. Dentro de este proceso existen 2 etapas claves, los cuales:

 

  • Lematizado: Es el proceso de transformar las variaciones de las palabras con morfemas a su raíz (lexema). Por ejemplo, en el caso de la palabra “comidita”, en la cual el morfema es “ita” su lexema por ende será “comida”. Debe ser transformada a su lexema con el fin de evitar tener variantes de las palabras.

 

  • Etiquetado: el etiquetado gramatical o desambiguación, es el proceso de clasificar una palabra en función tanto de su definición como de su contexto, es decir, su relación con las palabras adyacentes y relacionadas en una frase, oración o párrafo. Este se logra a través de clasificar palabras como sustantivos, verbos, adjetivos, adverbios, etc.

 

  • Tokenizado: Es la acción de partir el texto en elementos llamados tokens. Estos son elementos indivisibles, por ejemplo, las frases se separan en palabras (tokens) con el fin de construir una matriz de palabras, en donde los encabezados de cada columna serán las palabras existentes dentro del corpus de los tweets .

 

Minado de texto: Esta es una de las etapas más amplias. Como se señala en distintas fuentes bibliográficas, minado de texto se menciona con distintos nombres y en muchas ocasiones se utilizan técnicas y enfoques diferentes. Sin embargo, lo que caracteriza esta etapa es el descubrimiento de conocimiento, el cual se puede obtener a través de: detección de patrones, representaciones vectoriales, modelos de aprendizaje supervisado o no supervisado entre otros métodos. La elección del método dependerá del objetivo del investigador.  En este capítulo se realizó una revisión de algunos métodos que fueron aplicados en la investigación.

 

Interpretación de resultados: En esta etapa se da paso a interpretar y validar el conocimiento obtenido tras realizar el proceso. Sin embargo, puede no ser la última etapa, dependerá de la validación del contenido que, en caso de ser rechazado por el investigador, podría resultar en el retroceso en el proceso.

 

Como podrás notar el proceso KDT es un proceso recursivo y estructurado que propone un método ordenado y simple para el análisis de texto. Si te quedaron dudas o te interesa saber más me puedes contactar al correo: jmansilla@krino.cl