- Minería de textos
-
La minería de textos se refiere al proceso de derivar información nueva de textos.
Contenido
Historia
A comienzos de los años ochenta surgieron los primeros esfuerzos de minería de textos que necesitaban una gran cantidad de esfuerzo humano, pero los avances tecnológicos han permitido que esta área progrese de manera rápida en la última década. La minería de textos es un área multidisciplinaria basada en la recuperación de información, minería de datos, aprendizaje automático, estadísticas y la lingüística computacional. Como la mayor parte de la información (más de un 80%) se encuentra actualmente almacenada como texto, se cree que la minería de textos tiene un gran valor comercial[cita requerida].
Se le presta cada vez un mayor interés a la minería de textos multilingual: la habilidad de ganar información en otros idiomas.
Aplicaciones académicas
El tema de la minería de textos es de importancia para publicadores que tengan grandes bancos de data que requieran de indexación. Esto es el caso en particular para disciplinas científicas en las que hay una gran cantidad de información muy específica en forma de texto escrito. Es por ello que se han presentado iniciativas como el Open Text Mining Interface (OTMI) y el common Journal Publishing Document Type Definition (DTD) de la NIH, que ofrecerían datos semánticos para responder a preguntas muy específicas sin quitar las barreras del publicador al acceso público.
Software comercial y aplicaciones
- Anderson Analytics - proveedor de análisis de texto y de contenido relacionado con el comportamiento del consumidor.
- Attensity - grupo de soluciones de minería de textos para diversas industrias.
- Autonomy - software de minería de textos, clustering y categorización.
- Clarabridge - aplicaciones de minería de textos, categorización para clientes, servicios de salud y analítica investigativa.
- Clearforest - software de minería de texto para extraer el significado de varias formas de información textual.
- Cortex Intelligence - proveedor de análisis de contenido de Web.
- Crossminder - empresa de minería de textos con búsqueda multilingüe y aproximación semántica.
- IBM Intelligent Miner for Text - software de minería de textos comercial.
- Inxight - proveedor de tecnologías de análisis de texto, búsqueda y visualization.
- Island Data - Real-time market intelligence from unstructured customer feedback.
- Nstein Technologies - provider of text analytics, and asset/web content management technologies (media, e-publishing, online publishing).
- Pimiento un framework para aplicaciones de minería de textos en Java.
- PolyAnalyst - software de minería de textos.
- SAS Enterprise Miner - software de minería de textos.
- SPSS - proveedor de TextSmart, SPSS Text Analysis for Surveys y Clementine, productos que se pueden utilizar con otros de SPSS.
- TALTAC2[1] - TalTac2 es un software para el anàlisis de datos textuales. Tiene como objetivo describir e interpretar el contenido y / o algunas de sus propiedades.
- TEMIS - TEMIS es un productor de software en el área de inteligencia de información.
- TextAnalyst - software de minería comercial.
- Textalyser - herramienta de análisis en línea para ver las estadísticas de textos.
- Topicalizer - una herramienta en línea para generar estadístias de páginas web y otros textos.
- The "Ultimate Research Assistant" - una herramienta para gerencia de conocimiento que usa una combinación de búsqueda tradicional y técnicas de minería para facilitar la búsqueda en línea de temas complejos.
Véase también
- Clasificación de textos
- Minería de datos
- Lingüística computacional
Enlaces externos
Wikimedia foundation. 2010.