En la actualidad, el análisis de grandes volúmenes de datos para convertirlos en información es una tarea que abarca profesionales de múltiples disciplinas. En el caso de la sociología, una de las tareas donde se muestra un mayor potencial es el análisis de textos: desde documentos levantados de internet (ya sea medios de comunicación, Twitter, etc.) hasta desgrabaciones de entrevistas, entre otros.
Hay distintas técnicas que se pueden aplicar a un cuerpo de documentos para encontrar similitudes, diferencias o inclusive relaciones que no son tan sencillas de encontrar con el mero ojo humano: patrones en común, formación de grupos o clústers, relaciones de cercanía, etc. Además, es frecuente el uso de algoritmos de sentiment analysis (análisis de sentimientos) y lexicones (SDAL) para hacer una lectura distinta del contenido.
En este taller se usarán los paquetes tidytext, tidymodels (LDA), syuzhet y SnowballC para llevar adelante estas tareas.
De más está decir que ningún algoritmo puede reemplazar la tarea analítica de un buen investigador, pero parte de la misión del NIS es difundir estas herramientas para darle a nuestra profesión las técnicas más modernas disponibles con las cuales operar.
Modalidad
Dictado por el Lic. Hernán Escudero. Especialista en Ciencia de Datos. Matriculado de CPS.
El taller consta de 3 clases, de 3 hs. cada una, con un break intermedio.
Destinado a un público con un entendimiento básico-intermedio de R: se da por sentado que lxs alumnxs tienen un manejo del paquete Tidyverse (dplyr, ggplot2, etc.).
Lxs alumnxs deberán traer sus propias notebooks con R, R Studio y los paquetes instalados (serán informados oportunamente).
La cursada es intensiva, de 10 hs con trabajo final integrador. La aprobación del curso supone una certificación conjunta de CPS (Ley 23.553) y CSPBA (Ley 10.307).
La experiencia se dictará en la sede Social del Colegio: Hipólito Yrigoyen 1516 piso 3 “J” (Congreso).
Aranceles
-Matriculados/as CPS-CSPBA: $3000
-Cursantes Externos/as: $3500
Inscripciones y Pago
Enviando un mail a sociologosbsas@gmail.com.
Importante Los cupos son limitados.
Programa
-Clase 1 Viernes 29/11. De 18:30 a 21:30 hs.
Introducción al text mining. Tokenización: unigramas, bigramas, ngramas. El método “tweet” o “word”. Introducción básica a expresiones regulares (regex). Conteo de ocurrencias.
-Clase 2 Viernes 6/12. De 18:30 a 21:30 hs.
Sentiment analysis: algoritmo NRC, y lexicón SDAL. Abordaje múltiple y polar (NRC), gradientes (SDAL). Preparación de gráficos de barras y lollipops. Uso básico de R Markdown y knitting para la presentación de reportes.
-Clase 3 Jueves 12/12. De 18:30 a 21:30 hs.
Topic modeling: algoritmo Latent Dirichlet Allocation (LDA). Técnicas de clusterización, selección de tópicos y cantidades. Múltiples documentos (tweets) o únicos (entrevistas). Pruebas de consistencia. Matrices gamma (pertenencia de documento a cluster) y beta (pertenencia de palabra a clúster).