R para Ciencias Sociales
Martín Paladino
2018-08-10
Preámbulo
0.1 ¿Para quién es este libro?
Este libro1 presenta algunos elementos importantes de análisis cuantitativo con aplicación en ciencias sociales. Quizás sea más simple empezar diciendo que no es este libro.
- Un libro exhaustivo de metodología de la ciencias sociales.
- Un libro de estadística aplicada a las ciencias sociales.
- Un libro de programación en R.
Aunque se tocan algunas cuestiones relativas a los procesos de inferencia en las ciencias sociales –en pocas palabras, como sociólogos, politólogos y otros científicos sociales interpretamos los resultados del análisis cuantitativo para extraer conclusiones sobre los temas de investigación- el tratamiento no es sistemático. No hay referencias a problemas tan importantes como el diseño de investigación.
Aunque en algunos casos se presentan los fundamentos estadísticos que subyacen a las operaciones de análisis llevadas a cabo, una vez más el abordaje no es sistemático si ad-hoc. En términos concretos, se utiliza mucho más R que la notación matemática como vehículo.
Aunque habrá mucho de programación este libro no está orientado a programadores que quieran extender sus conocimientos a R o a usuarios de R interesados en programación –por ejemplo, el desarrollo de paquetería o de nuevas fucniones. El enfoque es, más bien, utilizar de maneras creativas funciones ya existentes para lograr los resultados esperados. Se aboradarán algunos temas relativos a programación a los efectos de presentar buenas prácticas de análisis de datos.
Este libro está pensado para científicos sociales que quieren utilizar R como plataforma para el análisis de datos y la generación de productos académicos o de consultoría. Asume que el lector tiene algunos conocimientos de estadística y reposa en la formación previa del lector o lectora para las desiciones de diseño metodológico, inferencia y validación sustantiva de los resultados. En pocas palabras, se dirá mucho acerca del como del análisis de datos y bastante menos sobre el que.
0.2 El tidyverse
Mi vieja mula ya no es lo que era.
El manejo de datos es una parte sustancial del análisis cuantitativo. Exceptuando algunos ejemplos incluídos en libros los datos no suelen tener la estructura necesaria para analizarlos. Esto no tiene nada de llamativo, “estructura necesaria” es un concepto totalmente relativo a nuestras necesidades en un momento dado. Una misma base de datos puede requerir diferentes estructuras –formas- dependiendo del análisis que querramos practicar.
Para este importantísimo tema hemos tomado la decisión de dejar al margen las funciones base de R para manipulación formateado de datos y utilizar siempre librerías especializadas en manipulación. Las librerías que utilizaremos están reunidas en la metalibrería tidyverse
. Tomar una decisión implica asumir un riesgo. Aquí asumimos dos: los lectores que tengan a este libro como única referencia quizás tengan dificultades para leer y reutilizar el código escrito en otro estilo y en aquellos casos en los que no es posible hacer determinada operación dentro del paradigma tidyverse
se verán en dificultades. Estos riesgos están mitigados por dos contrapesos: siempre es difícil leer código escrito por otras personas, ya que cada cuál tiene su estilo y convenciones y el número de operaciones que no es posible llevar a cabo desde el tidyverse
es cada vez más restringido.
Las ventajas son muchas. tidyverse
no solo es un conjunto de librerías para R, es un paradigma de trabajo, una forma de hacer las cosas. La principal ventaja es la consistencia y esta se registra en dos niveles. La estructura básica de datos es consistente y siempre es la misma, el data.frame. En nuestras operaciones comenzamos con un data.frame y terminamos con otro. Aún más importante, hay convenciones claras en el uso de las funciones2: los datos van primero, las expresiones no necesitan comillas y siempre podemos encadenarlas con tuberías.