viernes, 11 de diciembre de 2009

SPSS

Statistical Package for the Social Sciences (SPSS) es un programa estadístico informático muy usado en las ciencias sociales y las empresas de investigación de mercado. En la actualidad, la sigla se usa tanto para designar el programa estadístico como la empresa que lo produce. Originalmente SPSS fue creado como el acróstico de Statistical Package for the Social Sciences ya que se está popularizando la idea de traducir el acróstico como "Statistical Product and Service Solutions". Sin embargo, aunque realizando búsquedas por Internet estas pueden llevar a la página web de la empresa, dentro de la página misma de la empresa no se encuentra dicha denominación.


Fue creado en 1968 por Norman H. Nie, C. Hadlai (Tex) Hull y Dale H. Bent. Entre 1969 y 1975 la Universidad de Chicago por medio de su National Opinión Research Center estuvo a cargo del desarrollo, distribución y venta del programa. A partir de 1975 corresponde a SPSS Inc.

Originalmente el programa fue creado para grandes computadores. En 1970 se publica el primer manual de usuario del SPSS por Nie y Hall. Este manual populariza el programa entre las instituciones de educación superior en EE. UU. En 1984 sale la primera versión para computadores personales.

Como programa estadístico es muy popular su uso debido a la capacidad de trabajar con bases de datos de gran tamaño. En la versión 12 es de 2 millones de registros y 250.000 variables. Además, de permitir la recodificación de las variables y registros según las necesidades del usuario. El programa consiste en un módulo base y módulos anexos que se han ido actualizando constantemente con nuevos procedimientos estadísticos. Cada uno de estos módulos se compra por separado.

Actualmente, compite no solo con softwares licenciados como lo son SAS, MatLab, Statistica, Stata, sino también con software de código abierto y libre, de los cuales el más destacado es el Lenguaje R.

Desde la versión 14, pero más específicamente desde la versión 15 se ha implantado la posibilidad de hacer uso de las librerías de objetos del SPSS desde diversos lenguajes de programación. Aunque principalmente se ha implementado para Python, también existe la posibilidad de trabajar desde Visual Basic, C++ y otros lenguajes.

Versiones del SPSS

· SPSS Inc. desarrolla un módulo básico del paquete estadístico SPSS, del que han aparecido las siguientes versiones:
· SPSS-X (para grandes servidores tipo UNIX)
· SPSS/PC (1984, en DOS. Primera versión para computador portátil)
· SPSS/PC+ (1986 (en DOS)
· SPSS for Windows 6 (1992) / 6.1 para Macintosh
· SPSS for Windows 7
· SPSS for Windows 8
· SPSS for Windows 9
· SPSS for Windows 10 / for Macintosh 10 (2000)
· SPSS for Windows 11 (2001) / for Mac OS X 11(2002)
· SPSS for Windows 11.5 (2002)
· SPSS for Windows 12 (2003)
· SPSS for Windows 13 (2004): Permite por primera vez trabajar con múltiples bases de datos al mismo tiempo.
· SPSS for Windows 14 (2005)
· SPSS for Macintosh 13 (2006)
· SPSS for Windows 15 (2006)
· SPSS for Windows 16 (Octubre de 2007): En la lista de usuarios de SPSS "SPSSX (r) Discussion [SPSSX-L@LISTSERV. UGA. EDU]" varios funcionarios de la empresa anunciaron previamente la salida de la versión 16 de este software. En ella se incorporó una interfaz basada en Java que permite realizar algunas mejoras en las facilidades de uso del sistema.
· SPSS for Macintosh 16
· SPSS for Linux 16
· SPSS for Windows 17 (2008): Incorpora aportes importantes como el ser multilenguaje, pudiendo cambiar de idioma en las opciones siempre que queramos. También incluye modificaciones en el editor de sintaxis de forma tal que resalta las palabras claves y comandos, haciendo sugerencias mientras se escribe. En este sentido se aproxima a los sistemas IDE que se utilizan en programación.

Módulos del SPSS

El sistema de módulos de SPSS, como los de otros programas (similar al de algunos lenguajes de programación) provee toda una serie de capacidades adicionales a las existentes en el sistema base. Algunos de los módulos disponibles son:
· Modelos de Regresión
· Modelos Avanzados
· Reducción de datos: Permite crear variables sintéticas a partir de variables colineales por medio del Análisis Factorial.
· Clasificación: Permite realizar agrupaciones de observaciones o de variables (cluster analysis) mediante tres algoritmos distintos.
· Pruebas no paramétricas: Permite realizar distintas pruebas estadísticas especializadas en distribuciones no normales.
· Tablas: Permite al usuario dar un formato especial a las salidas de los datos para su uso posterior. Existe una cierta tendencia dentro de los usuarios y de los desarrolladores del software por dejar de lado el sistema original de TABLES para hacer uso más extensivo de las llamadas CUSTOM TABLES.
Tendencias
· Categorías: Permite realizar análisis multivariados de variables normalmente categorías. También se pueden usar variables métricas siempre que se realice el proceso de recodificación adecuado de las mismas.
· Análisis Conjunto: Permite realizar el análisis de datos recogidos para este tipo especifico de pruebas estadísticas.
· Mapas: Permite la representación geográfica de la información contenida en un fichero (descontinuado para SPSS 16).
· Pruebas Exactas: permite realizar pruebas estadísticas en muestras pequeñas.
· Análisis de Valores Perdidos: Regresión simple basada en imputaciones sobre los valores ausentes.
· Muestras Complejas: permite trabajar para la creación de muestras estratificadas, por conglomerados u otros tipos de muestras.
SamplePower (cálculo de tamaños muestrales)
· Árboles de Clasificación: Permite formular árboles de clasificación y/o decisión con lo cual se puede identificar la conformación de grupos y predecir la conducta de sus miembros.
· Validación de Datos: Permite al usuario realizar revisiones lógicas de la información contenida en un fichero.sav. y obtener reportes de los valores considerados extraños. Es similar al uso de sintaxis o scripts para realizar revisiones de los ficheros. De la misma forma que estos mecanismos es posterior a la digitalización de los datos.

SPSS Programmability Extension (SPSS 14 en adelante). Permite utilizar el lenguaje de programación Python para un mejor control de diversos procesos dentro del programa que hasta ahora eran realizados principalmente mediante scripts (con el lenguaje SAX Basic). Existe también la posibilidad de usar las tecnologías .NET de Microsoft para hacer uso de las librerías del SPSS. Aunque algunos usuarios han cuestionado sobre la necesidad de incluir otros lenguajes, la empresa no tiene esto entre sus objetivos inmediatos.

Desde el SPSS/PC hay una versión adjunta denomina SPSS Student que es un programa completo de la versión correspondiente pero limitada en su capacidad en cuanto al número de registros y variables que puede procesar. Esta versión es para fines de enseñanza del manejo del programa

Manejo

SPSS tiene un sistema de ficheros en el cual el principal son los archivos de datos (extensión. SAV). Aparte de este tipo existen otros dos tipos de uso frecuente:
· Archivos de salida (output, extensión. SPO): en estos se despliega toda la información de manipulación de los datos que realizan los usuarios mediante las ventanas de comandos. Son susceptibles de ser exportados con varios formatos (originalmente HTML, RTF o TXT, actualmente la versión 15 incorpora la exportación a PDF junto a los formatos XLS y DOC que ya se encontraban en la versión 12)
· Archivos de sintaxis (extensión. SPS): Casi todas las ventanas de SPSS cuentan con un botón que permite hacer el pegado del proceso que el usuario desea realizar. Lo anterior genera un archivo de sintaxis donde se van guardando todas las instrucciones que llevan a cabo los comandos del SPSS. Este archivo es susceptible de ser modificado por el usuario. Muchos de los primeros usuarios del SPSS suelen escribir estos archivos en vez de utilizar el sistema de pegado del programa.
· Existe un tercer tipo de fichero: el fichero de scripts (extensión. SBS). Este fichero es utilizado por los usuarios más avanzados del software para generar rutinas que permiten automatizar procesos muy largos y/o complejos. Muchos de estos procesos suelen no ser parte de las salidas estándar de los comandos del SPSS, aunque parten de estas salidas. Buena parte de la funcionalidad de los archivos de scripts ha sido ahora asumida por la inserción del lenguaje de programación Python en las rutinas de sintax del SPSS. Procedimientos que antes solo se podían realizar mediante scripts ahora se pueden hacer desde el sintax mismo.
El programa cuando se instala trae un determinado número de ejemplos o utilidades de casi todos los ficheros en cuestión. Estos son usados para ilustrar algunos de los ejemplos de uso del programa.

Fichero de datos de SPSS

Los ficheros de datos en formato SPSS tienen en Windows la extensión. SAV. Al abrir un fichero de datos con el SPSS, vemos la vista de datos, una tabla en la que las filas indican los casos y las columnas las variables. Cada celda corresponde al valor que una determinada variable adopta en un cierto caso.

Además de esta vista de datos, en las últimas versiones del programa existe una vista de variables en la que se describen las características de cada una. En esta vista las filas corresponden a cada variable y las columnas nos permiten acceder a sus características:
· Nombre, limitado a 8 caracteres.
· Tipo de variable (compárese este listado de opciones con los tipos de variables estadísticas existentes)
· Numérico, número en formato estándar)
· Coma decimal, número con comas cada tres posiciones y con un punto como delimitador de los decimales
· Punto decimal, número con puntos cada tres posiciones y con una coma como límite delimitador de los decimales.
· Notación científica, número que se expresa con un formato tal que se sigue de una E y un número que expresa la potencia de 10 a la que se multiplica la parte numérica previa
· Fecha
· Moneda dólar, formato numérico con el que se expresan cantidades en dólares
· Moneda del usuario, formato numérico con el que se expresan cantidades en la moneda definida en la pestaña de monedas del cuadro de diálogo "Opciones"
· Cadena de caracteres o variable alfanumérica
· Tamaño total
· Tamaño de la parte decimal
· Etiqueta de la variable
· Etiquetas para los valores
· Valores perdidos
· Espacio que ocupa en la vista de datos
· Alineación de la variable en la vista de datos
· Escala de medición.
Algunos usuarios pasan por alto las características de las variables cuando se trabaja en la base de datos. Sin embargo, cuando se utilizan scripts o Python las características de las variables pueden tomar gran relevancia en la construcción de procedimientos ad-hoc.

Fichero de sintaxis de SPSS

Se pueden generar estos archivos de sintax con la ayuda del programa mismo, pues en casi todas las ventanas donde se realizan tareas en el SPSS existe un botón "Paste". Este botón cierra la ventana en cuestión y guarda la sintaxis de las acciones seleccionadas en dicha ventana. Una vez salvado este archivo es susceptible de modificación.
La sintaxis tal cual se presenta a continuación fue producida directamente con el SPSS. Este programa le da un formato legible a la sintaxis, formato que el software en algunos casos no requiere para su correcto uso.

Otra peculiaridad de las sintaxis del SPSS es que no son "case sensitive". Ante lo cual es común ver sintaxis escritas en solo mayúsculas, solo minúsculas o bien una combinación propia de cada usuario. Esta situación se modifica para aquellas personas que hacen uso de Python dentro de sus sintaxis, pues este es un lenguaje sensitivo a las variaciones entre mayúsculas y minúsculas Esto obliga a estos usuarios a escribir sintaxis con mayor cuidado.

El siguiente ejemplo ilustra como abrir un fichero de datos mediante sintaxis y como llevar a cabo una frecuencia y una tabla de contingencia con datos de uno de los archivos de ejemplo que instala el programa.
*Este es un comentario, debe ir precedido por un asterisco y finalizado por un punto.
*Abre el archivo Tomato.sav.
GET
FILE='C:\Program Files\SPSS\Tomato.sav'.
*Genera una tabla con las frecuencias de la variable fertilizante.
FREQUENCIES
VARIABLES=fert
/ORDER= ANALYSIS.
*Genera una tabla de contingencia con las variables altura inicial y fertilizante.
CROSSTABS
/TABLES=initial BY fert
/FORMAT= AVALUE TABLES
/CELLS= COUNT
/COUNT ROUND CELL.

Hay veces que se necesita hacer una selección de determinados casos o individuos antes de realizar un análisis estadístico, pues sólo nos interesa obtener resultados para esos casos que se han seleccionado. El SPSS permite realizar esta selección utilizando criterios diferentes:
· Selección de una muestra aleatoria.
· Selección de los casos que verifiquen una determinada condición.
· Selección de un número determinado de casos.





Para realizar cualquier tipo de selección de casos, se pincha en el menú Datos y se selecciona la opción de Seleccionar casos , es decir:

Una vez hecho esto aparece la siguiente ventana :

Observemos que automáticamente están seleccionados todos los casos, es decir, los análisis se realizarán utilizando todos los casos. A continuación se explican las otras opciones que figuran en el campo de seleccionar.
Cuando se desee seleccionar aquellos casos que satisfagan una determinada condición que deseemos, se activará esta opción y se pinchará en el botón SI... para especificar la condición; es decir, si se pincha en este botón aparece la siguiente ventana:

En esta ventana se especificará la condición que deben cumplir los casos que se van a utilizar en el análisis.
Las variables que se crean con el SPSS pueden ser resultado de una operación aritmética o lógica, o de una función. Para crear una variable se pincha en el menú Transformar, y dentro de este se selecciona la opción Calcular, es decir :




Es indiferente que se usen mayúsculas o minúsculas, pues internamente el sistema opera siempre con mayúsculas, independientemente de la forma en que aparezcan los nombres.
Aunque los nombres deben ser únicos, no pueden repetirse en el fichero de datos.
Una vez el nombre de la variable ha sido asignado, debe emplearse siempre y en su totalidad para referirse a la variable en cuestión, pero en caso de desearlo se puede cambiar a la hora de editarlo. En general, no se recomienda efectuar frecuentes cambios en la denominación.
Forzosamente el primer carácter de los 8 tiene que ser una letra. Los restantes pueden ser cualquier combinación de letras, números y los caracteres indicados a continuación:
El punto ( excepto si es el último carácter ),@, #, $ o el guión bajo ( aunque no se recomienda situarlo al final ).

Entonces aparece la siguiente imagen ):



Þ En el campo Variable de destino: se especifica el nombre que se va a dar a la nueva variable
Þ En el campo Expresión numérica: se especifica la expresión aritmética o lógica que se va a evaluar. Esta expresión puede contener operadores aritméticos, operadores lógicos o una de las funciones que aparecen en la lista que figura debajo de este campo. Esta lista contiene funciones aritméticas, funciones estadísticas, funciones referentes a valores missing, funciones de distribución y funciones temporales.
Si no se especifica nada más, los valores de la nueva variable se calculan para todos los casos, pero hay veces que por cualquier motivo sólo se necesitan calcular valores de la nueva variable para una determinada submuestra que verifica una condición determinada, en este caso se pincha en el botón Si... y aparece la siguiente ventana

Hay una serie de palabras con un significado especial para SPSS, ya que se emplean en diferentes procesos y subprogramas y que en consecuencia, no se pueden usar como nombres de variables ( ALL, AND, BY, EQ...).
Normalmente suelen bastar los 8 caracteres, pero si que pueden declarar etiquetas explicativas para las variables que se quiera.
En el proceso de definición hay que tener en cuenta los diferentes tipos de variables que encontramos.

. Tipología de las variables en SPSS

Tenemos que diferenciar entre variables numéricas y alfanuméricas.
Esta diferencia se establece basándose en el hecho de que hay variables cuyos valores son codificables mediante números y otras que permiten ser codificadas mediante letras y números, sólo letras o solamente números .



Este menú tiene 2 partes:
1. Nombre de variable: debe tener como máximo 8 caracteres, que pueden ser alfabéticos o numéricos o el símbolo de subrayado ( _ ) ; la única restricción es que el primer carácter debe ser alfabético, $ o #.
2. Descripción variable: si la descripción de la variable no coincide con la que sale por defecto, se modificará pinchando en las opciones que aparecen en la sección de Cambiar parámetros. Estas opciones son:


Tipo
: Se utiliza para modificar el tipo de la variable y el formato. Cuando se pincha en Tipo... dentro de Cambiar parámetros, aparece la siguiente ventana:

Variables numéricas son aquellas que admiten cualquier número como valor válido, pudiendo ir precedido del signo más o del menos. Su longitud máxima es de 40 caracteres, de los cuales 16 pueden ser decimales.
Variables alfanuméricas son aquellas que en su codificación admiten cualquier carácter. En su definición debe especificarse únicamente su longitud máxima.
En consecuencia, lo más recomendable es optar por un criterio único con el fin de evitar errores. En principio, podría pensarse que la codificación alfanumérica es más recomendable para las variables cualitativas, y realmente es así. Pero es una codificación, en comparación a la numérica, con tendencia a más errores y problemas. Finalmente hay que decir que estos son formatos que SPSS admite en su versión para Windows, si los ficheros han sido creados en otros sistemas operativos, o a través de un programa elaborado en el lenguaje de comandos, son aceptados otros formatos.

SPSS da la oportunidad de asignar etiquetas ilustrativas a las variables y a los valores de las mismas.

Una vez seleccionado el tipo de variable, se pinchará en el botón de Continuar Para eliminar esta ventana, se pincha en el botón de Cancelar ; en este caso no se almacenarán las modificaciones hechas en esa ventana. Para obtener información sobre la ventana de Definir variable , se pincha en el botón de Ayuda . (Estos botones funcionan igual en todas las ventanas del SPSS, por lo que no se volverán a comentar a lo largo del manual)
Las etiquetas Se utiliza para definir la etiqueta de la variable, y de los valores que toman las variables en el caso de que éstas sean discretas. Cuando se pincha en Etiquetas... dentro de Cambiar parámetros, aparece la siguiente ventana




La etiqueta de la variable no puede exceder a 120 caracteres y las de los valores a 60 caracteres.
En el caso de que la variable que se está definiendo sea discreta y se desee poner etiquetas a los valores que toma dicha variable, se especificará el valor a etiquetar en el recuadro situado a la derecha de Valor:, y su etiqueta correspondiente en el recuadro situado a la derecha de Etiqueta de valores:.
Una vez rellenados estos dos campos se pincha en el botón de Añadir . Si se desea eliminar alguna de estas etiquetas se selecciona dicha etiqueta (pinchando con el ratón en ella) y se pincha en el botón de Borrar . Si se desea hacer alguna modificación en la definición de los valores y sus etiquetas, se selecciona la etiqueta a modificar, se pincha en el campo que se va a modificar (valor o etiqueta), y una vez hecha la modificación se pincha en el botón de Cambiar (Estos botones funcionan igual en todas las ventanas del SPSS, por lo que no se volverán a comentar a lo largo del manual. Dichos botones deberán estar activados para poder pinchar en ellos).
Las etiquetas pueden escribirse con cualquier combinación de mayúsculas y minúsculas y van a aparecer siempre tal y como hayan sido declaradas.
Con respecto a las etiquetas de valores, el procedimiento es similar.
Ya hemos visto cómo esto sólo merece la pena para variables cualitativas en las que los códigos asignados a los valores no resulten significativos, y muy especialmente cuando se haya realizado una codificación numérica de los mismos.
Las etiquetas de los valores pueden tener una extensión máxima de 60 caracteres, aunque aquí es aconsejable limitar su longitud a un valor cercano a 20.
Valores perdidos : Se utiliza para definir los valores missing (ausencia de dato) de la variable que se está describiendo. El SPSS distingue entre 2 tipos de valores missing:
system missing: valores missing declarados por el SPSS.
user missing : valores missing declarados por el usuario.
Cuando se pincha en Valores perdidos... dentro de Cambiar parámetros, aparece la siguiente ventana

Formato de columna: Se utiliza para definir el formato de las columnas donde se introducirán los valores de la variable.
Cuando se pincha en Formato de columna...dentro de Cambiar parámetros, aparece la siguiente ventana:




2 comentarios: