estadistica online

viernes, 11 de diciembre de 2009

Visual FoxPro

Visual FoxPro es un lenguaje de programación orientado a objetos y procedural, un Sistema Gestor de Bases de datos o Database Management System (DBMS), y desde la versión 7.0, un Sistema administrador de bases de datos relacionales, producido por Microsoft.
Características [editar]
Visual FoxPro ofrece a los desarrolladores un conjunto de herramientas para crear aplicaciones de bases de datos para el escritorio, entornos cliente/servidor, tablet PC o para la Web.
Entre sus características se pueden enumerar:
Capacidades poderosas y muy veloces para el manejo de datos nativos y remotos.
Flexibilidad para crear todo tipo de soluciones de bases de datos.
Lenguaje de Programación Orientado a objetos.
Utilización de Sentencias SQL en forma nativa.
Poderoso manejo de vistas y cursores y control completo de estructuras relacionales.
Su propio gestor de base de datos incorporado. Sin embargo, también puede conectarse con servidores de base de datos, tales como Oracle, Microsoft SQL Server o MySQL.
Cuenta con un motor de generación de informes renovado y muy flexible para soluciones más robustas.
Desde la versión 9.0, amplio soporte de XML, tanto como fuente de datos (por ej., servicios Web basados en XML) como por generar reports en formato XML.
Desde la versión 7.0, soporte de la tecnología IntelliSense de Microsoft
La última versión liberada es la 9.0.
Se planeo inicialmente la salida de una nueva versión llamada 'Sedna', la cual pretendía ser un poderoso y completo lenguaje interactuando aun más con VisualStudio.net, SQLServer2005, SQLExpress2005 y Office12 teniendo a su vez soporte para Windows Vista. Posteriormente se supo que no habrá una próxima versión (Mensaje a la comunidad VFP). Microsoft ha cancelado su desarrollo y lanzó lo que han hecho hasta ahora como add-ons en conjunto con el service pack 2 ambos por el momento en versión Beta (SP2 y "Sedna" - Beta). Igualmente, según las políticas de soporte de Microsoft, éste continuara dando soporte al producto hasta el año 2015.
Hay un movimiento MasFoxPro que está haciendo presión para que Microsoft continúe, o deje el Visual FoxPro como código abierto para que otra gente pueda seguir evolucionándolo.
La versión 9.0 de Visual FoxPro cuenta con el SP1 y el (más reciente) SP2 (en inglés) en los que hay algunas nuevas características y especialmente brindan estabilidad al producto.
Historia [editar]
Visual FoxPro proviene de FoxPro, que a su vez deriva de FoxBASE, creado por Fox Technologies en 1984; inicialmente un compilador de dBase, acabó superándolo y con Clipper, convirtiéndose en una de las estrellas de los lenguajes xBase. Fox Technologies fue adquirido por Microsoft en 1992.
Visual FoxPro 3.0, fue la primera versión “Visual”, redujo su compatibilidad a solo Mac y Windows (La última versión de FoxPro (2.6) corría en MS-DOS, MS Windows, Mac OS y UNIX), versiones posteriores fueron solo para Windows. La versión actual se basa en archivos COM y Microsoft ha declarado que no piensan crear una versión .NET.
En la versión 5.0 se integra en Microsoft Visual Studio añadiendosele el soporte de Microsoft Source Safe. Hasta entonces es visto tipicamente por el público como meramente un Sistema de gestión de base de datos (SGBD), ignorando el hecho de que no solo incluye el entorno SGBD, sino un completo lenguaje de programación.
Visual FoxPro 6.0, publicado en 1999, no supone un cambio radical respecto de la anterior versión sino únicamente una mejora en sus diversas funcionalidades y una adaptación al mundo internet y al mundo de los objetos. Esta versión hace más atractivo a los desarrolladores el tratamiento de los datos en los entornos COM. Es un paso más en la evolución de este producto desde un entorno de aplicaciones monousuario o de redes pequeñas centradas en los datos hacia una herramienta orientada a objeto diseñada para la construcción de la lógica del negocio en los entornos multi-tier con una fuerte orientación hacia los tratamientos intensivos de datos en Internet. Pese a su relativa antigüedad, es hoy todavía ámpliamente utilizado en grandes empresas (por ej., la compañía de seguros Mapfre) por su estabilidad.
Visual FoxPro 7.0, publicado en 2001, supuso su salida de Visual Studio, pues aunque en un principio se pensaba incluir a Fox en .NET, no era posible sin romper con la herencia de anteriores versiones. Esta versión incorporó por primera vez el IntelliSense, y se mejoró el manejo de arrays, acercándolo al de cursores.
A finales del 2002, algunos miembros de comunidades demostraron que Visual FoxPro puede correr en Linux usando un reimplememtador del API de Windows (Win16 y Win32) llamado Wine. En el 2003, esto llevo a quejas de Microsoft: se dijo que el desarrollo de código de FoxPro para rutinas en máquinas no-Windows viola el Acuerdo de Licencia de Usuario Final.
Los rumores de que Microsoft planea terminar el soporte para FoxPro han sido comunes desde su adquisición del producto, a pesar del hecho de que éste ha tenido el tiempo de vida de soporte más largo para un producto de Microsoft (hasta el 2014). VFP 9 fue lanzado el 17 de diciembre del 2004 y el equipo de Fox luego trabajó en un proyecto cuyo nombre clave fue Sedna. Este fue construido sobre el código base de VFP 9 y consistió principalmente en componentes Xbase que soportando un número de escenarios interoperables con varias tecnologías de Microsoft incluyendo SQL Server 2005, .NET, WinFX, Windows Vista y Office 12. Lamentablemente el proyecto no prosperó y fue cancelado por Microsoft.
Visual Foxpro no va a desaparecer ya que una empresa llamada etecnologia "www.etecnologia.net" ha desarrollado el .NET EXTENDER que permite utilizar el .net framework en visual foxpro, y han anunciado que a finales del 2009 van a sacar su "VFP Developer Studio" herramienta la cual convierte a VFP en un lenguaje .Net. este producto esta soportando el 92 por ciento de los comandos y funciones de VFP al 31 de mayo del 2009 y se puede comprar por $250.00.
No obstante, siempre parece el patito feo de los productos Microsoft. Solicitar información sobre él en cualquier stand oficial de una feria informática como el español SIMO supone que se deba preguntar al menos a 3 personas, y muchas veces el usuario de Fox dispone de mayor información que los empleados (azafatas) presentes en él. Son varios los testimonios de visitas a empresas por parte de delegaciones de la central de Microsoft que no han sabido reconocer el producto como propio o lo han confundido con Visual Basic.
En la actualidad, a pesar que Microsoft ha decicido no continuar con Microsoft Visual FoxPro, la gran comunidad que poseen los desarrolladores de Fox son muchísimos en todo el mundo, sin duda es una de las comunidades mas importantes en el mundo de la programación e incluso lograron traducir al español la version 8.0. Comunidades como PortalFox y Mundo Visual FoxPro son las mas importantes entre los desarrolladores de habla hispana.
La gran mayoría de programadores Visual FoxPro se resisten a dejar de programar en este lenguaje porque consideran que es una herramienta muy poderosa, versátil y robusta que les permite crear aplicaciones tan poderosas y hasta más estables que las creadas por otros lenguajes. Incluso programadores que han tenido la oportunidad de desarrollar tanto en Visual Basic.NET y Visual FoxPro 9.0 coinciden que FoxPro es largamente superior en cuanto a practicidad y flexibilidad al momento de programar. Algunos miembros de la comunidad acusaron a Microsoft de "matar" a Visual FoxPro por el simple hecho que era más poderoso que su producto "el engreído Visual Basic".

excel y la estadistica

Si nos enfocamos al uso de la hoja de cálculo en la Estadística, es importante primero, realizar algunas consideraciones detectadas a lo largo de varios años de guiar en el conocimiento de esta disciplina, antes de entrar en materia.
· En la actualidad se está reconociendo la importancia de la probabilidad y la estadística dentro de los programas educativos, como una asignatura que fortalece la toma de decisiones.
· A nivel universitario los cursos de estadística se incluyen prácticamente en todas las especialidades, ya sea como probabilidad y estadística, bioestadística, teoría del muestreo o con algún otro nombre, hoy en día la estadística se encuentra presente en los diferentes campos de la ciencia.
· Para empezar a trabajar en la estadística no se necesita un dominio profundo de la matemática, basta con la comprensión de los propios conceptos estadísticos.
· La preparación estadística actual incluye la habilidad de procesamiento de datos a través de un programa estadístico.
Esta realidad nos obliga, de acuerdo a nuestros recursos, a acercar a los estudiantes a programas de análisis estadístico, considerando que el rápido desarrollo de la estadística y su difusión en la época moderna se ha debido a la presencia de la computadora facilitando la acelerada cuantificación de nuestra sociedad y al modo en que los datos son recogidos y procesados.[5]
También debemos considerar que como materia del área de las matemáticas, la computadora no es sólo un recurso de cálculo, sino también un recurso didáctico potente y muy útil, que nos permite conseguir una aproximación más exploratoria y significativa en la enseñanza de la estadística[6]. Por sí misma la computadora nos permite lograr ciertos avances en el aprendizaje pues evita: la realización de cálculos tediosos, y pocos constructivos; las largas jornadas desgastantes en la introducción de enormes conjuntos de datos; y facilita la actualidad y posible adecuación de las prácticas a los intereses personales de los estudiantes cuando se conjuga con Internet. Brindando por todo ello, un efecto por demás motivador en el estudiante (Hernando 2003).
Hasta hace algunos años, el análisis de datos estaba reservado a profesionales, quienes tenían que diseñar sus propios programas para realizar los cálculos, poco podíamos esperar de la experiencia educativa. Sin embargo en los últimos veinte años , el campo de la estadística se ha transformado radicalmente gracias al desarrollo de programas de computadora especialmente diseñados para el análisis estadístico.”Durante los ochenta, el software estadístico experimentó una vasta revolución tecnológica. Además de las mejoras manifestadas en actualizaciones periódicas, la disponibilidad de computadoras personales condujo al desarrollo de nuevos paquetes que usaban una interfaz manejada por menús”[7]
Esta revolución tecnológica trajo consigo una gran variedad de programas estadísticos, tanto de tipo profesional, como los desarrollados con fines educativos. Paquetes estadísticos profesionales como SAS, SPSS, SYSTAT, STATISTICS, etc. aparecieron en el mercado informático.
También tenemos los desarrollados especialmente para ser usados en la enseñanza, como MINITAB. Toda esta paquetería representó al final de la década de los ochenta y el principio de los noventa la realidad de un período continuo de avances tecnológicos manifestados en procedimientos estadísticos adicionales cada vez más sofisticados.
Es evidente que el uso de los paquetes de software es algo común dentro de los ambientes empresariales, de investigación y académicos. Así, tenemos entornos operativos "amistosos" , que permiten acceder directamente al manejo de cualquiera de los módulos de un paquete estadístico y, con la ayuda del "ratón", explorar sus posibilidades.
Por otro lado, existen programas "de consulta" (Brent y Mirelli, 1991) a los cuales se puede recurrir para obtener un "consejo" sobre el método de análisis que se debe aplicar en función del tipo de datos y las hipótesis sobre los mismos.
Sin embargo, tenemos que reconocer que pese a la variedad de software existentes en el medio, la realidad de la educación en nuestros países, en nuestras universidades supera muchas veces las expectativas de los programas; la situación económica por la que atraviesan la mayoría de las instituciones nos obliga a buscar alternativas económicas y asequibles a nuestros estudiantes, que permitan llevar los conceptos estadísticos y su metodología a la práctica a través de aplicaciones informáticas, logrando con ello manipular formulas y variables de acuerdo a un problema determinado.
Por otro lado, en años de experiencia con alumnos del área administrativa, cuyos conocimientos de matemáticas no son profundos, hemos detectado que para poder trabajar en estadística con estudiantes aún “inexpertos” en programas estadísticos necesitamos que el software utilizado cumpla determinadas condiciones:
· Un proceso de instalación automático y sencillo.
· Introducción sencilla de la información.
· Definición de variables y creación de ficheros de forma intuitiva.
· Importación y exportación de datos desde los formatos más habituales
· Operadores (aritméticos, lógicos y relacionales).
· Funciones
La hoja de cálculo de Excel, ha cumplido perfectamente con estas condiciones y si tomamos en cuenta que por formar parte del paquete integrado Microsoft Office (en cualquiera de sus versiones) se encuentra prácticamente a la mano de cualquier estudiante, lo que le ha permitido permanecer por su sencillez, disponibilidad y relación calidad/precio como una herramienta idónea tanto para estudiantes, usuarios principiantes como para maestros usuarios avanzados, que deseen realizar una análisis estadístico.
Excel, dependiendo de la versión, es un programa que se ajusta bastante bien al contenido mínimo de muchos de los programas educativos y que cumple con las condiciones señaladas anteriormente (en el caso de Excel 1997 y Excel 2000 carecen de algunas funciones ya actualizadas en el XP). Se trata de un software considerado actualmente como estándar en todos los entornos (educativo, profesional, familiar, etc), que posee la virtud de presentar una interfaz agradable y una facilidad de uso digna de elogio[8].
Cabe señalar algunas de las ventajas que hemos identificado en la práctica, al trabajar procedimientos estadísticos, inclusos aquellos considerados como difíciles.
· Las funciones utilizan una sintaxis común de acuerdo al nombre de estas, olvidándose de aquella típica de programación.
· Al utilizar funciones de aplicación inmediata optimizan la funcionalidad.
· Al aplicar las funciones se realiza la retrolimentación de conceptos a través de sus cuadros de diálogos.
· El programa integrado de Office por sí mismo ofrece una gran ayuda.
· Tiene una capacidad gráfica muy variada que permite trabajar en cualquiera de las etapas de una análisis estadístico.
· Tiene la posibilidad de automatizar cualquier tarea repetitiva a través del uso de macros de fácil aplicación.
También tenemos que considerar que la instalación del programa mismo es muy sencillo, requiriendo características mínimas muy básicas que se encuentran prácticamente disponibles en cualquier computadora actualmente, y por si fuera poco, el programa no ocupa mucho espacio en el disco duro y por ende no necesita demasiada memoria para funcionar.
Como una bondad adicional, Microsoft Excel incluye un comando para el análisis de datos, dentro de las “herramientas para análisis”, que se pueden utilizar para análisis estadísticos más complejos y avanzados. Su uso es poco común, pues la mayoría de las ocasiones al instalarse Excel no se tiene el cuidado de instalar todas las funciones dentro de las “herramientas” en forma completa y con ello la opción de “Análisis de datos” , perdiendo la oportunidad de utilizar un medio muy poderoso para el análisis dentro de la estadística.
Por último debemos mencionar que ante el uso de un programa informático para el análisis estadístico, el que sea, debemos de realizar algunas consideraciones más allá del uso de herramienta propia en la educación.
Si bien, la computadora y los softwares estadísticos pueden y deben incluirse dentro de los programas de estadística como un instrumento de cálculo y representación gráfica, para analizar tanto los datos colectados por el estudiante mismo como aquellos proporcionados por el profesor; debemos preparar a los alumnos para recolectar, organizar, editar, almacenar, representar y analizar sistemas de datos con la computadora, cuya complejidad sea adecuada a su realidad.
Los objetivos del uso de la computadora comienzan por la comprensión de conceptos afines, empezando desde los básicos, como variables y conjunto de datos; no debemos olvidar el impacto que causa en los alumnos el empleo de sistemas de datos reales y significativos a su entorno: sus calificaciones escolares, los resultados de sus equipos deportivos favoritos, los noviazgos juveniles experimentados[9], etc.
Si la información analizada tiene significado y si para ellos es fiable, habrá mucho mayor disposición al momento de llevar el sistema de datos a la computadora y poder realizar sus análisis, eliminando un problema tradicional en la enseñanza de la estadística, el desfase entre la comprensión de los conceptos y los medios técnicos de cálculo para poder aplicarlos. [10]
También debemos considerar que la actual facilidad de empleo de procedimientos estadísticos, implica, el riesgo del uso no adecuado de estos. Es muy común que tras la recolección de un conjunto de datos se piense que es suficiente aplicar un programa estadístico para tener el análisis, pensando erróneamente que este automáticamente realizará la interpretación de los resultados obtenidos.
Debemos habilitar a los alumnos para planificar el análisis que desean desarrollar incluso antes de finalizar el diseño de su conjunto de datos, considerando que la culminación de este dependerá de ellos al momento de trasladar el valor numérico obtenido a la realidad de la cual fue extraído originalmente De otro modo, sus conclusiones pudieran carecer de valor y de riqueza explicativa.
Conclusiones
A través de este documento sea han analizado algunos de los objetivos educativos que la disponibilidad de las computadoras y paquetes informáticos, plantea sobre la enseñanza de la estadística, reconociendo que:
· Las TIC’s ofrecen nuevas y poderosas herramientas de participación y toma de partido en forma deliberada en los procesos educativos.
· El uso de la computadora ayuda a sostener el interés del estudiante para desarrollar tareas que son tediosas si se llevan a cabo de la manera tradicional, con lápiz y papel.
· También se han señalado las posibilidades didácticas de la computadora en el análisis estadístico.
· Se han evidenciado las “bondades” del uso de la hoja de cálculo de Excel como un "software" didáctico asequible en la enseñanza de la estadística.
· No existen programas que por sí mismos resuelvan el problema de la enseñanza de la estadística . Es necesario un estudio concienzudo y profundo que permite el empleo de cualquier software estadístico en los programas educativos de estadístic a.

SPSS

Statistical Package for the Social Sciences (SPSS) es un programa estadístico informático muy usado en las ciencias sociales y las empresas de investigación de mercado. En la actualidad, la sigla se usa tanto para designar el programa estadístico como la empresa que lo produce. Originalmente SPSS fue creado como el acróstico de Statistical Package for the Social Sciences ya que se está popularizando la idea de traducir el acróstico como "Statistical Product and Service Solutions". Sin embargo, aunque realizando búsquedas por Internet estas pueden llevar a la página web de la empresa, dentro de la página misma de la empresa no se encuentra dicha denominación.

Fue creado en 1968 por Norman H. Nie, C. Hadlai (Tex) Hull y Dale H. Bent. Entre 1969 y 1975 la Universidad de Chicago por medio de su National Opinión Research Center estuvo a cargo del desarrollo, distribución y venta del programa. A partir de 1975 corresponde a SPSS Inc.

Originalmente el programa fue creado para grandes computadores. En 1970 se publica el primer manual de usuario del SPSS por Nie y Hall. Este manual populariza el programa entre las instituciones de educación superior en EE. UU. En 1984 sale la primera versión para computadores personales.

Como programa estadístico es muy popular su uso debido a la capacidad de trabajar con bases de datos de gran tamaño. En la versión 12 es de 2 millones de registros y 250.000 variables. Además, de permitir la recodificación de las variables y registros según las necesidades del usuario. El programa consiste en un módulo base y módulos anexos que se han ido actualizando constantemente con nuevos procedimientos estadísticos. Cada uno de estos módulos se compra por separado.

Actualmente, compite no solo con softwares licenciados como lo son SAS, MatLab, Statistica, Stata, sino también con software de código abierto y libre, de los cuales el más destacado es el Lenguaje R.

Desde la versión 14, pero más específicamente desde la versión 15 se ha implantado la posibilidad de hacer uso de las librerías de objetos del SPSS desde diversos lenguajes de programación. Aunque principalmente se ha implementado para Python, también existe la posibilidad de trabajar desde Visual Basic, C++ y otros lenguajes.

Versiones del SPSS

· SPSS Inc. desarrolla un módulo básico del paquete estadístico SPSS, del que han aparecido las siguientes versiones:

· SPSS-X (para grandes servidores tipo UNIX)

· SPSS/PC (1984, en DOS. Primera versión para computador portátil)

· SPSS/PC+ (1986 (en DOS)

· SPSS for Windows 6 (1992) / 6.1 para Macintosh

· SPSS for Windows 7

· SPSS for Windows 8

· SPSS for Windows 9

· SPSS for Windows 10 / for Macintosh 10 (2000)

· SPSS for Windows 11 (2001) / for Mac OS X 11(2002)

· SPSS for Windows 11.5 (2002)

· SPSS for Windows 12 (2003)

· SPSS for Windows 13 (2004): Permite por primera vez trabajar con múltiples bases de datos al mismo tiempo.

· SPSS for Windows 14 (2005)

· SPSS for Macintosh 13 (2006)

· SPSS for Windows 15 (2006)

· SPSS for Windows 16 (Octubre de 2007): En la lista de usuarios de SPSS "SPSSX (r) Discussion [SPSSX-L@LISTSERV. UGA. EDU]" varios funcionarios de la empresa anunciaron previamente la salida de la versión 16 de este software. En ella se incorporó una interfaz basada en Java que permite realizar algunas mejoras en las facilidades de uso del sistema.

· SPSS for Macintosh 16

· SPSS for Linux 16

· SPSS for Windows 17 (2008): Incorpora aportes importantes como el ser multilenguaje, pudiendo cambiar de idioma en las opciones siempre que queramos. También incluye modificaciones en el editor de sintaxis de forma tal que resalta las palabras claves y comandos, haciendo sugerencias mientras se escribe. En este sentido se aproxima a los sistemas IDE que se utilizan en programación.

Módulos del SPSS

El sistema de módulos de SPSS, como los de otros programas (similar al de algunos lenguajes de programación) provee toda una serie de capacidades adicionales a las existentes en el sistema base. Algunos de los módulos disponibles son:

· Modelos de Regresión

· Modelos Avanzados

· Reducción de datos: Permite crear variables sintéticas a partir de variables colineales por medio del Análisis Factorial.

· Clasificación: Permite realizar agrupaciones de observaciones o de variables (cluster analysis) mediante tres algoritmos distintos.

· Pruebas no paramétricas: Permite realizar distintas pruebas estadísticas especializadas en distribuciones no normales.

· Tablas: Permite al usuario dar un formato especial a las salidas de los datos para su uso posterior. Existe una cierta tendencia dentro de los usuarios y de los desarrolladores del software por dejar de lado el sistema original de TABLES para hacer uso más extensivo de las llamadas CUSTOM TABLES.

Tendencias

· Categorías: Permite realizar análisis multivariados de variables normalmente categorías. También se pueden usar variables métricas siempre que se realice el proceso de recodificación adecuado de las mismas.

· Análisis Conjunto: Permite realizar el análisis de datos recogidos para este tipo especifico de pruebas estadísticas.

· Mapas: Permite la representación geográfica de la información contenida en un fichero (descontinuado para SPSS 16).

· Pruebas Exactas: permite realizar pruebas estadísticas en muestras pequeñas.

· Análisis de Valores Perdidos: Regresión simple basada en imputaciones sobre los valores ausentes.

· Muestras Complejas: permite trabajar para la creación de muestras estratificadas, por conglomerados u otros tipos de muestras.

SamplePower (cálculo de tamaños muestrales)

· Árboles de Clasificación: Permite formular árboles de clasificación y/o decisión con lo cual se puede identificar la conformación de grupos y predecir la conducta de sus miembros.

· Validación de Datos: Permite al usuario realizar revisiones lógicas de la información contenida en un fichero.sav. y obtener reportes de los valores considerados extraños. Es similar al uso de sintaxis o scripts para realizar revisiones de los ficheros. De la misma forma que estos mecanismos es posterior a la digitalización de los datos.

SPSS Programmability Extension (SPSS 14 en adelante). Permite utilizar el lenguaje de programación Python para un mejor control de diversos procesos dentro del programa que hasta ahora eran realizados principalmente mediante scripts (con el lenguaje SAX Basic). Existe también la posibilidad de usar las tecnologías .NET de Microsoft para hacer uso de las librerías del SPSS. Aunque algunos usuarios han cuestionado sobre la necesidad de incluir otros lenguajes, la empresa no tiene esto entre sus objetivos inmediatos.

Desde el SPSS/PC hay una versión adjunta denomina SPSS Student que es un programa completo de la versión correspondiente pero limitada en su capacidad en cuanto al número de registros y variables que puede procesar. Esta versión es para fines de enseñanza del manejo del programa

Manejo

SPSS tiene un sistema de ficheros en el cual el principal son los archivos de datos (extensión. SAV). Aparte de este tipo existen otros dos tipos de uso frecuente:

· Archivos de salida (output, extensión. SPO): en estos se despliega toda la información de manipulación de los datos que realizan los usuarios mediante las ventanas de comandos. Son susceptibles de ser exportados con varios formatos (originalmente HTML, RTF o TXT, actualmente la versión 15 incorpora la exportación a PDF junto a los formatos XLS y DOC que ya se encontraban en la versión 12)

· Archivos de sintaxis (extensión. SPS): Casi todas las ventanas de SPSS cuentan con un botón que permite hacer el pegado del proceso que el usuario desea realizar. Lo anterior genera un archivo de sintaxis donde se van guardando todas las instrucciones que llevan a cabo los comandos del SPSS. Este archivo es susceptible de ser modificado por el usuario. Muchos de los primeros usuarios del SPSS suelen escribir estos archivos en vez de utilizar el sistema de pegado del programa.

· Existe un tercer tipo de fichero: el fichero de scripts (extensión. SBS). Este fichero es utilizado por los usuarios más avanzados del software para generar rutinas que permiten automatizar procesos muy largos y/o complejos. Muchos de estos procesos suelen no ser parte de las salidas estándar de los comandos del SPSS, aunque parten de estas salidas. Buena parte de la funcionalidad de los archivos de scripts ha sido ahora asumida por la inserción del lenguaje de programación Python en las rutinas de sintax del SPSS. Procedimientos que antes solo se podían realizar mediante scripts ahora se pueden hacer desde el sintax mismo.

El programa cuando se instala trae un determinado número de ejemplos o utilidades de casi todos los ficheros en cuestión. Estos son usados para ilustrar algunos de los ejemplos de uso del programa.

Fichero de datos de SPSS

Los ficheros de datos en formato SPSS tienen en Windows la extensión. SAV. Al abrir un fichero de datos con el SPSS, vemos la vista de datos, una tabla en la que las filas indican los casos y las columnas las variables. Cada celda corresponde al valor que una determinada variable adopta en un cierto caso.

Además de esta vista de datos, en las últimas versiones del programa existe una vista de variables en la que se describen las características de cada una. En esta vista las filas corresponden a cada variable y las columnas nos permiten acceder a sus características:

· Nombre, limitado a 8 caracteres.

· Tipo de variable (compárese este listado de opciones con los tipos de variables estadísticas existentes)

· Numérico, número en formato estándar)

· Coma decimal, número con comas cada tres posiciones y con un punto como delimitador de los decimales

· Punto decimal, número con puntos cada tres posiciones y con una coma como límite delimitador de los decimales.

· Notación científica, número que se expresa con un formato tal que se sigue de una E y un número que expresa la potencia de 10 a la que se multiplica la parte numérica previa

· Fecha

· Moneda dólar, formato numérico con el que se expresan cantidades en dólares

· Moneda del usuario, formato numérico con el que se expresan cantidades en la moneda definida en la pestaña de monedas del cuadro de diálogo "Opciones"

· Cadena de caracteres o variable alfanumérica

· Tamaño total

· Tamaño de la parte decimal

· Etiqueta de la variable

· Etiquetas para los valores

· Valores perdidos

· Espacio que ocupa en la vista de datos

· Alineación de la variable en la vista de datos

· Escala de medición.

Algunos usuarios pasan por alto las características de las variables cuando se trabaja en la base de datos. Sin embargo, cuando se utilizan scripts o Python las características de las variables pueden tomar gran relevancia en la construcción de procedimientos ad-hoc.

Fichero de sintaxis de SPSS

Se pueden generar estos archivos de sintax con la ayuda del programa mismo, pues en casi todas las ventanas donde se realizan tareas en el SPSS existe un botón "Paste". Este botón cierra la ventana en cuestión y guarda la sintaxis de las acciones seleccionadas en dicha ventana. Una vez salvado este archivo es susceptible de modificación.

La sintaxis tal cual se presenta a continuación fue producida directamente con el SPSS. Este programa le da un formato legible a la sintaxis, formato que el software en algunos casos no requiere para su correcto uso.

Otra peculiaridad de las sintaxis del SPSS es que no son "case sensitive". Ante lo cual es común ver sintaxis escritas en solo mayúsculas, solo minúsculas o bien una combinación propia de cada usuario. Esta situación se modifica para aquellas personas que hacen uso de Python dentro de sus sintaxis, pues este es un lenguaje sensitivo a las variaciones entre mayúsculas y minúsculas Esto obliga a estos usuarios a escribir sintaxis con mayor cuidado.

El siguiente ejemplo ilustra como abrir un fichero de datos mediante sintaxis y como llevar a cabo una frecuencia y una tabla de contingencia con datos de uno de los archivos de ejemplo que instala el programa.

*Este es un comentario, debe ir precedido por un asterisco y finalizado por un punto.

*Abre el archivo Tomato.sav.

GET

FILE='C:\Program Files\SPSS\Tomato.sav'.

*Genera una tabla con las frecuencias de la variable fertilizante.

FREQUENCIES

VARIABLES=fert

/ORDER= ANALYSIS.

*Genera una tabla de contingencia con las variables altura inicial y fertilizante.

CROSSTABS

/TABLES=initial BY fert

/FORMAT= AVALUE TABLES

/CELLS= COUNT

/COUNT ROUND CELL.

Hay veces que se necesita hacer una selección de determinados casos o individuos antes de realizar un análisis estadístico, pues sólo nos interesa obtener resultados para esos casos que se han seleccionado. El SPSS permite realizar esta selección utilizando criterios diferentes:

· Selección de una muestra aleatoria.

· Selección de los casos que verifiquen una determinada condición.

· Selección de un número determinado de casos.

Para realizar cualquier tipo de selección de casos, se pincha en el menú Datos y se selecciona la opción de Seleccionar casos… , es decir:

Una vez hecho esto aparece la siguiente ventana :

Observemos que automáticamente están seleccionados todos los casos, es decir, los análisis se realizarán utilizando todos los casos. A continuación se explican las otras opciones que figuran en el campo de seleccionar.

Cuando se desee seleccionar aquellos casos que satisfagan una determinada condición que deseemos, se activará esta opción y se pinchará en el botón SI... para especificar la condición; es decir, si se pincha en este botón aparece la siguiente ventana:

En esta ventana se especificará la condición que deben cumplir los casos que se van a utilizar en el análisis.

Las variables que se crean con el SPSS pueden ser resultado de una operación aritmética o lógica, o de una función. Para crear una variable se pincha en el menú Transformar, y dentro de este se selecciona la opción Calcular, es decir :

Es indiferente que se usen mayúsculas o minúsculas, pues internamente el sistema opera siempre con mayúsculas, independientemente de la forma en que aparezcan los nombres.

Aunque los nombres deben ser únicos, no pueden repetirse en el fichero de datos.

Una vez el nombre de la variable ha sido asignado, debe emplearse siempre y en su totalidad para referirse a la variable en cuestión, pero en caso de desearlo se puede cambiar a la hora de editarlo. En general, no se recomienda efectuar frecuentes cambios en la denominación.

Forzosamente el primer carácter de los 8 tiene que ser una letra. Los restantes pueden ser cualquier combinación de letras, números y los caracteres indicados a continuación:

El punto ( excepto si es el último carácter ),@, #, $ o el guión bajo ( aunque no se recomienda situarlo al final ).

Entonces aparece la siguiente imagen ):

Þ En el campo Variable de destino: se especifica el nombre que se va a dar a la nueva variable

Þ En el campo Expresión numérica: se especifica la expresión aritmética o lógica que se va a evaluar. Esta expresión puede contener operadores aritméticos, operadores lógicos o una de las funciones que aparecen en la lista que figura debajo de este campo. Esta lista contiene funciones aritméticas, funciones estadísticas, funciones referentes a valores missing, funciones de distribución y funciones temporales.

Si no se especifica nada más, los valores de la nueva variable se calculan para todos los casos, pero hay veces que por cualquier motivo sólo se necesitan calcular valores de la nueva variable para una determinada submuestra que verifica una condición determinada, en este caso se pincha en el botón Si... y aparece la siguiente ventana

Hay una serie de palabras con un significado especial para SPSS, ya que se emplean en diferentes procesos y subprogramas y que en consecuencia, no se pueden usar como nombres de variables ( ALL, AND, BY, EQ...).

Normalmente suelen bastar los 8 caracteres, pero si que pueden declarar etiquetas explicativas para las variables que se quiera.

En el proceso de definición hay que tener en cuenta los diferentes tipos de variables que encontramos.

. Tipología de las variables en SPSS

Tenemos que diferenciar entre variables numéricas y alfanuméricas.

Esta diferencia se establece basándose en el hecho de que hay variables cuyos valores son codificables mediante números y otras que permiten ser codificadas mediante letras y números, sólo letras o solamente números .

Este menú tiene 2 partes:

1. Nombre de variable: debe tener como máximo 8 caracteres, que pueden ser alfabéticos o numéricos o el símbolo de subrayado ( _ ) ; la única restricción es que el primer carácter debe ser alfabético, $ o #.

2. Descripción variable: si la descripción de la variable no coincide con la que sale por defecto, se modificará pinchando en las opciones que aparecen en la sección de Cambiar parámetros. Estas opciones son:

Tipo: Se utiliza para modificar el tipo de la variable y el formato. Cuando se pincha en Tipo... dentro de Cambiar parámetros, aparece la siguiente ventana:

Variables numéricas son aquellas que admiten cualquier número como valor válido, pudiendo ir precedido del signo más o del menos. Su longitud máxima es de 40 caracteres, de los cuales 16 pueden ser decimales.

Variables alfanuméricas son aquellas que en su codificación admiten cualquier carácter. En su definición debe especificarse únicamente su longitud máxima.

En consecuencia, lo más recomendable es optar por un criterio único con el fin de evitar errores. En principio, podría pensarse que la codificación alfanumérica es más recomendable para las variables cualitativas, y realmente es así. Pero es una codificación, en comparación a la numérica, con tendencia a más errores y problemas. Finalmente hay que decir que estos son formatos que SPSS admite en su versión para Windows, si los ficheros han sido creados en otros sistemas operativos, o a través de un programa elaborado en el lenguaje de comandos, son aceptados otros formatos.

SPSS da la oportunidad de asignar etiquetas ilustrativas a las variables y a los valores de las mismas.

Una vez seleccionado el tipo de variable, se pinchará en el botón de Continuar Para eliminar esta ventana, se pincha en el botón de Cancelar ; en este caso no se almacenarán las modificaciones hechas en esa ventana. Para obtener información sobre la ventana de Definir variable , se pincha en el botón de Ayuda . (Estos botones funcionan igual en todas las ventanas del SPSS, por lo que no se volverán a comentar a lo largo del manual)

Las etiquetas Se utiliza para definir la etiqueta de la variable, y de los valores que toman las variables en el caso de que éstas sean discretas. Cuando se pincha en Etiquetas... dentro de Cambiar parámetros, aparece la siguiente ventana

La etiqueta de la variable no puede exceder a 120 caracteres y las de los valores a 60 caracteres.

En el caso de que la variable que se está definiendo sea discreta y se desee poner etiquetas a los valores que toma dicha variable, se especificará el valor a etiquetar en el recuadro situado a la derecha de Valor:, y su etiqueta correspondiente en el recuadro situado a la derecha de Etiqueta de valores:.

Una vez rellenados estos dos campos se pincha en el botón de Añadir . Si se desea eliminar alguna de estas etiquetas se selecciona dicha etiqueta (pinchando con el ratón en ella) y se pincha en el botón de Borrar . Si se desea hacer alguna modificación en la definición de los valores y sus etiquetas, se selecciona la etiqueta a modificar, se pincha en el campo que se va a modificar (valor o etiqueta), y una vez hecha la modificación se pincha en el botón de Cambiar (Estos botones funcionan igual en todas las ventanas del SPSS, por lo que no se volverán a comentar a lo largo del manual. Dichos botones deberán estar activados para poder pinchar en ellos).

Las etiquetas pueden escribirse con cualquier combinación de mayúsculas y minúsculas y van a aparecer siempre tal y como hayan sido declaradas.

Con respecto a las etiquetas de valores, el procedimiento es similar.

Ya hemos visto cómo esto sólo merece la pena para variables cualitativas en las que los códigos asignados a los valores no resulten significativos, y muy especialmente cuando se haya realizado una codificación numérica de los mismos.

Las etiquetas de los valores pueden tener una extensión máxima de 60 caracteres, aunque aquí es aconsejable limitar su longitud a un valor cercano a 20.

Valores perdidos : Se utiliza para definir los valores missing (ausencia de dato) de la variable que se está describiendo. El SPSS distingue entre 2 tipos de valores missing:

system missing: valores missing declarados por el SPSS.

user missing : valores missing declarados por el usuario.

Cuando se pincha en Valores perdidos... dentro de Cambiar parámetros, aparece la siguiente ventana

Formato de columna: Se utiliza para definir el formato de las columnas donde se introducirán los valores de la variable.

Cuando se pincha en Formato de columna...dentro de Cambiar parámetros, aparece la siguiente ventana:

jueves, 10 de diciembre de 2009

trabajo practico de info 111

lunes, 7 de diciembre de 2009

estadistica!!!!

La estadística es una ciencia con base matemática referente a la recolección, análisis e interpretación de datos, que busca explicar condiciones regulares en fenómenos de tipo aleatorio.

Distribución normal.

Es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, desde las ciencias de la salud hasta el control de calidad. Se usa para la toma de decisiones en áreas de negocios o instituciones gubernamentales.

La estadística se divide en dos ramas:

La estadística descriptiva, que se dedica a los métodos de recolección, descripción, visualización y resumen de datos originados a partir de los fenómenos en estudio. Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar. Algunos ejemplos gráficos son: histograma, pirámide poblacional, clústers, etc.
La inferencia estadística, que se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hipótesis), estimaciones de características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen anova, series de tiempo y minería de datos.

Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada. Hay también una disciplina llamada estadística matemática, la cual se refiere a las bases teóricas de la materia. La palabra «estadísticas» también se refiere al resultado de aplicar un algoritmo estadístico a un conjunto de datos, como en estadísticas económicas, estadísticas criminales, etc.

Etimología

La palabra «estadística» procede del latín statísticum collégium (‘consejo de Estado’) y de su derivado italiano statista (‘hombre de Estado’ o ‘político’). El término alemán statistik, que fue primeramente introducido por Gottfried Achenwall (1749), designaba originalmente el análisis de datos del Estado, es decir, «la ciencia del Estado» (también llamada «aritmética política» de su traducción directa del inglés). No fue hasta el siglo XIX cuando el término «estadística» adquirió el significado de recolectar y clasificar datos. Este concepto fue introducido por el inglés John Sinclair.

En su origen, por tanto, la estadística estuvo asociada a datos, a ser utilizados por el gobierno y cuerpos administrativos (a menudo centralizados). La colección de datos acerca de estados y localidades continúa ampliamente a través de los servicios de estadística nacionales e internacionales. En particular, los censos suministran información regular acerca de la población.

Desde los comienzos de la civilización han existido maneras sencillas de estadística, pues ya se utilizaban representaciones gráficas y otros símbolos en pieles, rocas, palos de madera y paredes de cuevas para contar el número de personas, animales o ciertas cosas. Hacia el año 3000 a. C.Números y Crónicas incluyen, en algunas partes, trabajos de estadística. El primero contiene dos censos de la población de Israel y el segundo describe el bienestar material de las diversas tribus judías. En China existían registros numéricos similares con anterioridad al año 2000 a. C. Los griegos clásicos realizaban censos cuya información se utilizaba hacia el 594 a. C. para cobrar impuestos. los babilónicos usaban ya pequeñas tablillas de arcilla para recopilar datos en tablas sobre la producción agrícola y de los géneros vendidos o cambiados mediante trueque. Los egipcios analizaban los datos de la población y la renta del país mucho antes de construir las pirámides en el siglo XI a. C. Los libros bíblicos de

Orígenes en probabilidad

Los métodos estadístico-matemáticos emergieron desde la teoría de probabilidad, la cual data desde la correspondencia entre Blaise Pascal y Pierre de Fermat (1654). Christian HuygensArs coniectandiJakob Bernoulli y la Doctrina de posibilidades (1718) de Abraham de Moivre^[1] En la era moderna, el trabajo de Kolmogórov ha sido un pilar en la formulación del modelo fundamental de la Teoría de Probabilidades, el cual es usado a través de la estadística. (1657) da el primer tratamiento científico que se conoce a la materia. El (póstumo, 1713) de estudiaron la materia como una rama de las matemáticas.

La teoría de errores se puede remontar a la Ópera miscellánea (póstuma, 1722) de Roger Cotes Thomas Simpson en 1755 (impreso en 1756) el cual aplica por primera vez la teoría de la discusión de errores de observación. La reimpresión (1757) de este trabajo incluye el axioma de que errores positivos y negativos son igualmente probables y que hay unos ciertos límites asignables dentro de los cuales se encuentran todos los errores; se describen errores continuos y una curva de probabilidad. y al trabajo preparado por

Pierre-Simon Laplace (1774) hace el primer intento de deducir una regla para la combinación de observaciones desde los principios de la teoría de probabilidades. Laplace representó la ley de probabilidades de errores mediante una curva y dedujo una fórmula para la media de tres observaciones. También, en 1871, obtiene la fórmula para la ley de facilidad del error (término introducido por Lagrange, 1744) pero con ecuaciones inmanejables. Daniel Bernoulli (1778) introduce el principio del máximo producto de las probabilidades de un sistema de errores concurrentes.

El método de mínimos cuadrados, el cual fue usado para minimizar los errores en mediciones, fue publicado independientemente por Adrien-Marie Legendre (1805), Robert Adrain (1808), y Carl Friedrich Gauss (1809). Gauss había usado el método en su famosa predicción de la localización del planeta enano Ceres en 1801. Pruebas adicionales fueron escritas por Laplace (1810, 1812), Gauss (1823), James Ivory (1825, 1826), Hagen (1837), Friedrich Bessel (1838), W.F. Donkin John Herschel (1850) y Morgan Crofton (1870). Otros contribuidores fueron Ellis (1844), Augustus De Morgan (1864), Glaisher (1872) y Giovanni Schiaparelli (1875). La fórmula de Peters para (1844, 1856), $r$ , el probable error de una observación simple es bien conocido.

El siglo XIX incluye autores como Laplace, Silvestre Lacroix (1816), Littrow (1833), Richard Dedekind (1860), Helmert (1872), Hermann Laurent (1873), Liagre, Didion y Karl Pearson. Augustus De Morgan y George Boole mejoraron la presentación de la teoría. Adolphe Quetelet(l’homme moyen) como un medio de entender los fenómenos sociales complejos tales como tasas de criminalidad, tasas de matrimonio o tasas de suicidios. (1796-1874), fue otro importante fundador de la estadística y quien introdujo la noción del «hombre promedio»

Estado actual

Durante el siglo XX, la creación de instrumentos precisos para asuntos de salud pública epidemiología, bioestadística, etc.) y propósitos económicos y sociales (tasa de desempleo, econometría, etc.) necesitó de avances sustanciales en las prácticas estadísticas. (

Hoy el uso de la estadística se ha extendido más allá de sus orígenes como un servicio al Estado universidades tienen departamentos académicos de matemáticas y estadística separadamente. La estadística se enseña en departamentos tan diversos como psicología, educación y salud pública. o al gobierno. Personas y organizaciones usan la estadística para entender datos y tomar decisiones en ciencias naturales y sociales, medicina, negocios y otras áreas. La estadística es entendida generalmente no como un sub-área de las matemáticas sino como una ciencia diferente «aliada». Muchas

Regresión lineal - Gráficos de dispersión en estadística.

Al aplicar la estadística a un problema científico, industrial o social, se comienza con un proceso o población a ser estudiado. Esta puede ser la población de un país, de granos cristalizados en una roca o de bienes manufacturados por una fábrica en particular durante un periodo dado. También podría ser un proceso observado en varios instantes y los datos recogidos de esta manera constituyen una serie de tiempo.

Por razones prácticas, en lugar de compilar datos de una población entera, usualmente se estudia un subconjunto seleccionado de la población, llamado muestra. Datos acerca de la muestra son recogidos de manera observacional o experimental. Los datos son entonces analizados estadísticamente lo cual sigue dos propósitos: descripción e inferencia.

El concepto de correlación es particularmente valioso. Análisis estadísticos de un conjunto de datos puede revelar que dos variables (esto es, dos propiedades de la población bajo consideración) tienden a variar conjuntamente, como si hubiera una conexión entre ellas. Por ejemplo un estudio del ingreso anual y la edad de muerte entre personas podría resultar en que personas pobres tienden a tener vidas más cortas que personas de mayor ingreso. Las dos variables se dicen a ser correlacionadas. Sin embargo, no se pude inferir inmediatamente la existencia de una relación de causalidad entre las dos variables. El fenómeno correlacionado podría ser la causa de un tercero, previamente no considerado, llamado variable confundida.

Si la muestra es representativa de la población, inferencias y conclusiones hechas en la muestra pueden ser extendidas a la población completa. Un problema mayor es el de determinar que tan representativa es la muestra extraída. La estadística ofrece medidas para estimar y corregir por aleatoriedad en la muestra y en el proceso de recolección de los datos, así como métodos para diseñar experimentos robustos como primera medida, ver diseño experimental.

El concepto matemático fundamental empleado para entender la aleatoriedad es el de probabilidad. La estadística matemática (también llamada teoría estadística) es la rama de las matemáticas aplicadas que usa la teoría de probabilidades y el análisis matemático para examinar las bases teóricas de la estadística.

El uso de cualquier método estadístico es válido solo cuando el sistema o población bajo consideración satisface los supuestos matemáticos del método. El mal uso de la estadística puede producir serios errores en la descripción e interpretación, afectando las políticas sociales, la práctica médica y la calidad de estructuras tales como puentes y plantas de reacción nuclear.

Incluso cuando la estadística es correctamente aplicada, los resultados pueden ser difícilmente interpretados por un no experto. Por ejemplo, el significado estadístico de una tendencia en los datos, que mide el grado al cual la tendencia puede ser causada por una variación aleatoria en la muestra, puede no estar de acuerdo con el sentido intuitivo. El conjunto de habilidades estadísticas básicas (y el escepticismo) que una persona necesita para manejar información en el día a día se refiere como «cultura estadística».

Métodos estadísticos

Estudios experimentales y observacionales

Un objetivo común para un proyecto de investigación estadística es investigar la causalidad, y en particular extraer una conclusión en el efecto que algunos cambios en los valores de predictores o variables independientes tienen sobre una respuesta o variables dependientes. Hay dos grandes tipos de estudios estadísticos para estudiar causalidad: estudios experimentales y observacionales. En ambos tipos de estudios, el efecto de las diferencias de una variable independiente (o variables) en el comportamiento de una variable dependiente es observado. La diferencia entre los dos tipos es la forma en que el estudio es conducido. Cada uno de ellos puede ser muy efectivo.

Un estudio experimental implica tomar mediciones del sistema bajo estudio, manipular el sistema y luego tomar mediciones adicionales usando el mismo procedimiento para determinar si la manipulación ha modificado los valores de las mediciones. En contraste, un estudio observacional no necesita manipulación experimental. Por el contrario, los datos son recogidos y las correlaciones entre predictores y la respuesta son investigadas.

Un ejemplo de un estudio experimental es el famoso experimento de Hawthorne el cual pretendía probar cambios en el ambiente de trabajo en la planta Hawthorne de la Western Electric Company. Los investigadores estaban interesados en si al incrementar la iluminación en un ambiente de trabajo, la producción de los trabajadores aumentaba. Los investigadores primero midieron la productividad de la planta y luego modificaron la iluminación en un área de la planta para ver si cambios en la iluminación afectarían la productividad. La productividad mejoró bajo todas las condiciones experimentales. Sin embargo, el estudio fue muy criticado por errores en los procedimientos experimentales, específicamente la falta de un grupo control y seguimiento.

Un ejemplo de un estudio observacional es un estudio que explora la correlación entre fumar y el cáncer de pulmón. Este tipo de estudio normalmente usa una encuesta para recoger observaciones acerca del área de interés y luego produce un análisis estadístico. En este caso, los investigadores recogerían observaciones de fumadores y no fumadores y luego mirarían los casos de cáncer de pulmón en ambos grupos.

Los pasos básicos para un experimento son:

Planeamiento estadístico de la investigación, lo cual incluye encontrar fuentes de información, selección de material disponible en el área y consideraciones éticas para la investigación y el método propuesto. Se plantea un problema de estudio,
Diseñar el experimento concentrándose en el modelo y la interacción entre variables independientes y dependientes. Se realiza un muestreo consistente en la recolección de datos referentes al fenómeno o variable que deseamos estudiar. Se propone un modelo de probabilidad, cuyos parámetros se estiman mediante estadísticos a partir de los datos de muestreo. Sin embargo, se mantiene lo que se denominan «hipótesis sostenidas» (que no son sometidas a comprobación). Se valida el modelo comparándolo con lo que sucede en la realidad. Se utiliza métodos estadísticos conocidos como test de hipótesis o prueba de significación.
Se producen estadísticas descriptivas.
Inferencia estadística. Se llega a un consenso acerca de qué dicen las observaciones acerca del mundo que observamos.
Se utiliza el modelo validado para tomar decisiones o predecir acontecimientos futuros. Se produce un reporte final con los resultados del estudio.

Niveles de medición

Hay cuatro tipos de mediciones o escalas de medición en estadística. Los cuatro tipos de niveles de medición (nominal, ordinal, intervalo y razón) tienen diferentes grados de uso en la investigación estadística. Las medidas de razón, en donde un valor cero y distancias entre diferentes mediciones son definidas, dan la mayor flexibilidad en métodos estadísticos que pueden ser usados para analizar los datos. Las medidas de intervalo tienen distancias interpretables entre mediciones, pero un valor cero sin significado (como las mediciones de coeficiente intelectual o temperatura en grados Celsius). Las medidas ordinales tienen imprecisas diferencias entre valores consecutivos, pero un orden interpretable para sus valores. Las medidas nominales no tienen ningún rango interpretable entre sus valores.

La escala de medida nominal, puede considerarse la escala de nivel más bajo. Se trata de agrupar objetos en clases. La escala ordinal, por su parte, recurre a la propiedad de «orden» de los números. La escala de intervalos iguales está caracterizada por una unidad de medida común y constante. Es importante destacar que el punto cero en las escalas de intervalos iguales es arbitrario, y no refleja en ningún momento ausencia de la magnitud que estamos midiendo. Esta escala, además de poseer las características de la escala ordinal, permite determinar la magnitud de los intervalos (distancia) entre todos los elementos de la escala. La escala de coeficientes o Razones es el nivel de medida más elevado y se diferencia de las escalas de intervalos iguales únicamente por poseer un punto cero propio como origen; es decir que el valor cero de esta escala significa ausencia de la magnitud que estamos midiendo. Si se observa una carencia total de propiedad, se dispone de una unidad de medida para el efecto. A iguales diferencias entre los números asignados corresponden iguales diferencias en el grado de atributo presente en el objeto de estudio.

Técnicas estadísticas

Algunos tests y procedimientos para investigación de observaciones bien conocidos son:

Disciplinas especializadas

Algunos campos de investigación usan la estadística tan extensamente que tienen terminología especializada. Estas disciplinas incluyen:

Ciencias actuariales
Física estadística
Estadística industrial
Estadística Espacial
Matemáticas Estadística
Estadística en Medicina
Estadística en Medicina Veterinaria y Zootecnia
Estadística en Nutrición
Estadística en Agronomía
Estadística en Planificación
Estadística en Investigación
Estadística en Restauración de Obras
Estadística en Literatura
Estadística en Astronomía
Estadística en la Antropología (Antropometría)
Estadística en Historia
Estadística militar
Geoestadística
Bioestadística
Estadísticas de Negocios
Estadística Computacional
Estadística en las Ciencias de la Salud
Investigación de Operaciones
Estadísticas de Consultoría
Estadística de la educación, la enseñanza, y la formación
Estadística en la comercialización o mercadotecnia
Cienciometría
Estadística del Medio Ambiente
Estadística en Epidemiología
Minería de datos (aplica estadística y reconocimiento de patrones para el conocimiento de datos)
Econometría (Estadística económica)
Estadística en Ingeniería
Geografía y Sistemas de información geográfica, más específicamente en Análisis espacial
Demografía
Estadística en psicología (Psicometría)
Calidad y productividad
Estadísticas sociales (para todas las ciencias sociales)
Cultura estadística
Encuestas por Muestreo
Análisis de procesos y quimiometría (para análisis de datos en química analítica e ingeniería química)
Confiabilidad estadística
Procesamiento de imágenes
Estadísticas Deportivas

La estadística es una herramienta básica en negocios y producción. Es usada para entender la variabilidad de sistemas de medición, control de procesos (como en control estadístico de procesos o SPC (CEP)), para compilar datos y para tomar decisiones. En estas aplicaciones es una herramienta clave, y probablemente la única herramienta disponible.

Computación estadística

El rápido y sostenido incremento en el poder de cálculo de la computación desde la segunda mitad del siglo XX ha tenido un sustancial impacto en la práctica de la ciencia estadística. Viejos modelos estadísticos fueron casi siempre de la clase de los modelos lineales. Ahora, complejos computadores junto con apropiados algoritmos numéricos, han causado un renacer del interés en modelos no lineales (especialmente redes neuronales y árboles de decisión) y la creación de nuevos tipos tales como modelos lineales generalizados y modelos multinivel.

El incremento en el poder computacional también ha llevado al crecimiento en popularidad de métodos intensivos computacionalmente basados en remuestreo, tales como tests de permutación y de bootstrap, mientras técnicas como el muestreo de Gibbs han hecho los métodos bayesianos más accesibles. La revolución en computadores tiene implicaciones en el futuro de la estadística, con un nuevo énfasis en estadísticas «experimentales» y «empíricas». Un gran número de paquetes estadísticos está ahora disponible para los investigadores. Los sistemas dinámicos y teoría del caos, desde hace una década, empezaron a interesar en la comunidad hispana, pues en la anglosajona de Estados Unidos estaba ya establecida la «conducta caótica en sistemas dinámicos no lineales» con 350 libros para 1997 y empezaban algunos trabajos en los campos de las ciencias sociales y en aplicaciones de la física. También se estaba contemplando su uso en analítica.

Críticas a la estadística

Hay una percepción general de que el conocimiento estadístico es intencionada y demasiado frecuentemente mal usado, encontrando maneras de interpretar los datos que sean favorables al presentador. Un dicho famoso, al parecer de Benjamin Disraeli,^[2] es: «Hay tres tipos de mentiras: mentiras pequeñas, mentiras grandes y estadísticas». El popular libro How to lie with statisticsDarrell Huff discute muchos casos de mal uso de la estadística, con énfasis en gráficas malintencionadas. Al escoger (o rechazar o modificar) una cierta muestra, los resultados pueden ser manipulados; eliminando outliers por ejemplo. Este puede ser el resultado de fraudes o sesgos intencionales por parte del investigador. Lawrence Lowell (decano de la Universidad de Harvard) escribió en 1909 que las estadísticas, «como algunos pasteles, son buenas si se sabe quién las hizo y se está seguro de los ingredientes». (‘cómo mentir con las estadísticas’) de

Algunos estudios contradicen resultados obtenidos previamente, y la población comienza a dudar en la veracidad de tales estudios. Se podría leer que un estudio dice (por ejemplo) que «hacer X reduce la presión sanguínea», seguido por un estudio que dice que «hacer X no afecta la presión sanguínea», seguido por otro que dice que «hacer X incrementa la presión sanguínea». A menudo los estudios se hacen siguiendo diferentes metodologías, o estudios en muestras pequeñas que prometen resultados maravillosos que no son obtenibles en estudios de mayor tamaño. Sin embargo, muchos lectores no notan tales diferencias, y los medios de comunicación simplifican la información alrededor del estudio y la desconfianza del público comienza a crecer.

Sin embargo, las críticas más fuertes vienen del hecho que la aproximación de pruebas de hipótesis, ampliamente usada en muchos casos requeridos por ley o reglamentación, obligan una hipótesis a ser 'favorecida' (la hipótesis nula), y puede también exagerar la importancia de pequeñas diferencias en estudios grandes. Una diferencia que es altamente significativa puede ser de ninguna significancia práctica.

Véase también críticas de prueba de hipótesis y controversia de la hipótesis nula.

En los campos de la psicología y la medicina, especialmente con respecto a la aprobación de nuevas drogas por la Food and Drug Administration, críticas de la aproximación de prueba de hipótesis se han incrementado en los años recientes. Una respuesta ha sido un gran énfasis en el p-valor en vez de simplemente reportar si la hipótesis fue rechazada al nivel de significancia $α$ dado. De nuevo, sin embargo, esto resume la evidencia para un efecto pero no el tamaño del efecto. Una posibilidad es reportar intervalos de confianza, puesto que estos indican el tamaño del efecto y la incertidumbre. Esto ayuda a interpretar los resultados, como el intervalo de confianza para un $α$ dado indicando simultáneamente la significancia estadística y el efecto de tamaño.

El p valor y los intervalos de confianza son basados en los mismos cálculos fundamentales como aquellos para las correspondientes pruebas de hipótesis. Los resultados son presentados en un formato más detallado, en lugar del si-o-no de las pruebas de hipótesis y con la misma metodología estadística.

Una muy diferente aproximación es el uso de métodos bayesianos. Esta aproximación ha sido, sin embargo, también criticada.

El fuerte deseo de ver buenas drogas aprobadas y el de ver drogas peligrosas o de poco uso siendo rechazadas crea tensiones y conflictos (errores tipo I y II en el lenguaje de pruebas de hipótesis).