Estadistica Practica Para Ciencia De Datos Y Python High Quality [2021] May 2026

from scipy import stats import numpy as np tiempos = [120, 122, 119, 121, 123, 118, 220] # El 220 parece outlier Cálculo de IC usando bootstrap (robusto) def bootstrap_ic(data, n_iteraciones=1000, confianza=0.95): medias = [np.mean(np.random.choice(data, size=len(data), replace=True)) for _ in range(n_iteraciones)] alpha = 1 - confianza return np.percentile(medias, [100 alpha/2, 100 (1-alpha/2)])

from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) from scipy import stats import numpy as np

Introducción: ¿Por qué la estadística práctica? En el mundo de la Ciencia de Datos, es fácil dejarse seducir por algoritmos complejos de deep learning o bibliotecas de moda. Sin embargo, los profesionales más efectivos saben que el verdadero valor reside en entender los datos a través de la estadística . No hablamos de la estadística matemática pura, sino de la estadística práctica : aquella que detecta sesgos, valida supuestos y extrae conclusiones sólidas. No hablamos de la estadística matemática pura, sino

Observa cómo la media (256) es engañosa por el outlier 1100. La mediana (172.5) representa mejor el centro de los datos. : Nunca confíes solo en la media. Visualización Crítica: Histograma y Boxplot import plotly.express as px fig1 = px.histogram(df, x='ventas', nbins=10, title='Distribución de Ventas') fig2 = px.box(df, y='ventas', title='Boxplot - Detección de Outliers') fig1.show() fig2.show() : Nunca confíes solo en la media

Si fallan los supuestos, considera transformaciones (log, Box-Cox) o regresión robusta. 1. El Error de la Falsa Correlación # Ejemplo: correlación espuria entre ventas de helado y ataques de tiburón # En Python, usar correlation no implica causalidad. corr = df_helados['ventas'].corr(df_tiburones['ataques']) print(f"Correlación: corr:.2f") # Puede ser alta, pero la causa es el verano. 2. Data Leakage en Validación Al escalar datos, nunca se debe usar la media/desviación de todo el dataset antes de separar train/test.

ic_95 = bootstrap_ic(tiempos) print(f"IC 95% para la media: [ic_95[0]:.2f, ic_95[1]:.2f]")