Popolazione statistica


La popolazione statistica è costituita da oggetti materialmente esistenti (dipendenti, imprese, paesi, regioni), è un oggetto
ricerca statistica. Popolazione statistica
- un insieme di unità che hanno carattere di massa, tipicità, omogeneità qualitativa e presenza di variazione.

Unità della popolazione- ciascuna unità specifica della popolazione statistica.

La stessa popolazione statistica può essere omogenea in una caratteristica ed eterogenea in un'altra.

Uniformità qualitativa- somiglianza di tutte le unità della popolazione su alcune basi e dissomiglianza su tutte le altre.

In una popolazione statistica, le differenze tra un'unità di popolazione e l'altra sono spesso di natura quantitativa. I cambiamenti quantitativi nei valori di una caratteristica di diverse unità di una popolazione sono chiamati variazione.

Variazione di un tratto- un cambiamento quantitativo in una caratteristica (per una caratteristica quantitativa) durante la transizione da un'unità della popolazione a un'altra.

Cartello- questa è una proprietà caratteristica o altra caratteristica di unità, oggetti e fenomeni che possono essere osservati o misurati. I segni si dividono in quantitativi e qualitativi. Viene chiamata la diversità e la variabilità del valore di una caratteristica nelle singole unità di una popolazione variazione.

Le caratteristiche attributive (qualitative) non possono essere espresse numericamente (composizione della popolazione per genere). Le caratteristiche quantitative hanno un'espressione numerica (composizione della popolazione per età).

Indice- si tratta di una caratteristica quantitativa e qualitativa generalizzante di qualsiasi proprietà di unità o aggregati nel loro insieme in specifiche condizioni di tempo e luogo.

Scheda segnapuntiè un insieme di indicatori che riflettono in modo completo il fenomeno oggetto di studio.

Ad esempio, lo stipendio viene studiato:
  • Segno: salario
  • Popolazione statistica: tutti i dipendenti
  • Unità di popolazione: ciascun dipendente
  • Omogeneità qualitativa - salari maturati
  • Variazione di un segno: una serie di numeri

Popolazione e campione da essa

La base della ricerca statistica è un insieme di dati ottenuti come risultato della misurazione di una o più caratteristiche. Un insieme di oggetti realmente osservati, rappresentato statisticamente da un numero di osservazioni di una variabile casuale, lo è campionamento, e l'ipoteticamente esistente (congetturale) - popolazione generale. La popolazione può essere finita (numero di osservazioni N = cost) o infinito ( N = ∞), e un campione di una popolazione è sempre il risultato di un numero limitato di osservazioni. Viene chiamato il numero di osservazioni che formano un campione misura di prova. Se la dimensione del campione è sufficientemente grande ( n → ∞) viene considerato il campione grande, altrimenti si parla di campionamento volume limitato. Il campione viene considerato piccolo, se quando si misura una variabile casuale unidimensionale la dimensione del campione non supera 30 ( N<= 30 ), e quando si misurano più simultaneamente ( K) caratteristiche nello spazio delle relazioni multidimensionali N A K non eccede 10 (n/k< 10) . Il campione si forma serie di variazioni, se i suoi membri lo sono statistica ordinale, cioè valori campione della variabile casuale X sono ordinati in ordine crescente (classificato), vengono chiamati i valori della caratteristica opzioni.

Esempio. Quasi lo stesso insieme di oggetti selezionati casualmente - banche commerciali di un distretto amministrativo di Mosca, può essere considerato come un campione della popolazione generale di tutte le banche commerciali in questo distretto e come un campione della popolazione generale di tutte le banche commerciali di Mosca , nonché un campione delle banche commerciali del paese, ecc.

Metodi di base per l'organizzazione del campionamento

Dipende dall'affidabilità delle conclusioni statistiche e dall'interpretazione significativa dei risultati rappresentatività campioni, cioè completezza e adeguatezza della rappresentazione delle caratteristiche della popolazione generale, rispetto alla quale tale campione può ritenersi rappresentativo. Lo studio delle proprietà statistiche di una popolazione può essere organizzato in due modi: utilizzando continuo E osservazione incompleta. Osservazione continua prevede l'esame di tutti unità studiato totalità, UN osservazione parziale (selettiva).- solo parti di esso.

Esistono cinque modi principali per organizzare l’osservazione del campione:

1. selezione casuale semplice, in cui gli oggetti vengono selezionati casualmente da una popolazione di oggetti (ad esempio, utilizzando una tabella o un generatore di numeri casuali), con ciascuno dei possibili campioni avente la stessa probabilità. Tali campioni sono chiamati effettivamente casuale;

2. selezione semplice utilizzando una procedura regolare viene effettuata utilizzando un componente meccanico (ad esempio data, giorno della settimana, numero dell'appartamento, lettere dell'alfabeto, ecc.) e i campioni così ottenuti vengono chiamati meccanico;

3. stratificato la selezione consiste nel fatto che la popolazione generale del volume è divisa in sottopopolazioni o strati (strati) del volume in modo che . Gli strati sono oggetti omogenei in termini di caratteristiche statistiche (ad esempio, la popolazione è divisa in strati per classi di età o classi sociali; le imprese per branca di attività economica). In questo caso vengono chiamati i campioni stratificato(Altrimenti, stratificato, tipico, regionalizzato);

4. metodi seriale la selezione viene utilizzata per formare seriale O campioni di nidi. Sono convenienti se è necessario rilevare contemporaneamente un "blocco" o una serie di oggetti (ad esempio un lotto di merci, prodotti di una determinata serie o la popolazione di una divisione amministrativa territoriale del paese). La selezione delle serie può essere effettuata in modo puramente casuale o meccanicamente. In questo caso viene effettuato un controllo completo di un determinato lotto di beni, oppure di un'intera unità territoriale (un edificio o un isolato residenziale);

5. combinato la selezione (a gradini) può combinare diversi metodi di selezione contemporaneamente (ad esempio, stratificato e casuale o casuale e meccanico); viene chiamato un tale campione combinato.

Tipi di selezione

Di mente Si distingue la selezione individuale, di gruppo e combinata. A selezione individuale singole unità della popolazione generale vengono selezionate nella popolazione campione, con selezione del gruppo- gruppi (serie) di unità qualitativamente omogenei, e selezione combinata implica una combinazione del primo e del secondo tipo.

Di metodo la selezione è distinta ripetuto e non ripetitivo campione.

Ripetibile chiamata selezione in cui un'unità inclusa nel campione non ritorna nella popolazione originaria e non partecipa ad un'ulteriore selezione; mentre il numero di unità della popolazione generale N viene ridotto durante il processo di selezione. A ripetuto selezione preso nel campione, un'unità dopo la registrazione viene restituita alla popolazione generale e conserva quindi pari opportunità, insieme ad altre unità, di essere utilizzata in un'ulteriore procedura di selezione; mentre il numero di unità della popolazione generale N rimane invariato (il metodo è usato raramente nella ricerca socioeconomica). Tuttavia, con grandi N (N → ∞) formule per ripetibile la selezione si avvicina a quelle per ripetuto selezione e questi ultimi sono praticamente più usati ( N = cost).

Caratteristiche fondamentali dei parametri della popolazione generale e campionaria

Le conclusioni statistiche dello studio si basano sulla distribuzione della variabile casuale e sui valori osservati (x1, x2, ..., xn) sono chiamate realizzazioni della variabile casuale X(n - dimensione del campione). La distribuzione di una variabile casuale nella popolazione generale è di natura teorica e ideale, così come lo è il suo analogo campionario empirico distribuzione. Alcune distribuzioni teoriche sono specificate analiticamente, ad es. loro opzioni determinare il valore della funzione di distribuzione in ogni punto dello spazio dei possibili valori della variabile casuale. Per un campione, quindi, la funzione di distribuzione è difficile e talvolta impossibile da determinare opzioni vengono stimati a partire da dati empirici e poi sostituiti in un'espressione analitica che descrive la distribuzione teorica. In questo caso, l’ipotesi (o ipotesi) sul tipo di distribuzione può essere statisticamente corretto o errato. Ma in ogni caso la distribuzione empirica ricostruita dal campione caratterizza solo approssimativamente quella vera. I parametri di distribuzione più importanti sono valore atteso e varianza.

Per loro natura, le distribuzioni lo sono continuo E discreto. La distribuzione continua più conosciuta è normale. Esempi di analoghi dei parametri e per esso sono: valore medio e varianza empirica. Tra quelli discreti nella ricerca socioeconomica, il più utilizzato alternativo (dicotomico) distribuzione. Il parametro di aspettativa matematica di questa distribuzione esprime il valore relativo (o condividere) unità della popolazione che presentano la caratteristica oggetto di studio (è indicata dalla lettera); la percentuale della popolazione che non ha questa caratteristica è indicata con la lettera q (q = 1 - p). La varianza della distribuzione alternativa ha anche un analogo empirico.

A seconda del tipo di distribuzione e del metodo di selezione delle unità di popolazione, le caratteristiche dei parametri di distribuzione vengono calcolate in modo diverso. Le principali distribuzioni teoriche ed empiriche sono riportate nella tabella. 9.1.

Frazione campione k n Il rapporto tra il numero di unità della popolazione campione e il numero di unità della popolazione generale si chiama:

kn = n/N.

Frazione campione w- questo è il rapporto tra le unità che possiedono la caratteristica oggetto di studio X alla dimensione del campione N:

w = nn /n.

Esempio. In un lotto di merce contenente 1000 unità, con un campione del 5%. quota campione k n in valore assoluto è di 50 unità. (n = N*0,05); se in questo campione vengono trovati 2 prodotti difettosi, allora tasso di difetti del campione w sarà 0,04 (w = 2/50 = 0,04 o 4%).

Poiché la popolazione campione è diversa dalla popolazione generale, esistono errori di campionamento.

Tabella 9.1 Principali parametri della popolazione generale e del campione

Popolazione - l'insieme di quelle persone sulle quali il sociologo cerca di ottenere informazioni nella sua ricerca. A seconda dell’ampiezza dell’argomento di ricerca, la popolazione sarà altrettanto ampia.

Popolazione campione – modello a popolazione ridotta; coloro ai quali il sociologo distribuisce i questionari, che vengono chiamati intervistati, che, infine, sono oggetto della ricerca sociologica.

Chi è incluso esattamente nella popolazione generale è determinato dagli obiettivi dello studio e chi è incluso nella popolazione campione è deciso con metodi matematici. Se un sociologo intende guardare la guerra afghana attraverso gli occhi dei suoi partecipanti, la popolazione generale includerà tutti i soldati afghani, ma dovrà intervistarne una piccola parte: la popolazione campione. Affinché il campione rifletta accuratamente la popolazione generale, il sociologo rispetta la regola: qualsiasi soldato afghano, indipendentemente dal luogo di residenza, luogo di lavoro, stato di salute e altre circostanze, deve avere la stessa probabilità di essere incluso nel campione popolazione.

Una volta che il sociologo ha deciso chi vuole intervistare, decide quadro di campionamento. Successivamente viene decisa la questione del tipo di campionamento.

I campioni sono divisi in tre grandi classi:

UN) solido(censimenti, referendum). Vengono censite tutte le unità della popolazione;

B) casuale;

V) Non casuale.

I tipi di campionamento casuale e non casuale sono a loro volta suddivisi in diverse tipologie.

Quelli casuali includono:

1) probabilistico;

2) sistematico;

3) suddiviso in zone (stratificato);

4) Nidificazione

Quelli non casuali includono:

1) "spontaneo";

2) quota;

3) metodo "array principale".

Un elenco completo e accurato di unità nei moduli della popolazione campione quadro di campionamento . Vengono richiamati gli elementi destinati alla selezione unità di selezione . Le unità di campionamento possono essere le stesse delle unità di osservazione perché unità di osservazione è considerato un elemento della popolazione generale da cui vengono raccolte direttamente le informazioni. Tipicamente l'unità di osservazione è l'individuo. La selezione da un elenco viene eseguita meglio numerando le unità e utilizzando una tabella di numeri casuali, sebbene venga spesso utilizzato un metodo quasi casuale, quando ogni n-esimo elemento viene preso da un elenco semplice.

Se il quadro di campionamento comprende un elenco di unità di campionamento, allora la struttura di campionamento implica il loro raggruppamento in base ad alcune caratteristiche importanti, ad esempio la distribuzione degli individui per professione, qualifica, genere o età. Se nella popolazione generale, ad esempio, ci sono il 30% di giovani, il 50% di persone di mezza età e il 20% di anziani, allora nella popolazione campione si devono osservare le stesse proporzioni percentuali delle tre età. È possibile aggiungere classi, sesso, nazionalità, ecc. alle età. Per ciascuno di essi vengono stabilite le proporzioni percentuali nella popolazione generale e nel campione. Così, quadro di campionamento – proporzioni percentuali delle caratteristiche dell'oggetto, sulla base delle quali viene compilata la popolazione campionaria.

Mentre il tipo di campione ci dice come le persone sono incluse nel campione, la dimensione del campione ci dice quante persone sono incluse.

Misura di prova – numero di unità della popolazione campione. Poiché la popolazione campione è una parte della popolazione generale selezionata mediante metodi particolari, il suo volume è sempre inferiore al volume della popolazione generale. Pertanto, è così importante che la parte non distorca l'idea dell'insieme, cioè la rappresenti.

L'affidabilità dei dati non è influenzata dalle caratteristiche quantitative della popolazione campione (il suo volume), ma dalle caratteristiche qualitative della popolazione generale - il grado di omogeneità. Viene chiamata la discrepanza tra la popolazione generale e la popolazione campione errore di rappresentatività , deviazione consentita – 5%.

Ecco alcuni modi per evitare l'errore:

    ogni unità della popolazione deve avere la stessa probabilità di essere inclusa nel campione;

    è consigliabile selezionare tra popolazioni omogenee;

    è necessario conoscere le caratteristiche della popolazione;

    Quando si compila un campione di popolazione, è necessario tenere conto degli errori casuali e sistematici.

Se la popolazione campione (campione) viene elaborata correttamente, il sociologo ottiene risultati affidabili che caratterizzano l'intera popolazione.

Quali sono i principali metodi di campionamento?

Metodo di campionamento meccanico, quando il numero richiesto di intervistati viene selezionato dall'elenco generale della popolazione generale a intervalli regolari (ad esempio, ogni 10).

Metodo di campionamento seriale. In questo caso la popolazione generale viene suddivisa in parti omogenee e da ciascuna vengono selezionate proporzionalmente unità di analisi (ad esempio, il 20% degli uomini e delle donne in un'impresa).

Metodo di campionamento a grappolo. Le unità di selezione non sono i singoli intervistati, ma i gruppi con successiva ricerca continua al loro interno. Questo campione sarà rappresentativo se la composizione dei gruppi è simile (ad esempio, un gruppo di studenti per ciascun flusso di un dipartimento universitario).

Metodo dell'array principale– sondaggio condotto sul 60–70% della popolazione generale.

Metodo del campionamento per quote. Il metodo più complesso, che richiede la determinazione di almeno quattro caratteristiche in base alle quali vengono selezionati gli intervistati. Solitamente utilizzato con una grande popolazione.

Piano:

1. Problemi di statistica matematica.

2. Tipi di campioni.

3. Metodi di selezione.

4. Distribuzione statistica del campione.

5. Funzione di distribuzione empirica.

6. Poligono e istogramma.

7. Caratteristiche numeriche delle serie di variazione.

8. Stime statistiche dei parametri di distribuzione.

9. Stime intervallari dei parametri di distribuzione.

1. Problemi e metodi della statistica matematica

Statistiche matematiche è una branca della matematica dedicata ai metodi di raccolta, analisi ed elaborazione dei risultati dei dati statistici osservativi per scopi scientifici e pratici.

Sia necessario studiare un insieme di oggetti omogenei rispetto a qualche caratteristica qualitativa o quantitativa che caratterizza questi oggetti. Ad esempio, se è presente un lotto di parti, lo standard della parte può fungere da segno qualitativo e la dimensione controllata della parte può fungere da segno quantitativo.

A volte viene effettuato uno studio completo, ad es. ogni oggetto viene esaminato per la caratteristica richiesta. In pratica, raramente viene utilizzata un’indagine completa. Ad esempio, se una popolazione contiene un numero molto elevato di oggetti, è fisicamente impossibile condurre un'indagine completa. Se il rilievo di un oggetto è associato alla sua distruzione o richiede ingenti costi materiali, non ha senso condurre un sondaggio completo. In questi casi, un numero limitato di oggetti viene selezionato casualmente dall'intera popolazione (popolazione campione) e sottoposto a studio.

Il compito principale della statistica matematica è studiare l'intera popolazione utilizzando dati campione, a seconda dell'obiettivo, ad es. studio delle proprietà probabilistiche di una popolazione: legge di distribuzione, caratteristiche numeriche, ecc. per prendere decisioni gestionali in condizioni di incertezza.

2. Tipi di campioni

Popolazione è l'insieme degli oggetti da cui è costituito il campione.

Popolazione campione (campione) è una raccolta di oggetti selezionati casualmente.

Volume della popolazione è il numero di oggetti in questa raccolta. La dimensione della popolazione è indicata da N, selettivo – n.

Esempio:

Se su 1000 parti vengono selezionate 100 parti per l'esame, allora il volume della popolazione generale N = 1000 e dimensione del campione n = 100.

Esistono due modi per selezionare un campione: dopo che un oggetto è stato selezionato e osservato, può o meno essere restituito alla popolazione. Quello. i campioni si dividono in ripetuti e non ripetuti.

Ripeterechiamato campione, in cui l'oggetto selezionato (prima di selezionare quello successivo) viene restituito alla popolazione.

Ripetibilechiamato campione, in cui l'oggetto selezionato non viene restituito alla popolazione.

In pratica, viene solitamente utilizzato il campionamento casuale ripetuto.

Per poter giudicare con sufficiente sicurezza le caratteristiche della popolazione di interesse sulla base dei dati campione, è necessario che gli oggetti campione la rappresentino correttamente. Il campione deve rappresentare correttamente le proporzioni della popolazione. Il campione dovrebbe essere rappresentante (rappresentante).

A causa della legge dei grandi numeri, si può sostenere che il campione sarà rappresentativo se effettuato in modo casuale.

Se la dimensione della popolazione è sufficientemente grande, e il campione costituisce solo una piccola parte di questa popolazione, allora la distinzione tra campioni ripetuti e non ripetitivi viene cancellata; nel caso limite, quando si considera una popolazione infinita e il campione ha dimensione finita, questa differenza scompare.

Esempio:

La rivista americana Literary Review, utilizzando metodi statistici, condusse uno studio sulle previsioni riguardanti l'esito delle imminenti elezioni presidenziali americane nel 1936. I contendenti per questo posto erano F.D. Roosevelt e AM Landon. Gli elenchi telefonici sono stati presi come fonte per la popolazione generale degli americani studiati. Di questi, sono stati selezionati casualmente 4 milioni di indirizzi, ai quali i redattori della rivista hanno inviato cartoline chiedendo loro di esprimere il loro atteggiamento nei confronti dei candidati alla presidenza. Dopo aver elaborato i risultati del sondaggio, la rivista ha pubblicato una previsione sociologica secondo cui Landon avrebbe vinto con un ampio margine le prossime elezioni. E... mi sbagliavo: ha vinto Roosevelt.
Questo esempio può essere considerato un esempio di campione non rappresentativo. Il fatto è che negli Stati Uniti, nella prima metà del ventesimo secolo, solo la parte ricca della popolazione che sosteneva le idee di Landon aveva un telefono.

3. Metodi di selezione

Nella pratica vengono utilizzati vari metodi di selezione che possono essere suddivisi in 2 tipologie:

1. La selezione non richiede la divisione della popolazione in parti (a) semplice casuale non ripetitivo; B) semplice ripetizione casuale).

2. Selezione, in cui la popolazione è divisa in parti. (UN) selezione tipica; B) selezione meccanica; V) seriale selezione).

Semplice casuale lo chiamano così selezione, in cui gli oggetti vengono estratti uno alla volta dall'intera popolazione (in modo casuale).

Tipicochiamato selezione, in cui gli oggetti vengono selezionati non dall'intera popolazione, ma da ciascuna delle sue parti “tipiche”. Ad esempio, se una parte viene prodotta su più macchine, la selezione non viene effettuata dall'intero insieme di parti prodotte da tutte le macchine, ma dai prodotti di ciascuna macchina separatamente. Questa selezione viene utilizzata quando il tratto esaminato varia notevolmente in varie parti “tipiche” della popolazione generale.

Meccanicochiamato selezione, in cui la popolazione generale viene divisa “meccanicamente” in tanti gruppi quanti sono gli oggetti che dovrebbero essere inclusi nel campione, e da ciascun gruppo viene selezionato un oggetto. Ad esempio, se è necessario selezionare il 20% delle parti prodotte da una macchina, verrà selezionata una parte ogni 5; se è necessario selezionare il 5% delle parti, ogni 20, ecc. A volte tale selezione potrebbe non garantire la rappresentatività del campione (se viene selezionato ogni 20 rulli rettificati e la taglierina viene sostituita immediatamente dopo la selezione, verranno selezionati tutti i rulli torniti con taglienti smussati).

Serialechiamato selezione, in cui gli oggetti vengono selezionati dalla popolazione generale non uno alla volta, ma in “serie”, sottoposte a un rilevamento continuo. Ad esempio, se i prodotti vengono fabbricati da un ampio gruppo di macchine automatiche, solo i prodotti di poche macchine vengono sottoposti ad un esame completo.

In pratica, viene spesso utilizzata la selezione combinata, in cui i metodi di cui sopra sono combinati.

4. Distribuzione statistica del campione

Sia estratto un campione dalla popolazione generale e il valore x 1–osservato una volta, x 2 -n 2 volte,... x k - n k volte. n = n 1 +n 2 +...+n k – dimensione del campione. Valori osservatisono chiamati opzioni e la sequenza di opzioni scritte in ordine crescente è serie di variazioni. Numero di osservazionisono chiamati frequenze (frequenze assolute) e la loro relazione con la dimensione del campione- frequenze relative O probabilità statistiche.

Se il numero di varianti è elevato o il campione viene prelevato da una popolazione continua, la serie di variazioni viene compilata non da valori puntuali individuali, ma da intervalli di valori nella popolazione. Tale serie di variazioni viene chiamata intervallo. Le lunghezze degli intervalli devono essere uguali.

Distribuzione campionaria statistica chiamato un elenco di opzioni e le loro frequenze corrispondenti o frequenze relative.

La distribuzione statistica può anche essere specificata come una sequenza di intervalli e le frequenze corrispondenti (la somma delle frequenze che rientrano in questo intervallo di valori)

Una serie di variazioni puntuali di frequenze può essere rappresentata da una tabella:

x io
x1
x2

xk
no io
n1
n2

non k

Allo stesso modo, si può immaginare una serie di variazioni puntuali di frequenze relative.

Inoltre:

Esempio:

Il numero di lettere in un certo testo X risultò essere pari a 1000. La prima lettera incontrata era la lettera “i”, la seconda era la lettera “i”, la terza era la lettera “a”, la quarta era “ sì”. Poi vennero le lettere “o”, “e”, “u”, “e”, “s”.

Scriviamo i posti che occupano nell'alfabeto, rispettivamente abbiamo: 33, 10, 1, 32, 16, 6, 21, 31, 29.

Dopo aver ordinato questi numeri in ordine crescente, otteniamo le serie di variazioni: 1, 6, 10, 16, 21, 29, 31, 32, 33.

Frequenze di comparsa delle lettere nel testo: “a” - 75, “e” - 87, “i” - 75, “o” - 110, “u” - 25, “s” - 8, “e” - 3 , “yu” "- 7, "io" - 22.

Creiamo una serie di variazioni puntuali di frequenze:

Esempio:

Distribuzione della frequenza di campionamento del volume specificato n = 20.

Effettuare una serie di variazioni puntuali di frequenze relative.

x io

2

6

12

no io

3

10

7

Soluzione:

Troviamo le frequenze relative:


x io

2

6

12

con io

0,15

0,5

0,35

Quando si costruisce una distribuzione di intervalli, esistono regole per scegliere il numero di intervalli o la dimensione di ciascun intervallo. Il criterio qui è il rapporto ottimale: con un aumento del numero di intervalli, la rappresentatività migliora, ma aumenta il volume dei dati e il tempo di elaborazione. Differenza x max - x min tra il valore più grande e quello più piccolo viene chiamata l'opzione scopo campioni.

Per contare il numero di intervalli K Tipicamente, viene utilizzata la formula empirica di Sturgess (che implica l'arrotondamento all'intero conveniente più vicino): k = 1 + 3.322 logn.

Di conseguenza, la dimensione di ciascun intervallo H può essere calcolato utilizzando la formula:

5. Funzione di distribuzione empirica

Consideriamo alcuni campioni della popolazione generale. Sia nota la distribuzione di frequenza statistica della caratteristica quantitativa X. Introduciamo la notazione: n x– il numero di osservazioni in cui è stato osservato un valore caratteristico inferiore a x; N – numero totale di osservazioni (dimensione del campione). Frequenza relativa dell'evento X<х равна nx/n. Se x cambia, cambia anche la frequenza relativa, cioè frequenza relativanx/n- esiste una funzione di x. Perché si trova empiricamente, quindi si chiama empirico.

Funzione di distribuzione empirica (funzione di distribuzione campionaria) chiamare la funzione, che determina per ogni x la frequenza relativa dell'evento X<х.


dove è il numero di opzioni inferiore a x,

n - dimensione del campione.

In contrasto con la funzione di distribuzione empirica di un campione, viene chiamata la funzione di distribuzione F(x) della popolazione funzione di distribuzione teorica.

La differenza tra le funzioni di distribuzione empiriche e teoriche è che la funzione teorica F (x) determina la probabilità dell'evento X F*(x) tende in probabilità alla probabilità F(x) di questo evento. Cioè, per n grande F*(x) e F(x) differiscono poco l'uno dall'altro.

Quello. È consigliabile utilizzare la funzione di distribuzione empirica del campione per approssimare la funzione di distribuzione teorica (integrale) della popolazione generale.

F*(x) ha tutte le proprietà F(x).

1. Valori F*(x) appartengono all'intervallo.

2. F*(x) è una funzione non decrescente.

3. Se è l'opzione più piccola, allora F*(x) = 0, per x < x1; se x k è l'opzione più grande, allora F*(x) = 1, per x > x k.

Quelli. F*(x) serve a stimare F(x).

Se il campione è dato da una serie di variazioni, allora la funzione empirica ha la forma:

Il grafico di una funzione empirica è chiamato cumulato.

Esempio:

Tracciare una funzione empirica dalla distribuzione campionaria data.


Soluzione:

Dimensione del campione n = 12 + 18 +30 = 60. L'opzione più piccola è 2, ovvero all'x < 2. Evento X<6, (x 1 = 2) наблюдалось 12 раз, т.е. F*(x)=12/60=0,2 alle 2 < X < 6. Evento X<10, (x 1 =2, x 2 = 6) наблюдалось 12 + 18 = 30 раз, т.е.F*(x)=30/60=0,5 при 6 < X < 10. Perché x=10 è quindi l'opzione più grande F*(x) = 1 ax>10. La funzione empirica richiesta ha la forma:

Cumula:


Cumulare consente di comprendere le informazioni presentate graficamente, ad esempio, rispondere alle domande: “Determinare il numero di osservazioni in cui il valore dell'attributo era inferiore a 6 o non inferiore a 6. F*(6) =0,2 "Allora il numero di osservazioni in cui il valore della caratteristica osservata era inferiore a 6 è 0,2* N = 0,2*60 = 12. Il numero di osservazioni in cui il valore della caratteristica osservata era almeno 6 è pari a (1-0,2)* n = 0,8*60 = 48.

Se viene data una serie di variazioni di intervalli, allora per compilare una funzione di distribuzione empirica, si trovano i punti medi degli intervalli e da essi si ottiene la funzione di distribuzione empirica in modo simile a una serie di variazioni puntuali.

6. Poligono e istogramma

Per chiarezza, vengono costruiti vari grafici di distribuzione statistica: polinomiali e istogrammi

Intervallo di frequenze - questa è una linea spezzata, i cui segmenti collegano i punti ( x 1 ; n 1 ), ( x 2 ; n 2 ),…, ( x k ; nk ), dove sono le opzioni e sono le frequenze corrispondenti.

Poligono della frequenza relativa - si tratta di una linea spezzata, i cui segmenti collegano i punti ( x 1 ; w 1 ), ( x 2 ; w 2 ),…, ( x k ; w k ), dove x i sono le opzioni, w i sono le frequenze relative corrispondenti a loro.

Esempio:

Costruisci un polinomio di frequenze relative dalla distribuzione campionaria data:

Soluzione:

Nel caso di una caratteristica continua, è consigliabile costruire un istogramma, per il quale l'intervallo in cui sono contenuti tutti i valori osservati della caratteristica è diviso in più intervalli parziali di lunghezza h e per ogni intervallo parziale si trova n i - la somma delle frequenze delle varianti che rientrano nell'intervallo i-esimo. (Ad esempio, quando si misura l’altezza o il peso di una persona, abbiamo a che fare con un attributo continuo).

Istogramma di frequenza- Questa è una figura a gradini composta da rettangoli, le cui basi sono intervalli parziali di lunghezza h e le altezze sono uguali al rapporto (densità di frequenza).

Piazza L'i-esimo rettangolo parziale è uguale alla somma delle frequenze della i-esima variante dell'intervallo, cioè L'area dell'istogramma di frequenza è uguale alla somma di tutte le frequenze, cioè misura di prova.

Esempio:

Vengono forniti i risultati delle variazioni di tensione (in volt) nella rete elettrica. Effettuare una serie di variazioni, costruire un poligono e un istogramma di frequenza se i valori di tensione sono i seguenti: 227, 215, 230, 232, 223, 220, 228, 222, 221, 226, 226, 215, 218, 220, 216, 220, 225, 212, 217, 220.

Soluzione:

Creiamo una serie di variazioni. Abbiamo n = 20, x min =212, x max =232.

Applichiamo la formula di Sturgess per calcolare il numero di intervalli.

La serie di frequenze a variazione di intervallo ha la forma:


Densità di frequenza

212-21 6

0,75

21 6-22 0

0,75

220-224

1,75

224-228

228-232

0,75

Costruiamo un istogramma di frequenza:

Costruiamo un poligono di frequenza trovando prima i punti medi degli intervalli:


Istogramma della frequenza relativa chiamata figura a gradini costituita da rettangoli, le cui basi sono intervalli parziali di lunghezza h e le altezze sono uguali al rapporto w io/h (densità di frequenza relativa).

Piazza L'i-esimo rettangolo parziale è uguale alla frequenza relativa delle varianti che rientrano nell'i-esimo intervallo. Quelli. l'area dell'istogramma delle frequenze relative è uguale alla somma di tutte le frequenze relative, cioè unità.

7. Caratteristiche numeriche delle serie di variazione

Consideriamo le principali caratteristiche della popolazione generale e del campione.

Secondaria Generaleè detta media aritmetica dei valori caratteristici della popolazione generale.

Per valori diversi x 1, x 2, x 3, ..., x n. caratteristico della popolazione generale di volume N abbiamo:

Se i valori degli attributi hanno frequenze corrispondenti N 1 +N 2 +…+N k =N, allora


Campione medioè chiamata media aritmetica dei valori caratteristici della popolazione campione.

Se i valori caratteristici hanno frequenze corrispondenti n 1 + n 2 +…+ n k = n, allora


Esempio:

Calcolare la media campionaria per il campione: x 1 = 51,12; x2 = 51,07; x3 = 52,95; x4 = 52,93;x5 = 51,1 x6 = 52,98; x7 = 52,29; x8 = 51,23; x9 = 51,07; x10 = 51,04.

Soluzione:

Varianza generaleè chiamata media aritmetica delle deviazioni al quadrato dei valori della caratteristica X della popolazione generale dalla media generale.

Per diversi valori x 1 , x 2 , x 3 , ..., x N della caratteristica della popolazione generale di volume N abbiamo:

Se i valori caratteristici hanno frequenze corrispondenti N 1 +N 2 +…+N k =N, allora

Deviazione standard generale (standard) chiamata radice quadrata della varianza generale

Varianza di campionamentoè chiamata media aritmetica degli scostamenti al quadrato dei valori osservati di una caratteristica dal valore medio.

Per diversi valori x 1 , x 2 , x 3 , ..., x n della caratteristica della popolazione campionaria di volume n abbiamo:


Se i valori caratteristici hanno frequenze corrispondenti n 1 + n 2 +…+ n k = n, allora


Deviazione standard del campione (standard)è detta radice quadrata della varianza campionaria.


Esempio:

La popolazione campione è specificata dalla tabella di distribuzione. Trova la varianza campionaria.


Soluzione:

Teorema: La varianza è pari alla differenza tra i quadrati medi dei valori degli attributi e il quadrato della media complessiva.

Esempio:

Trova la varianza di questa distribuzione.



Soluzione:

8. Stime statistiche dei parametri di distribuzione

Supponiamo che la popolazione generale venga studiata utilizzando un determinato campione. In questo caso è possibile ottenere solo un valore approssimativo del parametro incognito Q, che funge da sua stima. Ovviamente le stime possono variare da un campione all’altro.

Valutazione statisticaQ* Il parametro sconosciuto della distribuzione teorica è chiamato funzione f, che dipende dai valori del campione osservato. Il compito della stima statistica dei parametri sconosciuti da un campione è quello di costruire una funzione dai dati di osservazione statistica disponibili che fornisca i valori approssimativi più accurati dei valori reali, sconosciuti al ricercatore, di questi parametri.

Le stime statistiche sono suddivise in punti e intervalli, a seconda del metodo di presentazione (numero o intervallo).

Un punto è una stima statistica parametro Q della distribuzione teorica determinato da un valore del parametro Q *=f (x 1, x 2, ..., x n), dovex1, x2, ...,xn- i risultati di osservazioni empiriche sulla caratteristica quantitativa X di un determinato campione.

Tali stime dei parametri ottenute da campioni diversi molto spesso differiscono l'una dall'altra. La differenza assoluta è chiamata /Q *-Q / errore di campionamento (stima).

Affinché le stime statistiche producano risultati affidabili sui parametri da stimare, devono essere imparziali, efficienti e coerenti.

Stima puntuale, viene chiamata la cui aspettativa matematica è uguale (non uguale) al parametro stimato non spostato (spostato). M(Q *)=Q .

Differenza M( Q *)-Q viene chiamato parzialità o errore sistematico. Per le stime imparziali, il bias è 0.

Efficace valutazione Q*, che per una data dimensione campionaria n ha la varianza più piccola possibile: D min(n = cost). Lo stimatore efficace ha la varianza più piccola rispetto ad altri stimatori imparziali e coerenti.

Riccochiamiamolo statistico valutazione Q*, che per il ntende con probabilità al parametro stimato Q , cioè. con l’aumento della dimensione del campione N la stima tende con probabilità al vero valore del parametro Q.

Il requisito di coerenza è coerente con la legge dei grandi numeri: maggiori sono le informazioni iniziali sull'oggetto studiato, più accurato sarà il risultato. Se la dimensione del campione è piccola, la stima puntuale del parametro può portare a gravi errori.

Lo adoro campione (volumeN) può essere pensato come un insieme ordinatox1, x2, ...,xn variabili casuali indipendenti identicamente distribuite.

Campione significa per diverse dimensioni del campione N della stessa popolazione sarà diverso. Cioè, la media campionaria può essere considerata una variabile casuale, il che significa che possiamo parlare della distribuzione della media campionaria e delle sue caratteristiche numeriche.

La media campionaria soddisfa tutti i requisiti imposti alle stime statistiche, vale a dire fornisce una stima imparziale, efficiente e coerente della media generale.

Questo può essere dimostrato. Pertanto, la varianza campionaria è una stima distorta della varianza della popolazione, sottostimandola. Cioè, con un campione di piccole dimensioni si produrrà un errore sistematico. Per una stima imparziale e coerente è sufficiente prendere il valore, che prende il nome di varianza corretta. Questo è

In pratica, per stimare la varianza generale, si utilizza la varianza corretta N < 30. In altri casi ( n >30) deviazione da appena percettibile. Pertanto, per valori grandi N l'errore di offset può essere trascurato.

Si può anche dimostrare che la frequenza relativan i / n è una stima di probabilità imparziale e coerente P (X = x i ). Funzione di distribuzione empirica F*(x ) è una stima imparziale e coerente della funzione di distribuzione teorica F(x)=P(X< x ).

Esempio:

Trova stime imparziali del valore atteso e della varianza dalla tabella campione.

x io
no io

Soluzione:

Dimensione del campione n = 20.

Una stima imparziale dell'aspettativa matematica è la media campionaria.


Per calcolare la stima imparziale della varianza, troviamo innanzitutto la varianza campionaria:

Ora troviamo la stima imparziale:

9. Stime intervallari dei parametri di distribuzione

L'intervallo è una stima statistica determinata da due valori numerici: le estremità dell'intervallo in esame.

Numero> 0, per cui | Q - Q *|< , caratterizza l'accuratezza della stima intervallare.

Fidatochiamato intervallo , che con una data probabilitàcopre il valore del parametro sconosciuto Q . Complementare un intervallo di confidenza all'insieme di tutti i possibili valori di un parametro Q chiamato zona critica. Se la regione critica si trova solo su un lato dell'intervallo di confidenza, viene chiamato intervallo di confidenza unilaterale: lato sinistro, se la regione critica esiste solo a sinistra, e destrorso se non altro a destra. Altrimenti viene chiamato l'intervallo di confidenza bilaterale.

Affidabilità, o livello di confidenza, stima Q (usando Q *) è la probabilità con cui è soddisfatta la seguente disuguaglianza: | Q - Q *|< .

Molto spesso, la probabilità di confidenza viene fissata in anticipo (0,95; 0,99; 0,999) e le viene imposto il requisito di essere vicina a uno.

Probabilitàchiamato probabilità di errore o livello di significatività.

Lascia | Q - Q *|< , Poi. Ciò significa che con probabilitàsi può sostenere che il vero valore del parametro Q appartiene all'intervallo. Minore è la deviazione, tanto più accurata è la stima.

Vengono chiamati i confini (estremità) dell'intervallo di confidenza limiti di confidenza o limiti critici.

I valori dei limiti dell'intervallo di confidenza dipendono dalla legge di distribuzione del parametro Q*.

Valore di deviazionepari alla metà dell'ampiezza dell'intervallo di confidenza accuratezza della valutazione.

I metodi per costruire gli intervalli di confidenza furono sviluppati per la prima volta dallo statistico americano Yu Neumann. Accuratezza della stima, probabilità di confidenza e dimensione del campione n collegati tra loro. Pertanto, conoscendo i valori specifici di due quantità, puoi sempre calcolare la terza.

Trovare un intervallo di confidenza per stimare l'aspettativa matematica di una distribuzione normale se la deviazione standard è nota.

Si prenda un campione da una popolazione generale soggetta alla legge della distribuzione normale. Si noti la deviazione standard generale, ma l'aspettativa matematica della distribuzione teorica è sconosciuta UN ().

La seguente formula è corretta:

Quelli. secondo un dato valore di deviazionesi può trovare con quale probabilità la media generale sconosciuta appartiene all'intervallo. E viceversa. Dalla formula è chiaro che con l'aumentare della dimensione del campione e un valore fisso della probabilità di confidenza, il valore- diminuisce, cioè la precisione della valutazione aumenta. Con l'aumentare dell'affidabilità (probabilità di confidenza), il valore-aumenta, cioè la precisione della valutazione diminuisce.

Esempio:

Come risultato dei test, sono stati ottenuti i seguenti valori -25, 34, -20, 10, 21. È noto che obbediscono alla legge della distribuzione normale con una deviazione standard di 2. Trova la stima a* per l'aspettativa matematica a. Costruisci per esso un intervallo di confidenza al 90%.

Soluzione:

Troviamo una stima imparziale

Poi


L'intervallo di confidenza per a è: 4 – 1,47< UN< 4+ 1,47 или 2,53 < a < 5, 47

Trovare un intervallo di confidenza per stimare l'aspettativa matematica di una distribuzione normale se la deviazione standard è sconosciuta.

Si sappia che la popolazione generale è soggetta alla legge della distribuzione normale, dove a e. Precisione dell'intervallo di confidenza che copre con affidabilitàil vero valore del parametro a, in questo caso, si calcola con la formula:

, dove n è la dimensione del campione, , - Coefficiente di studente (va ricavato dai valori indicati n e dalla tabella “Punti critici della distribuzione degli Studenti”).

Esempio:

Come risultato dei test, sono stati ottenuti i seguenti valori -35, -32, -26, -35, -30, -17. È noto che obbediscono alla legge della distribuzione normale. Trova l'intervallo di confidenza per l'aspettativa matematica a della popolazione con una probabilità di confidenza pari a 0,9.

Soluzione:

Troviamo una stima imparziale.

Lo troveremo.

Poi

L'intervallo di confidenza assumerà la forma(-29,2 - 5,62; -29,2 + 5,62) o (-34,82; -23,58).

Trovare l'intervallo di confidenza per la varianza e la deviazione standard di una distribuzione normale

Si prenda un campione casuale di volume da una certa popolazione generale di valori distribuiti secondo la legge normaleN < 30, per il quale vengono calcolate le varianze campionarie: distortee corretto s 2. Quindi, per trovare stime intervallari con una data affidabilitàper la varianza generaleDdeviazione standard generaleVengono utilizzate le seguenti formule.


O,

Valori- trovato utilizzando una tabella di valori dei punti criticiDistribuzioni di Pearson.

L'intervallo di confidenza per la varianza si trova da queste disuguaglianze elevando al quadrato tutti i lati della disuguaglianza.

Esempio:

È stata controllata la qualità di 15 bulloni. Supponendo che l'errore nella loro fabbricazione sia soggetto alla legge di distribuzione normale e alla deviazione standard del campioneuguale a 5 mm, determinare in modo affidabileintervallo di confidenza per un parametro sconosciuto

Rappresentiamo i confini dell'intervallo sotto forma di una doppia disuguaglianza:

Gli estremi dell'intervallo di confidenza bilaterale per la varianza possono essere determinati senza eseguire operazioni aritmetiche per un dato livello di confidenza e dimensione del campione utilizzando la tabella appropriata (Limiti degli intervalli di confidenza per la varianza in base al numero di gradi di libertà e affidabilità) . Per fare ciò, gli estremi dell'intervallo ottenuto dalla tabella vengono moltiplicati per la varianza corretta s 2.

Esempio:

Risolviamo il problema precedente in modo diverso.

Soluzione:

Troviamo la varianza corretta:

Utilizzando la tabella "Limiti degli intervalli di confidenza per la dispersione in base al numero di gradi di libertà e affidabilità", troveremo i confini dell'intervallo di confidenza per la dispersione aK=14 e: limite inferiore 0,513 e limite superiore 2,354.

Moltiplichiamo i confini risultanti pers 2 ed estrai la radice (poiché abbiamo bisogno di un intervallo di confidenza non per la varianza, ma per la deviazione standard).

Come si può vedere dagli esempi, la dimensione dell'intervallo di confidenza dipende dal metodo di costruzione e fornisce risultati simili, ma disuguali.

Per campioni di dimensioni sufficientemente grandi (N>30) i limiti dell'intervallo di confidenza per la deviazione standard generale possono essere determinati dalla formula: - un certo numero che viene tabulato e riportato nella corrispondente tabella di riferimento.

Se 1- Q<1, то формула имеет вид:

Esempio:

Risolviamo il problema precedente nel terzo modo.

Soluzione:

Trovato in precedenzaS= 5,17. Q(0,95; 15) = 0,46 – trovato dalla tabella.

Poi:

Si tratta di una scienza che, sulla base dei metodi della teoria della probabilità, si occupa della sistematizzazione e dell'elaborazione di dati statistici per ottenere conclusioni scientifiche e pratiche.

Dati statistici si riferisce alle informazioni sul numero di oggetti che hanno determinate caratteristiche .

Viene chiamato un gruppo di oggetti uniti secondo qualche caratteristica qualitativa o quantitativa totalità statistica . Gli oggetti inclusi in una raccolta sono chiamati i suoi elementi e il loro numero totale è il suo volume.

Popolazione generaleè l'insieme di tutte le osservazioni concepibilmente possibili che potrebbero essere fatte in un dato insieme di condizioni reali o più rigorosamente: la popolazione generale è la variabile casuale x e lo spazio di probabilità associato (W, Á, P).

Si chiama la distribuzione di una variabile casuale x distribuzione della popolazione(si parla, ad esempio, di una popolazione distribuita normalmente o semplicemente normale).

Ad esempio, se vengono effettuate numerose misurazioni indipendenti di una variabile casuale X, allora la popolazione generale è teoricamente infinita (cioè la popolazione generale è un concetto astratto, convenzionalmente matematico); se viene controllato il numero di prodotti difettosi in un lotto di N prodotti, allora questo lotto viene considerato come una popolazione generale finita di volume N.

Nel caso della ricerca socioeconomica, la popolazione generale del volume N può essere la popolazione di una città, regione o paese, e le caratteristiche misurate possono essere il reddito, le spese o l’ammontare dei risparmi di una singola persona. Se qualche attributo è di natura qualitativa (ad esempio, genere, nazionalità, status sociale, occupazione, ecc.), ma appartiene a un insieme finito di opzioni, allora può anche essere codificato come un numero (come spesso si fa nei questionari ).

Se il numero di oggetti N è sufficientemente grande, è difficile e talvolta fisicamente impossibile condurre un sondaggio completo (ad esempio, controllare la qualità di tutte le cartucce). Quindi un numero limitato di oggetti vengono selezionati casualmente dall'intera popolazione e sottoposti a studio.

Popolazione campione o semplicemente campionamento di volume n è una sequenza x 1 , x 2 , ..., x n di variabili casuali indipendenti identicamente distribuite, la distribuzione di ciascuna delle quali coincide con la distribuzione della variabile casuale x.

Ad esempio, i risultati delle prime n misurazioni di una variabile casuale XÈ consuetudine considerarlo come un campione di dimensione n proveniente da una popolazione infinita. I dati ottenuti vengono chiamati osservazioni di una variabile casuale x, e dicono anche che la variabile casuale x “assume i valori” x 1, x 2, …, x n.


Il compito principale della statistica matematica è trarre conclusioni scientificamente fondate sulla distribuzione di una o più variabili casuali sconosciute o sulla loro relazione reciproca. Il metodo che consiste nel fatto che, in base alle proprietà e alle caratteristiche del campione, si traggono conclusioni sulle caratteristiche numeriche e sulla legge di distribuzione di una variabile casuale (popolazione generale) è chiamato con metodo selettivo.

Affinché le caratteristiche di una variabile casuale ottenuta con il metodo del campionamento siano oggettive, è necessario che il campione lo sia rappresentante quelli. rappresentato abbastanza bene la quantità studiata. In virtù della legge dei grandi numeri, si può sostenere che il campione sarà rappresentativo se verrà effettuato in modo casuale, cioè Tutti gli oggetti della popolazione hanno la stessa probabilità di essere inclusi nel campione. A questo scopo esistono diversi tipi di selezione del campione.

1. Semplice il campionamento casuale è una selezione in cui gli oggetti vengono selezionati uno alla volta dall'intera popolazione.

2. Stratificato (stratificato) selezione è che la popolazione originaria del volume N è divisa in sottoinsiemi (strati) N 1, N 2,...,N k, in modo che N 1 + N 2 +...+ N k = N. Quando gli strati sono determinati, da ciascuno di essi si estrae un campione casuale semplice di volume n 1, n 2, ..., nk. Un caso speciale di selezione stratificata è la selezione tipica, in cui gli oggetti vengono selezionati non dall'intera popolazione, ma da ciascuna parte tipica di essa.

Selezione combinata combina diversi tipi di selezione contemporaneamente, formando diverse fasi di un'indagine campionaria. Esistono altri metodi di campionamento.

Il campione viene chiamato ripetuto , se l'oggetto selezionato viene restituito alla popolazione prima di selezionare quello successivo. Il campione viene chiamato ripetibile , se l'oggetto selezionato non viene restituito alla popolazione. Per una popolazione finita, la selezione casuale senza reversione porta ad ogni passo alla dipendenza delle singole osservazioni, mentre la selezione casuale con reversione porta all'indipendenza delle osservazioni. In pratica si tratta solitamente di campioni non ripetitivi. Tuttavia, quando la dimensione della popolazione N è molte volte maggiore della dimensione del campione n (ad esempio, centinaia o migliaia di volte), la dipendenza delle osservazioni può essere trascurata.

Pertanto, un campione casuale x 1, x 2, ..., x n è il risultato di osservazioni sequenziali e indipendenti di una variabile casuale ξ, che rappresenta la popolazione generale, e tutti gli elementi del campione hanno la stessa distribuzione della variabile casuale originale X.

Chiameremo la funzione di distribuzione F x (x) e altre caratteristiche numeriche della variabile casuale x teorico, A differenza di caratteristiche del campione , che sono determinati dai risultati delle osservazioni.

Sia il campione x 1, x 2, ..., x k il risultato di osservazioni indipendenti di una variabile casuale x, e x 1 sia stato osservato n 1 volte, x 2 - n 2 volte, ..., x k - n k volte , quindi n i = n - dimensione del campione. Viene chiamato il numero n i che mostra quante volte il valore x i è apparso in n osservazioni frequenza dato valore e il rapporto n i /n = w io - frequenza relativa. Ovviamente i numeri w sono razionale e.

Viene chiamata una popolazione statistica organizzata in ordine crescente di una caratteristica serie di variazioni . I suoi membri sono indicati x (1), x (2), ... x (n) e sono chiamati opzioni . La serie di variazioni viene chiamata discreto, se i suoi membri assumono specifici valori isolati. Distribuzione statistica campionamento di una variabile casuale discreta X chiamato un elenco di opzioni e le relative frequenze relative corrispondenti w io. Viene chiamata la tabella risultante statisticamente vicino.

X (1) x(2) ... xk(k)
ω1 ω2 ... ωk

I valori più grande e più piccolo della serie di variazioni sono indicati con x min e x max e sono chiamati membri estremi della serie di variazione.

Se si studia una variabile casuale continua, il raggruppamento consiste nel dividere l'intervallo dei valori osservati in k intervalli parziali di uguale lunghezza h e contare il numero di osservazioni che rientrano in questi intervalli. I numeri risultanti sono presi come frequenze n i (per alcune variabili casuali nuove e già discrete). I valori medi degli intervalli vengono solitamente presi come nuovi valori per l'opzione x i (o gli intervalli stessi sono indicati nella tabella). Secondo la formula di Sturges, il numero consigliato di intervalli di partizione è k » 1 + log 2 N, e le lunghezze degli intervalli parziali sono pari a h = (x max - x min)/k. Si presuppone che l'intero intervallo abbia la forma .

Graficamente, le serie statistiche possono essere presentate sotto forma di poligono, istogramma o grafico delle frequenze accumulate.

Poligono di frequenza chiamata linea spezzata, i cui segmenti collegano i punti (x 1, n 1), (x 2, n 2), ..., (x k, n k). Poligono frequenze relative chiamata linea spezzata, i cui segmenti collegano i punti (x 1, w 1), (x2, w 2), …, (xk, w K). I poligoni solitamente servono a rappresentare un campione nel caso di variabili casuali discrete (Fig. 7.1.1).

Riso. 7.1

.1.

Istogramma della frequenza relativaè una figura a gradini costituita da rettangoli, le cui basi sono intervalli parziali di lunghezza h, e le altezze

pari w io/h.

Un istogramma viene solitamente utilizzato per rappresentare un campione nel caso di variabili casuali continue. L'area dell'istogramma è uguale a uno (Fig. 7.1.2). Se colleghi i punti medi dei lati superiori dei rettangoli su un istogramma di frequenze relative, la linea spezzata risultante forma un poligono di frequenze relative. Pertanto, un istogramma può essere visualizzato come un grafico densità di distribuzione empirica (campione). fn(x). Se la distribuzione teorica ha una densità finita, allora la densità empirica è una certa approssimazione di quella teorica.

Grafico delle frequenze accumulateè una figura costruita in modo simile ad un istogramma con la differenza che per calcolare le altezze dei rettangoli non si prendono quelli semplici, ma frequenze relative accumulate, quelli. le quantità Questi valori non diminuiscono e il grafico delle frequenze accumulate ha la forma di una “scala” a gradini (da 0 a 1).

Il grafico delle frequenze accumulate viene utilizzato in pratica per approssimare la funzione di distribuzione teorica.

Compito. Viene analizzato un campione di 100 piccole imprese della regione. Lo scopo dell'indagine è misurare il rapporto tra fondi presi in prestito e fondi propri (xi) in ciascuna i-esima impresa. I risultati sono presentati nella Tabella 7.1.1.

Tavolo Rapporti tra debito e capitale proprio delle imprese.

5,56 5,45 5,48 5,45 5,39 5,37 5,46 5,59 5,61 5,31
5,46 5,61 5,11 5,41 5.31 5,57 5,33 5,11 5,54 5,43
5,34 5,53 5,46 5,41 5,48 5,39 5,11 5,42 5,48 5,49
5,36 5,40 5,45 5,49 5,68 5,51 5,50 5,68 5,21 5,38
5,58 5,47 5,46 5,19 5,60 5,63 5,48 5,27 5,22 5,37
5,33 5,49 5,50 5,54 5,40 5.58 5,42 5,29 5,05 5,79
5,79 5,65 5,70 5,71 5,85 5,44 5,47 5,48 5,47 5,55
5,67 5,71 5,73 5,05 5,35 5,72 5,49 5,61 5,57 5,69
5,54 5,39 5,32 5,21 5,73 5,59 5,38 5,25 5,26 5,81
5,27 5,64 5,20 5,23 5,33 5,37 5,24 5,55 5,60 5,51

Costruisci un istogramma e un grafico delle frequenze accumulate.

Soluzione. Costruiamo una serie raggruppata di osservazioni:

1. Determiniamo nel campione x min = 5,05 ex max = 5,85;

2. Dividiamo l'intero intervallo in k intervalli uguali: k » 1 + log 2 100 = 7,62; k = 8, quindi la lunghezza dell'intervallo

Tabella 7.1.2. Serie raggruppate di osservazioni

Numero dell'intervallo Intervalli Punti medi degli intervalli x i w io fn(x)
5,05-5,15 5,1 0,05 0,05 0,5
5,15-5,25 5,2 0,08 0,13 0,8
5,25-5,35 5,3 0,12 0,25 1,2
5,35-5,45 5,4 0,20 0,45 2,0
5,45-5,55 5,5 0,26 0,71 2,6
5,55-5,65 5,6 0,15 0,86 1,5
5,65-5,75 5,7 0,10 0,96 1,0
5,75-5,85 5,8 0,04 1,00 0,4

Nella fig. 7.1.3 e 7.1.4, costruiti secondo i dati della Tabella 7.1.2, presentano un istogramma e un grafico delle frequenze accumulate. Le curve corrispondono alla densità e alla funzione di distribuzione normale "adattate" ai dati.

Pertanto, la distribuzione campionaria è una certa approssimazione della distribuzione della popolazione.

Popolazione– un insieme di elementi che soddisfano determinate condizioni specificate; detta anche popolazione in studio. Popolazione generale (Universo) - l'intero insieme di oggetti (soggetti) di ricerca, da cui vengono selezionati (possono essere selezionati) oggetti (soggetti) per un sondaggio (sondaggio).

CAMPIONE O popolazione campione(Campione) è un insieme di oggetti (soggetti) selezionati in modo speciale per un sondaggio (indagine). Tutti i dati ottenuti sulla base di un'indagine campionaria (indagine) sono di natura probabilistica. In pratica, ciò significa che durante lo studio non viene determinato un valore specifico, ma l'intervallo in cui si trova il valore determinato.

Caratteristiche del campione:

Caratteristiche qualitative del campione: cosa scegliamo esattamente e quali metodi di campionamento utilizziamo per questo.

Caratteristiche quantitative del campione: quanti casi selezioniamo, in altre parole, dimensione del campione.

Necessità di campionamento:

L'oggetto di studio è molto vasto. Ad esempio, i consumatori dei prodotti di un’azienda globale sono rappresentati da un numero enorme di mercati geograficamente dispersi.

È necessario raccogliere informazioni primarie.

Misura di prova- il numero di casi inclusi nella popolazione campione.

Campioni dipendenti e indipendenti.

Quando si confrontano due (o più) campioni, un parametro importante è la loro dipendenza. Se è possibile stabilire una coppia omomorfa (cioè quando un caso del campione X corrisponde a uno e un solo caso del campione Y e viceversa) per ciascun caso in due campioni (e questa base di relazione è importante per il tratto misurato nei campioni), tali campioni vengono chiamati dipendente.

Se non esiste tale relazione tra i campioni, vengono presi in considerazione questi campioni indipendente.

Tipi di campionamento.

I campioni si dividono in due tipologie:

probabilistico;

Non probabilistico;

Campione rappresentativo- un campione di popolazione in cui le caratteristiche principali coincidono con le caratteristiche della popolazione generale. Solo per questa tipologia di campione i risultati di un'indagine su alcune unità (oggetti) possono essere estesi all'intera popolazione. Una condizione necessaria per costruire un campione rappresentativo è la disponibilità di informazioni sulla popolazione generale, vale a dire o un elenco completo di unità (soggetti) della popolazione generale o informazioni sulla struttura in base a caratteristiche che influenzano significativamente la relazione con l'oggetto della ricerca.

17. Serie di variazioni discrete, ordine, frequenza, particolarità.

Serie di variazioni(serie statistica) – è una sequenza di opzioni scritte in ordine crescente e i relativi pesi.

La serie di variazioni può essere discreto(campionamento dei valori di una variabile casuale discreta) e continuo (intervallo) (campionamento dei valori di una variabile casuale continua).

La serie di variazioni discrete ha la forma:

Vengono chiamati i valori osservati della variabile casuale x1, x2, ..., xk opzioni, e la modifica di questi valori viene chiamata per variazione.

Campione(campione) – un insieme di osservazioni selezionate casualmente dalla popolazione.

Il numero di osservazioni in una popolazione è chiamato volume.

N– volume della popolazione generale.

N– dimensione del campione (somma di tutte le frequenze della serie).

Frequenza opzioni xi è chiamato numero ni (i=1,...,k), a indicare quante volte questa opzione ricorre nel campione.

Frequenza(frequenza relativa, quota) delle varianti xi (i=1,…,k) è il rapporto tra la sua frequenza ni e la dimensione del campione n.
w io=n io/N

Classifica dei dati sperimentali- un'operazione consistente nel fatto che i risultati delle osservazioni su una variabile casuale, cioè i valori osservati di una variabile casuale, sono disposti in ordine non decrescente.

Serie di variazioni discrete la distribuzione è un insieme classificato di opzioni xi con le frequenze o i dettagli corrispondenti.