Statistik Deskriptif
Statistik adalah
sekumpulan prosedur untuk mengumpulkan, mengukur, mengklasifikasi,
menghitung, menjelaskan, mensintesis, menganalisis, dan menafsirkan data
kuantitatif yang diperoleh secara sistematis. Secara garis besar,
statistik dibagi menjadi dua komponen utama, yaitu Statistik Deskriptif dan Statistik inferensial. Statistik deskriptif menggunakan prosedur numerik dan grafisdalam meringkas gugus data dengan cara yang jelas dan dapat dimengerti, sementara Statistik inferensial menyediakan prosedur untuk menarik kesimpulan tentang populasi berdasarkan sampel yang kita amati. Statistik Deskriptif membantu
kita untuk menyederhanakan data dalam jumlah besar dengan cara yang
logis. Data yang banyak direduksi dan diringkas sehingga lebih sederhana
dan lebih mudah diinterpretasi.
Terdapat dua metode dasar dalam statistik deskriptif, yaitu numerik dan grafis.
- Pendekatan numerik dapat digunakan untuk menghitung nilai statistik dari sekumpulan data, seperti mean dan standar deviasi. Statistik ini memberikan informasi tentang rata-rata dan informasi rinci tentang distribusi data.
- Metode grafis lebih sesuai daripada metode numerik untuk mengidentifikasi pola-pola tertentu dalam data, dilain pihak, pendekatan numerik lebih tepat dan objektif. Dengan demikian, pendekatan numerik dan grafis satu sama lain saling melengkapi, sehingga sangatlah bijaksana apabila kita menggunakan kedua metode tersebut secara bersamaan.
Terdapat tiga karakteristik utama dari variabel tunggal:
- Distribusi data (distribusi frekuensi)
- Ukuran pemusatan/tendensi sentral (Central Tendency)
- Ukuran penyebaran (Dispersion)
Info: Bahasan selengkapnya akan diuraikan pada topik tersendiri…
Distribusi Data
Pengaturan,
penyusunan, dan peringkasan data dengan membuat tabel seringkali
membantu, terutama pada saat kita bekerja dengan sejumlah data yang
besar. Tabel tersebut berisi daftar nilai data yang mungkin berbeda
(baik data tunggal ataupun data yang sudah dikelompok-kelompokan)
beserta nilai frekuensinya. Frekuensi menunjukkan banyaknya
kejadian/kemunculan nilai data dengan kategori tertentu. Distribusi data
yang sudah diatur tersebut sering disebut dengan distribusi frekuensi.
Dengan demikian, Distribusi frekuensi didefinisikan sebagai daftar
sebaran data (baik data tunggal maupun data kelompok), yang disertai
dengan nilai frekuensinya. Data dikelompokkan ke dalam beberapa kelas
sehingga ciri-ciri penting data tersebut dapat segera terlihat.
Distribusi frekuensi yang paling sederhana adalah distribusi yang
menampilkan daftar setiap nilai dari variabel yang disertai dengan nilai
frekuensinya. Distribusi frekuensi dapat digambarkan dalam dua cara, yaitu sebagai tabel atau sebagai grafik.
Distribusi juga dapat ditampilkan dengan menggunakan nilai persentase.
Penyajian distribusi dalam bentuk grafik lebih mempermudah dalam melihat
karakteristik dan kecenderungan tertentu dari sekumpulan data. Grafik
data kuantitatif meliputi Histogram, Poligon Frekuensi dll, sedangkan
grafik untuk data kualitatif meliputi Bar Chart, Pie Chart dll.
Distribusi frekuensi akan memudahkan kita dalam melihat pola dalam data,
namun demikian, kita akan kehilangan informasi dari nilai individunya.
Bentuk Distribusi
Aspek
penting dari "deskripsi" suatu variabel adalah bentuk distribusinya,
yang menunjukkan frekuensi dari berbagai selang nilai variabel.
Biasanya, seorang peneliti yang tertarik pada seberapa baik distribusi
dapat diperkirakan oleh distribusi normal. Statistik deskriptif
sederhana dapat memberikan beberapa informasi yang relevan dengan
masalah ini. Sebagai contoh, jika skewness (kemiringan), yang mengukur
kesimetrisan distribusi data, tidak sama dengan 0, maka distribusi
dikatakan tidak simetris (a simetris), dan apabila skewness
bernilai 0 berarti data tersebut berdistribusi normal (simetris). Jika
kurtosis (keruncingan), yang mengukur keruncingan distribusi data, tidak
sama dengan 0, maka distribusi data mungkin lebih datar atau lebih
runcing dibandingkan dengan distribusi normal. Nilai kurtosis dari
distribusi normal adalah 0. Informasi yang lebih akurat dapat diperoleh
dengan menggunakan salah satu uji normalitas yaitu untuk menentukan
peluang apakah sampel berasal dari pengamatan populasi yang
berdistribusi normal ataukah tidak (misalnya, uji Kolmogorov-Smirnov,
atau uji Shapiro-Wilks'W) . Namun, di antara uji formal tersebut tidak
ada satu pun yang dapat sepenuhnya menggantikan pemeriksaan data secara
visual dengan menggunakan cara grafis, seperti histogram (grafik yang
menunjukkan distribusi frekuensi dari variabel). Grafik (Histogram,
misalnya) memungkinkan kita untuk mengevaluasi normalitas dari
distribusi empiris karena pada histogram tersebut disertakan juga
overlay kurva normalnya. Hal ini juga memungkinkan kita untuk memeriksa
berbagai aspek dari bentuk distribusi data secara kualitatif. Sebagai
contoh, distribusi dapat bimodal (memiliki 2 puncak) ataupun multimodal
(lebih dari 2 puncak). Hal ini menunjukkan bahwa sampel tidak homogen
dan unsur-unsurnya berasal dari dua populasi yang berbeda.
Ukuran Pemusatan (Central Tendency)
Salah
satu aspek yang paling penting untuk menggambarkan distribusi data
adalah nilai pusat pengamatan. Setiap pengukuran aritmatika yang
ditujukan untuk menggambarkan suatu nilai yang mewakili nilai pusat atau
nilai sentral dari suatu gugus data (himpunan pengamatan) dikenal
sebagai ukuran tendensi sentral. Terdapat tiga jenis ukuran tendensi sentral yang sering digunakan, yaitu:
- Mean
- Median
- Mode
Rata-rata hitung atau arithmetic mean atau sering disebut dengan istilah mean saja
merupakan metode yang paling banyak digunakan untuk menggambarkan
ukuran tendensi sentral. Mean dihitung dengan menjumlahkan semua nilai
data pengamatan kemudian dibagi dengan banyaknya data. Mean dipengaruhi oleh nilai ekstrem. Median adalah
nilai yang membagi himpunan pengamatan menjadi dua bagian yang sama
besar, 50% dari pengamatan terletak di bawah median dan 50% lagi
terletak di atas median. Median dari n pengukuran atau pengamatan x1, x2 ,..., xn adalah nilai pengamatan yang terletak di tengah gugus data setelah data tersebut diurutkan. Apabila banyaknya pengamatan (n) ganjil, median terletak tepat ditengah gugus data, sedangkan bila n genap, median diperoleh dengan cara interpolasi yaitu rata-rata dari dua data yang berada di tengah gugus data. Median tidak dipengaruhi oleh nilai ekstrem. Mode adalah
data yang paling sering muncul/terjadi. Untuk menentukan modus, pertama
susun data dalam urutan meningkat atau sebaliknya, kemudian hitung
frekuensinya. Nilai yang frekuensinya paling besar (sering muncul)
adalah modus. Modus digunakan baik untuk tipe data numerik atau pun data
kategoris. Modus tidak dipengaruhi oleh nilai ekstrem.
Karakteristik penting untuk ukuran pusat yang baik
Ukuran nilai pusat (average) merupakan nilai pewakil dari suatu distribusi data, sehingga harus memiliki sifat-sifat berikut:
- Harus mempertimbangkan semua gugus data
- Tidak boleh terpengaruh oleh nilai-nilai ekstrim.
- Harus stabil dari sampel ke sampel.
- Harus mampu digunakan untuk analisis statistik lebih lanjut.
Dari
beberapa ukuran nilai pusat, Mean hampir memenuhi semua persyaratan
tersebut, kecuali syarat pada point kedua, rata-rata dipengaruhi oleh
nilai ekstrem. Sebagai contoh, jika item adalah 2; 4; 5; 6; 6; 6; 7; 7;
8; 9 maka mean, median dan modus yang semua sama dengan 6. Jika nilai
terakhir adalah 90 bukan 9, rata-rata akan menjadi 14.10, sedangkan
median dan modus yang tidak berubah. Meskipun median dan modus lebih
baik dalam hal ini, namun mereka tidak memenuhi persyaratan lainnya.
Oleh karena itu Mean merupakan ukuran nilai pusat yang terbaik dan
sering digunakan dalam analisis statistik.
Kapan kita menggunakan nilai pusat yang berbeda?
Nilai
ukuran pusat yang tepat untuk digunakan tergantung pada sifat data,
sifat distribusi frekuensi dan tujuan. Jika data kualitatif, hanya modus
yang dapat digunakan. Sebagai contoh, apabila kita tertarik untuk
mengetahui jenis tanah yang khas di suatu lokasi, atau pola tanam di
suatu daerah, kita dapat menggunakan modus. Di sisi lain, jika data
bersifat kuantitatif, kita dapat menggunakan salah satu dari ukuran
nilai pusat tersebut. Jika data bersifat kuantitatif, kita harus
mempertimbangkan sifat distribusi frekuensi gugus data tersebut.
- Bila distribusi frekuensi data tidak normal (tidak simetris), median atau modus merupakan ukuran pusat yang tepat.
- Apabila terdapat nilai-nilai ekstrim, baik kecil atau besar, lebih tepat menggunakan median atau modus.
- Apabila distribusi data normal (simetris), semua ukuran nilai pusat, baik mean, median, atau modus dapat digunakan. Namun, mean lebih sering digunakan dibanding yang lainnya karena lebih memenuhi persyaratan untuk ukuran pusat yang baik.
- Ketika kita berhadapan dengan laju, kecepatan dan harga lebih tepat menggunakan rata-rata harmonik.
Jika
kita tertarik pada perubahan relatif, seperti dalam kasus pertumbuhan
bakteri, pembelahan sel dan sebagainya, rata-rata geometrik adalah
rata-rata yang paling tepat.
M. Hilmi Renaldi
Prodi Peternakan
Fakultas Pertanian
Universitas Syiah Kuala
M. Hilmi Renaldi
Prodi Peternakan
Fakultas Pertanian
Universitas Syiah Kuala