3/02/2026

Fungsi estimation dan fitting pada SEM

Apa itu “model” dan “parameter”?

Kita punya model (hubungan yang kita duga) misalnya bentuk umum: suatu variabel hasil y dipengaruhi variabel lain x, plus “error” (gangguan).

Angka-angka di model yang belum kita tahu disebut parameter (contoh: koefisien pengaruh, varians error, kovarians antar faktor, dll).

Angka yang ingin kita cari itu disebut parameter. Intinya:

  • Kita punya data nyata (hasil pengukuran)
  • Kita punya model dugaan
  • Tugas kita adalah mencari parameter supaya model “paling cocok” dengan data


Kenapa kita butuh “estimasi”?

Di dunia nyata, kita tidak tahu nilai parameter sebenarnya (nilai “populasi”).

Kita hanya punya sampel (data dari sebagian orang/siswa).

Jadi kita melakukan estimasi = menebak parameter dengan cara yang masuk akal berdasarkan data.


Matriks kovarians sampel S

Materi ini banyak memakai ringkasan data bernama matriks kovarians sampel, disingkat S.

Anggap S itu seperti “tabel ringkasan hubungan” antar variabel:

  • Ukuran: (p+q)×(p+q) 
  • Diagonal: varians (seberapa menyebar suatu variabel).
  • Diluar diagonal: kovarians (seberapa dua variabel bergerak bersama).

Sifat S:

  • bentuknya kotak, simetris
  • isinya bisa berubah karena: kebetulan sampel (sampling fluctuation), hubungan tidak linear, outlier (data ekstrem), data yang “sangat berpengaruh” (influential).


Matriks kovarians “hasil model” Σ(θ)

Kalau S adalah ringkasan dari data asli, maka:

Σ(θ) adalah ringkasan yang diprediksi oleh model, tergantung parameter θ.

Jadi ada dua “ringkasan”:

  • S = yang kita lihat dari data
  • Σ(θ) = yang dihasilkan model (kalau parameternya θ)


Tujuan utama estimasi: membuat Σ(θ) sedekat mungkin dengan S (residual matrix)

Kita ingin selisihnya kecil:

residual = S − Σ(θ)

Kalau model cocok, residu ini “kecil” (mendekati nol).

Kuncinya:

Estimasi itu intinya meminimalkan “jarak” antara S dan Σ(θ).

Masalahnya: “jarak” itu bisa dihitung dengan beberapa cara. Cara menghitung jarak inilah yang disebut fitting function.


Apa itu “fitting function”?

Fitting function = rumus untuk mengukur seberapa tidak cocok model dengan data.

Kalau nilai fitting function makin kecil, berarti: model makin cocok (karena Σ(θ) makin dekat ke S).

Tiga fitting function:

  • Maximum Likelihood (ML)
  • Unweighted Least Squares (ULS)
  • Generalized Least Squares (GLS)


1. Maximum Likelihood (ML)

- Ide utama

ML itu memilih parameter yang membuat data kita paling “mungkin terjadi” jika model benar.

Analogi:

  • kita menebak aturan permainan
  • ML memilih aturan yang membuat hasil permainan yang kamu lihat jadi paling masuk akal

- Hal penting yang diasumsikan ML

  • S dan Σ(θ) harus positive definite (matriksnya “bagus” sehingga bisa dihitung invers (^−1) dan log determinan (log∣⋅∣))
  • Variabel teramati biasanya diasumsikan normal multivariat (MVN)

Kenapa penting?

  • Karena rumus ML butuh invers (Σ(θ)^−1) dan log determinan (log∣Σ(θ)∣) 
  • Kalau matriks “bermasalah”, bisa muncul peringatan seperti log(0) atau tidak bisa diinvers

- Kelebihan ML

  • Unbiased & konsisten (asymptotically): sampel makin besar → estimasi mendekati nilai benar
  • Efisien (varians estimasi kecil dibanding metode lain, saat asumsi terpenuhi)
  • Mendukung uji statistik (uji signifikansi, uji kecocokan model/ overall fit untuk model yang over-identified)
  • Scale invariant: ganti satuan (misal USD ke EUR) tidak mengubah inti hasil (hanya skala)
  • Scale free: transformasi linear pada prediktor tidak “merusak” makna estimasi (ada hubungan transformasi yang jelas)


2. Unweighted Least Squares (ULS)

- Ide utama ULS

ULS meminimalkan jumlah kuadrat dari setiap elemen residual S−Σ(θ).

Jika “unweighted” artinya: semua elemen residual dianggap sama penting (tidak ada pembobotan khusus).

Ini mirip OLS di regresi: cari parameter yang membuat selisih prediksi vs data sekecil mungkin (dengan kuadrat).

Analogi:

Kamu menilai ketidakcocokan dengan menjumlahkan semua “kesalahan”, semuanya dihitung setara.

- Kelebihan & kekurangan ULS

Kelebihan:

Tidak bergantung kuat pada asumsi distribusi normal.

Kekurangan:

  • kurang efisien (biasanya kalah bagus dari ML/GLS saat asumsi terpenuhi)
  • tidak scale invariant dan tidak scale free
  • tidak ada paket uji signifikansi yang langsung enak dipakai seperti ML.


3. Generalized Least Squares (GLS)

- Ide utama 

GLS = ULS tapi pakai “bobot”

GLS juga meminimalkan residual, tetapi memakai weight matrix (matriks bobot) W^−1

Intuisi penting:

  • ULS menganggap semua elemen residual punya “tingkat ketelitian” sama
  • GLS mengizinkan tiap elemen residual punya variasi/ketelitian berbeda, jadi dibobot

Analogi:

  • Kalau ada pengukuran yang kurang akurat, kamu “kurangi pengaruhnya” dengan bobot lebih kecil
  • Jika ada pengukuran yang lebih akurat, bobotnya lebih besar

- Kelebihan & kekurangan GLS (sesuai slide)

Kelebihan (saat asumsi terpenuhi):

  • konsisten, efisien
  • bisa dilakukan pengujian
  • scale invariant & scale free

Kekurangan:

  • sensitif terhadap kurtosis (data “berekor tebal”, banyak nilai ekstrem)
  • perilaku pada sampel kecil kurang pasti (menurut slide)


Ringkasan

Jika sampel besar dan variabel ~ normal multivariat serta i.i.d. → ML biasanya pilihan utama

Jika beberapa asumsi tidak terpenuhi → ULS bisa jadi alternatif

Jika ada masalah seperti varians tidak konstan/ingin pembobotan → GLS

Logika GLS ini juga jadi dasar estimator untuk data kategorikal seperti WLS / WLSMV


Estimator alternatif ketika data tidak “normal”

  • Jika data skew / kurtotic / non-normal (tapi masih lumayan kontinu/ordinal):
  • gunakan metode “robust” (contoh di lavaan: MLR, kadang MLF).
  • Jika data benar-benar kategorikal/ordinal (misal: Ya/Tidak, atau skala 1–5 yang dianggap kategori):
  • gunakan WLS / DWLS / WLSMV (weighted least squares versi robust).


Jika outcome kategorikal: konsep latent response & threshold

Kalau variabel hasil yang kita amati berupa kategori (misal: 1–5, atau Ya/Tidak), model membayangkan ada skor kontinu “tersembunyi”:

  • y^∗ = latent response variable (kontinu)
  • y (yang terlihat) = kategori yang muncul karena y^∗ melewati ambang tertentu.

Misal kategori:

  • y=1 jika ≤ τ1 (rendah)
  • ​y=2 jika τ1 < y^∗ ≤ τ2 (sedikit lebih tinggi)

​dst.

Threshold τ ini lah parameter yang ikut diestimasi.


Koefisien determinasi R^2 di SEM

Catatan:

Untuk tiap outcome yi, kita bisa hitung ukuran “seberapa banyak variasi yi dijelaskan oleh prediktor” = R^2.

Sifat R^2:

  • bisa sensitif (terutama jika angka kecil),
  • tidak selalu bagus dipakai sebagai “rata-rata kualitas model”, karena tiap outcome punya R^2 sendiri.


Koefisien terstandar (standardized coefficient)

Koefisien asli (unstandardized) sulit dibandingkan jika skala variabel beda:

Contoh:

Penjelasan:

Gender (0/1), GPA (0–4), nilai matematika (misal 0–100 atau 500/1000).

Koefisien terstandar mengubahnya ke satuan simpangan baku (SD). 

Interpretasi:

Jika X naik 1 SD, maka Y berubah berapa SD.

Rumus (dengan σ diambil dari SD yang diprediksi model):


Intercepts (konstanta) dan mean structure

Sebelumnya model hanya fokus pada kovarians (hubungan/variasi).

Kadang kita juga ingin memodelkan rata-rata.

Maka kita tambahkan: intercept (konstanta awal) untuk variabel-variabel.

Intinya: selain mencocokkan “pola hubungan”, kita juga mencocokkan “level rata-rata”.

Sampai sini, gambaran umum dari model adalah:

Kita dapat menambahkan intersep ke model kita, dan melanjutkan seperti biasa:

Contoh:





This entry was posted in

0 komentar:

Posting Komentar

Berkomentarlah dengan baik dan sopan ya ^^

View My Stats