Referensi : Pengenalan Konsep Pembelajaran Mesin dan Deep Learning (Jan Wira Gotama Putra)
1. Tujuan [back]
1. Memahami algoritma machine learning Autoencoder
2. Alat dan Bahan [back]
Alat yang digunakan pada pembelajaran ini adalah software Matlab
3. Dasar Teori [back]
MATLAB merupakan bahasa pemrograman tingkat tinggi yang dikembangkan oleh MathWorks dan dikhususkan untuk komputasi numerik, visualisasi, dan pemrograman.
AUTOENCODER
Autoencoder adalah model machine learning yang berfungsi untuk mereduksi dimensi data.
1. Representation Learning
Representation learning adalah mengubah suatu representasi menjadi bentuk representasi lain yang ekuvalen, tetapi berdimensi lebih rendah; sedemikian sehingga informasi yang terdapat pada representasi asli tidak hilang/terjaga. Ide dasar teknik ini bermula dari dekomposisi matriks pada aljabar linear.
2. Singular Value Decomposition
Matriks A adalah kumpulan eigenvector dan λ adalah sebuah diagonal matriks yang berisi ni- lai eigenvalue.
U disebut
left-singular vectors yang tersusun atas eigenvector dari XXT .
Sementara, W disebut right-singular vectors yang tersusun atas eigenvector dari
XT X.
3. Ide Dasar Autoencoder
Ide dasar autoencoder tidak jauh dari konsep dekom- posisi/dimentionality reduction menggunakan singular value decomposition.
y adalah output dari jaringan dan Z adalah dimensi output, N adalah banyaknya sampel
dan xi adalah data ke-i (feature vector
ke-i).
Dimana f melambangkan fungsi aktivasi dan θ adalah ANN (kumpulan weight matrices).
Hubungan autoencoder dan singular value decomposition (analogi).
4. Resisting Perturbation
Contoh gambar dari Resisting Perturbation
Autoencoder yang
memiliki sifat resistance to
perturbation, yaitu invarian terhadap sedikit perubahan
Yang mengilustrasikan invariant to slight changes dimana suatu elips melambangkan manifolds.
Embedding adalah transformasi kata (beserta konteksnya)
menjadi bentuk matematis (vektor).
5.1 Vector Space Mode
Pemodelan ini
digunakan sebuah matriks dimana baris melambangkan kata, kolom melambangkan
dokumen.T iap sel pada matriks berisi nilai 1 atau 0. 1 apabila katai muncul di
dokumeni dan 0 apabila tidak.
5.2 Sequential, Time Series dan Compositionality
Sequential data adalah sifat data dimana suatu
kemunculan datai dipengaruhi oleh data sebelumnya.
Data yang memenuhi sifat compositionality berarti
memiliki struktur hirarkis. Struktur hirarkis ini menggambarkan bagaimana
unit-unit lebih kecil berinteraksi sebagai satu kesatuan.
5.3 Distributed Word Representation
Word2vec merepresentasikan kata sebagai vektor,
sehingga kita dapat melakukan operasi matematis terhadap kata. Encodernya
berbentuk Continous bag of words (CBOW) atau Skip-gram. Pada CBOW, kata
diprediksi jika diberikan suatu
“konteks”. Pada arsitektur ”Skip-gram” konteks diprediksi jika diberikan suatu
kata.
5.4 Distributed Sentence Representation
Cara lainnya adalah meng-encode kalimat sebagai
vektor menggunakan recursive autoencoder. Recursive berarti suatu bagian adalah
komposisi dari bagian lainnya.
Pada setiap langkah recursive, hidden layer/coding layer berusaha men-decode atau merekonstruksi kembali vektor input.
Tidak ada komentar:
Posting Komentar