TF*IDF adalah singkatan dari Term Frequency-Inverse Document Frequency. Ini adalah metode yang digunakan dalam analisis teks untuk mengukur pentingnya kata-kata dalam suatu dokumen dalam konteks korpus dokumen yang lebih besar. TF*IDF menghitung skor untuk setiap kata dalam dokumen berdasarkan frekuensi kemunculannya dalam dokumen itu sendiri (TF) dan frekuensi kemunculannya dalam korpus keseluruhan (IDF). Skor TF*IDF yang lebih tinggi menunjukkan bahwa kata tersebut lebih penting dalam dokumen tersebut.
Pengertian Term Frequency (TF)
Term Frequency (TF) adalah ukuran yang digunakan untuk mengetahui seberapa sering sebuah kata muncul dalam suatu dokumen. Hal ini dapat dihitung dengan membagi jumlah kemunculan kata tersebut dalam dokumen dengan total jumlah kata dalam dokumen tersebut. Misalnya, jika kata “machine learning” muncul 10 kali dalam sebuah dokumen yang berisi 100 kata, maka TF dari kata tersebut adalah 10/100 = 0.1.
Pengertian Inverse Document Frequency (IDF)
Inverse Document Frequency (IDF) adalah ukuran yang digunakan untuk mengetahui seberapa umum sebuah kata dalam korpus dokumen. Hal ini dapat dihitung dengan membagi total jumlah dokumen dalam korpus dengan jumlah dokumen yang mengandung kata tersebut, dan mengambil logaritma dari hasilnya. Rumus umum IDF adalah log(N / n), di mana N adalah jumlah total dokumen dalam korpus dan n adalah jumlah dokumen yang mengandung kata tersebut. Semakin sedikit jumlah dokumen yang mengandung kata tersebut, semakin tinggi nilai IDF-nya.
Pengertian TF*IDF Score
TF*IDF Score adalah hasil perkalian antara skor Term Frequency (TF) dan Inverse Document Frequency (IDF) untuk sebuah kata dalam dokumen. Rumus umumnya adalah TF * IDF. Misalnya, jika kata “machine learning” memiliki skor TF sebesar 0.1 dan skor IDF sebesar 2, maka skor TF*IDF untuk kata tersebut adalah 0.1 * 2 = 0.2.
Kelebihan dan Kelemahan TF*IDF
TF*IDF memiliki beberapa kelebihan sebagai metode ekstraksi fitur dalam analisis teks. Pertama, ia memberikan bobot yang lebih tinggi bagi kata-kata yang jarang muncul dalam korpus dokumen, sehingga dapat mengidentifikasi kata-kata kunci yang khas untuk dokumen tertentu. Kedua, ia tidak memperhatikan urutan kata-kata, sehingga dapat digunakan dalam dokumen yang memiliki struktur yang tidak teratur, seperti artikel berita atau media sosial. Namun, metode ini juga memiliki beberapa kelemahan. Pertama, ia tidak memperhitungkan arti atau konteks kata-kata dalam dokumen. Misalnya, kata yang mungkin memiliki frekuensi tinggi dalam suatu dokumen dapat memiliki skor TF*IDF yang rendah jika kata tersebut juga umum dalam korpus dokumen. Kedua, metode ini dapat menghasilkan skor yang tidak stabil jika terdapat dokumen-dokumen yang sangat pendek.
Penggunaan TF*IDF dalam Pencarian Informasi
Satu aplikasi penting dari TF*IDF adalah dalam pencarian informasi, di mana ia digunakan untuk memberikan peringkat pada dokumen berdasarkan relevansinya dengan kata kunci yang dicari. Dalam hal ini, skor TF*IDF digunakan untuk menghitung seberapa relevan kata kunci dengan dokumen-dokumen dalam korpus. Dokumen-dokumen dengan skor TF*IDF yang lebih tinggi untuk kata kunci memiliki kemungkinan lebih tinggi untuk menjadi hasil pencarian yang relevan. Sebagai contoh, jika kata kunci adalah “machine learning”, dokumen yang sering menyebutkan kata tersebut dan jarang menyebutkan kata-kata lain akan memiliki skor TF*IDF yang tinggi untuk kata tersebut dan akan lebih mungkin muncul dalam hasil pencarian.
Penggunaan TF*IDF dalam Pengelompokan Dokumen
TF*IDF juga dapat digunakan dalam pengelompokan dokumen atau klasifikasi teks. Dalam hal ini, skor TF*IDF digunakan untuk mewakili dokumen sebagai vektor fitur. Setiap komponen vektor adalah skor TF*IDF dari kata tertentu dalam dokumen. Dengan menggunakan vektor fitur ini, teknik pemelajaran mesin seperti k-means clustering atau naive Bayes classifier dapat digunakan untuk mengelompokkan dokumen berdasarkan kesamaan dalam pola kata-kata yang mereka miliki.
Contoh Penggunaan TF*IDF
Sebagai contoh, mari kita asumsikan kita memiliki korpus dokumen yang terdiri dari 3 dokumen sebagai berikut:
Dokumen 1: “Machine learning is a subset of artificial intelligence that focuses on the development of algorithms that allow computers to learn from and make predictions or decisions based on data.”
Dokumen 2: “Artificial intelligence, or AI, is the ability of a computer system to perform tasks that would normally require human intelligence.”
Dokumen 3: “The field of machine learning is closely related to statistics and mathematics, as it involves the analysis of data and the development of models to make predictions.”
Jika kita ingin menghitung skor TF*IDF untuk kata “machine learning” dalam setiap dokumen, langkah-langkah yang dapat diambil adalah sebagai berikut:
- Menghitung TF: Jumlah kemunculan kata “machine learning” dalam dokumen, dibagi dengan total jumlah kata dalam dokumen.
- Menghitung IDF: Logaritma dari total jumlah dokumen dalam korpus, dibagi dengan jumlah dokumen yang mengandung kata “machine learning”.
- Menghitung skor TF*IDF: Mengalikan skor TF dengan skor IDF.
Setelah menghitung langkah-langkah ini untuk setiap dokumen, kita akan mendapatkan skor TF*IDF untuk kata “machine learning” dalam masing-masing dokumen. Dengan membandingkan skor ini, kita dapat mengetahui seberapa penting kata tersebut dalam masing-masing dokumen.