Cara Setting Robots txt di WordPress Lengkap

Robots txt adalah salah satu elemen penting dalam pengaturan situs web yang berperan dalam mengontrol akses mesin pencari dan web crawler terhadap konten di situs Anda.

Dalam artikel ini, kita akan membahas secara mendalam tentang apa itu Robots.txt, pentingnya dalam SEO, serta cara setting Robots txt di WordPress.

Cara Setting Robots txt di WordPress

Mengatur file Robots txt di WordPress dapat dilakukan melalui beberapa langkah sederhana. Anda bisa menggunakan plugin atau mengunggah file secara manual.

1. Menggunakan Plugin untuk Setting Robots.txt

Pilih Plugin: Instal dan aktifkan plugin SEO populer seperti “Yoast SEO” atau “All in One SEO Pack”.
Buka Pengaturan: Setelah diaktifkan, pergi ke pengaturan plugin tersebut di dasbor WordPress.
Edit File Robots.txt: Di bagian pengaturan, Anda akan menemukan opsi untuk mengedit atau menambahkan aturan ke file Robots.txt.

2. Mengunggah Manual File Robots.txt

Buat File: Buat file teks bernama “robots.txt” menggunakan editor teks biasa atau aplikasi pengelolaan file.
Tambahkan Aturan: Tambahkan aturan-aturan yang diinginkan sesuai panduan yang telah disebutkan sebelumnya.
Unggah ke Root: Unggah file “robots.txt” ke direktori utama situs web Anda melalui FTP atau panel pengelolaan file di hosting.

Rule File Robots.txt di WordPress

Dalam bagian ini, kita akan membahas tentang aturan yang dapat ditetapkan dalam file Robots.txt di WordPress. Aturan-aturan ini mengatur bagaimana bot dan web crawler harus berperilaku saat mengindeks situs web Anda.

Di bawah ini adalah beberapa contoh aturan yang dapat diterapkan dalam file Robots txt di WordPress:

User-agent: *

Aturan ini merujuk kepada semua jenis bot dan web crawler yang mengunjungi situs Anda. Tanda bintang (*) sebagai user-agent berarti aturan ini berlaku secara umum untuk semua bot yang mengindeks situs Anda.

Disallow: /private/

Aturan ini menggunakan perintah “Disallow” untuk melarang akses bot ke direktori “private” di situs Anda. Ini berarti semua bot yang mengikuti aturan ini tidak diizinkan untuk mengakses halaman-halaman yang berada dalam direktori “private.” Ini berguna ketika Anda memiliki konten yang tidak boleh diindeks atau diakses oleh mesin pencari.

Allow: /public/

Aturan ini menggunakan perintah “Allow” untuk memberikan izin khusus kepada bot untuk mengakses dan mengindeks halaman-halaman yang berada dalam direktori “public.” Meskipun ada aturan “Disallow” sebelumnya, Anda ingin memastikan bahwa konten yang diinginkan untuk ditampilkan dalam hasil pencarian tetap diizinkan diakses oleh bot.

Sitemap: https://contoh.com/sitemap.xml

Perintah “Sitemap” digunakan untuk memberi tahu bot mengenai lokasi sitemap situs Anda. Sitemap adalah file yang berisi daftar URL halaman di situs Anda, yang membantu mesin pencari mengindeks situs dengan lebih efisien.

Crawl-delay: 5

Perintah “Crawl-delay” menunjukkan berapa detik yang harus diambil oleh bot sebelum mengakses halaman berikutnya. Dalam contoh ini, bot harus menunggu 5 detik sebelum mengakses halaman lain. Ini dapat digunakan untuk mengendalikan frekuensi akses bot ke situs Anda dan menghindari beban berlebih pada server.

Host: contoh.com

Perintah “Host” digunakan untuk menunjukkan nama domain situs yang relevan dengan aturan yang diberikan. Ini berguna dalam situasi di mana Anda memiliki beberapa subdomain atau domain yang terkait.

Semua aturan tersebut adalah contoh-contoh bagaimana aturan-aturan dalam file Robots.txt dapat disusun di WordPress. Penting untuk memahami secara tepat bagaimana aturan-aturan ini berfungsi dan bagaimana mereka dapat memengaruhi cara bot dan web crawler berinteraksi dengan situs Anda. Dengan menggunakan aturan ini secara cerdas, Anda dapat mengoptimalkan pengalaman pengguna, mengarahkan pengindeksan mesin pencari, dan menjaga privasi konten sensitif.

Contoh Penggunaan Robots txt

Contoh pengaturan aturan di file Robots.txt:

User-agent: *
Disallow: /private/
Allow: /public/

User-agent: *: Aturan ini berlaku untuk semua jenis bot dan web crawler.
Disallow: /private/: Ini akan mencegah bot mengakses konten pada direktori “private”.
Allow: /public/: Ini memberi izin khusus kepada bot untuk mengakses direktori “public”.

User-agent: Googlebot
Disallow: /private/
Allow: /public/

Aturan ini ditujukan khusus kepada bot Google, yaitu Googlebot. Dalam hal ini, Googlebot diizinkan untuk mengakses halaman-halaman dalam direktori “public,” tetapi tidak diizinkan untuk mengakses halaman-halaman dalam direktori “private.” Ini adalah contoh penggunaan aturan khusus untuk bot tertentu.

Pengaturan Penggunaan Robots txt untuk Blogger

Jika Anda menggunakan platform Blogger, Anda bisa mengatur file Robots.txt dengan cara yang sama seperti di WordPress. Masuk ke Pengaturan > Preferensi Penelusuran > Preferensi mesin pencari > Edit.

Cara Mengecek File Robots.txt

Untuk memeriksa apakah file Robots.txt telah diatur dengan benar di WordPress atau website lain, Anda dapat membuka browser dan mengakses URL https://contoh.com/robots.txt. Pastikan file tersebut berisi aturan-aturan yang sesuai dengan kebutuhan situs Anda.

Apa itu Robots txt dan Pentingnya dalam SEO

Apa itu Robots.txt?

Robots.txt adalah file teks khusus yang ditempatkan di akar domain situs web Anda. File ini berisi instruksi kepada web crawler atau bot mesin pencari mengenai bagian-bagian dari situs yang boleh atau tidak boleh diindeks. Dengan kata lain, Robots.txt membantu mengontrol bagaimana mesin pencari menjelajahi dan mengindeks halaman-halaman di situs Anda.

Letak File Robots.txt

File Robots.txt harus ditempatkan di direktori utama (root) situs web Anda. URL lengkapnya akan menjadi: https://contoh.com/robots.txt.

Alasan Menggunakan Robots.txt

1. Mengarahkan Bot dan Web Crawler ke Konten yang Diinginkan

Saat mesin pencari seperti Google, Bing, dan lainnya mengunjungi situs web Anda, mereka menggunakan bot atau web crawler untuk menjelajahi dan mengindeks konten. Namun, tidak semua halaman di situs Anda mungkin relevan untuk ditampilkan dalam hasil pencarian.

Dengan menggunakan file Robots.txt, Anda dapat memberi instruksi kepada bot tentang halaman-halaman yang perlu diindeks dan diikuti, serta halaman-halaman yang sebaiknya dihindari. Ini membantu memfokuskan perhatian mesin pencari pada konten yang paling penting dan relevan.

2. Menjaga Privasi Konten Sensitif

Tidak semua halaman di situs web Anda harus dapat diakses oleh publik atau diindeks oleh mesin pencari. Beberapa halaman mungkin berisi informasi sensitif seperti data pengguna, informasi keuangan, atau konten eksklusif yang ditujukan hanya untuk anggota tertentu.

Dengan menggunakan aturan “Disallow” di file Robots.txt, Anda dapat menghentikan mesin pencari dan bot lainnya dari mengakses halaman-halaman ini. Ini adalah cara yang efektif untuk menjaga privasi dan mencegah informasi sensitif tersebar ke publik atau dalam hasil pencarian.

3. Mengontrol Penampilan Situs dalam Hasil Pencarian

Dalam konteks SEO, kontrol yang lebih besar atas bagaimana situs Anda ditampilkan dalam hasil pencarian adalah kunci. Dengan mengizinkan atau melarang akses tertentu, Anda dapat memastikan bahwa halaman-halaman yang paling penting dan relevan bagi Anda tampil dengan baik dalam hasil pencarian.

Misalnya, Anda dapat memastikan bahwa halaman-halaman produk, konten utama, dan halaman yang ingin Anda promosikan muncul di hasil pencarian, sementara halaman-halaman administratif atau kategori yang kurang relevan tidak muncul.

4. Meningkatkan Efisiensi Pengindeksan

Saat mesin pencari mengunjungi situs Anda, mereka menghabiskan sumber daya seperti waktu dan kapasitas server untuk menjelajahi dan mengindeks konten. Dengan mengarahkan bot hanya ke halaman-halaman yang penting, Anda dapat mengurangi beban server dan mengoptimalkan kecepatan pengindeksan.

Ini penting karena semakin efisien mesin pencari menjelajahi situs Anda, semakin cepat perubahan konten baru akan terlihat dalam hasil pencarian.

5. Menghindari Konten Duplikat

Robots.txt juga dapat membantu mencegah masalah konten duplikat dalam indeks mesin pencari. Terkadang, halaman yang serupa atau identik dapat muncul di berbagai bagian situs Anda, dan ini bisa merugikan SEO Anda.

Dengan mengarahkan bot untuk hanya mengindeks halaman-halaman yang penting dan relevan, Anda dapat menghindari masalah duplikasi konten yang dapat merusak peringkat pencarian Anda.

Manfaat Menggunakan Robots.txt

Peningkatan SEO: Dengan mengarahkan mesin pencari hanya ke halaman-halaman yang relevan, Anda dapat meningkatkan kualitas indeks situs Anda dalam hasil pencarian.
Menghemat Sumber Daya: Mengarahkan web crawler hanya ke halaman yang penting dapat mengurangi beban server dan waktu yang dibutuhkan untuk pengindeksan.
Perlindungan Privasi: Anda dapat mencegah mesin pencari mengakses konten sensitif atau halaman administratif.
Menghindari Konten Duplikat: Robots.txt membantu menghindari indeks ganda atau duplikat konten yang dapat merugikan SEO.

Fungsi dari File Robots.txt dalam Konteks SEO

Dalam konteks SEO, Robots.txt digunakan untuk mengontrol bagian-bagian situs yang diperbolehkan atau tidak diperbolehkan oleh mesin pencari untuk diindeks.

Ini membantu memastikan bahwa konten yang ingin Anda tampilkan di hasil pencarian adalah konten yang relevan dan berkualitas.

Interaksi dengan Mesin Pencari dan Web Crawler

Mengirimkan Robots.txt ke Google

Setelah Anda mengatur file Robots.txt, Anda dapat menggunakan Google Search Console untuk memverifikasi file tersebut dan mengirimkan sitemap situs Anda. Ini membantu memastikan bahwa aturan-aturan Anda diterapkan dengan benar oleh mesin pencari.

Bagaimana Cara Kerja Mesin Crawler?

Mesin crawler bekerja dengan mengikuti aturan-aturan yang ada dalam file Robots.txt. Mereka akan mengunjungi URL yang diizinkan dan menghindari URL yang dilarang.

Pentingnya Robots.txt dalam Mengarahkan Crawler

Robots.txt adalah alat yang kuat untuk mengarahkan mesin crawler menuju konten yang relevan dan mencegah akses pada halaman yang tidak perlu diindeks. Dengan mengatur file ini dengan bijak, Anda dapat meningkatkan kualitas indeks situs Anda dan mengoptimalkan kinerja SEO.

Apa yang Dimaksud dengan Robots.txt pada Web Scraping?

Dalam konteks web scraping, “Robots.txt” adalah sebuah file teks yang ditempatkan di direktori utama situs web dan berfungsi sebagai panduan atau pedoman untuk pengumpul data otomatis, yang biasanya disebut “web scraper.” Robots.txt membantu mengatur dan mengontrol akses web scraper ke berbagai bagian dari situs web.

Web Scraping: Web scraping adalah proses mengambil informasi dari halaman-halaman web dan menyimpannya dalam format yang dapat diolah. Ini sering digunakan untuk mengumpulkan data, seperti harga produk, ulasan pelanggan, atau informasi lainnya dari berbagai situs web.

Dalam hal ini, Robots.txt berperan sebagai pengaturan etika dan menghormati privasi situs web. Banyak situs web ingin mengontrol bagaimana data mereka diakses dan digunakan oleh pihak ketiga. Beberapa situs mungkin ingin membatasi akses web scraper ke bagian-bagian tertentu dari situs mereka, sementara yang lain mungkin ingin melarang pengumpulan data mereka sepenuhnya.

Menghindari Pengambilan Data Secara Berlebihan atau Tanpa Izin

Robots.txt membantu menghindari pengambilan data yang berlebihan atau tidak sah dari situs Anda oleh web scraper yang tidak diizinkan. Dengan menetapkan aturan “Disallow” pada direktori atau halaman tertentu dalam file Robots.txt, Anda dapat mencegah web scraper mengakses dan mengambil data dari bagian-bagian sensitif atau yang tidak diinginkan dari situs Anda.

Contoh penggunaan adalah ketika Anda memiliki situs web e-commerce dan ingin melindungi data harga dan stok produk dari pengumpulan yang berlebihan oleh pesaing atau pihak ketiga. Dalam hal ini, Anda dapat menambahkan aturan “Disallow” untuk mencegah akses web scraper ke halaman produk atau direktori yang berisi data tersebut.

Perlunya Etika dalam Web Scraping

Penting untuk diingat bahwa etika dan kepatuhan hukum berperan penting dalam web scraping. Penggunaan web scraper yang tidak etis atau tidak sah dapat merugikan reputasi situs web Anda dan melanggar hukum perlindungan data. Oleh karena itu, menghormati aturan yang diatur dalam file Robots.txt adalah langkah awal yang penting dalam menjalankan web scraping dengan etika.

Dengan mengikuti panduan di atas, Anda sekarang memiliki pemahaman yang kuat tentang apa itu Robots.txt, bagaimana cara mengatur file ini di WordPress, serta bagaimana pengaruhnya terhadap interaksi dengan mesin pencari dan web crawler. Dengan menggunakan Robots.txt secara efektif, Anda dapat meningkatkan visibilitas dan kualitas indeks situs web Anda dalam hasil pencarian.

6 pemikiran pada “Cara Setting Robots txt di WordPress Lengkap”

duniadigitalis
16 Juni 2024 pada 2:39 pm
Kalau untuk wordpress gratisan apakah bisa juga dipasang custom robot.txt ????
- Irvan Taufik
  26 Juni 2024 pada 9:00 pm
  kurang tahu kalau wordpress gratisan (wordpress.com). Kalau ga salah sih ga ada opsi untuk edit robots txt disana
Mursi
1 November 2023 pada 7:04 pm
Maaf mas mau tanya…
Hosting yang digunakan di website ini apakah shared hosting atau cloud hosting?
Dan untuk website yang memiliki traffic tinggi, apa hosting yang direkomendasikan?
Terimakasih.
- Irvan Taufik
  10 November 2023 pada 4:48 pm
  ini kebetulan nebeng di salah satu vps vultr saya om.
  Hosting indo sekarang kayaknya udah cukup bagus om untuk website trafik tinggi. Sejauh ini sy rasain Jetorbit, Dewaweb, idcloudhost bagus untuk trafik 10k/day ke atas, tapi web saya cuma informasi aja, jadi visitor ga ada interaksi lain selain baca
wahyuddin
22 Oktober 2023 pada 4:20 am
kaks bagaimana cara penulisan perintah robot untuk bot ahrefs…
beberapa bulan ini situs saya tidak bisa di index ahrefs…
- Irvan Taufik
  10 November 2023 pada 5:01 pm
  bisa coba cek di ahrefs.com/robot, keblok ngga disana.
  kalau perlu bisa setting juga di robots txt, tambahin ini
  User-agent: AhrefsBot
  Allow: /
  Biasanya kalau webnya di daftarin ke Ahrefs webmaster (gratis) ntar otomatis di crawl sama Ahrefs. Kita bisa setting juga kapan dan seberapa sering di crawl oleh Ahrefs di sana

Komentar ditutup.