Apa yang telah kita bahas diatas memiliki hubungan dengan apa isi artikel yang akan saya uraikan. Adalah robot indexing programs, crawler dan spiders. Sebuah rogram-program kecil yang berkerumun keluar ke Internet untuk mencari setiap situs web, caching dan me-logging informasi situs web ke dalam database mereka. Sering dibuat oleh mesin pencari untuk membantu halaman indeks, mereka berkeliaran internet dengan bebas dan merangkak semua situs web sepanjang waktu.
Biasanya ini merupakan bagian yang bisa diterima di internet, tetapi beberapa mesin pencari yang begitu agresif dapat meningkatkan konsumsi bandwidth. Dan beberapa bot berbahaya, contohnya mencuri foto dari situs web atau alamat email sehingga mereka dapat melakukan spam. Cara termudah untuk memblokir bot ini adalah dengan membuat file robots.txt sederhana yang berisi petunjuk untuk memblokir bot:
User-agent: *
Disallow:
Namun, ada beberapa hal yang salah dengan pendekatan ini. Salah satunya adalah bahwa bot masih bisa meng-hits situs, Anda bisa mengabaikan untuk membuat file robots.txt Anda dan keinginan Anda untuk tidak diindeks.
Tapi ada kabar baik. Jika Anda berada di sebuah server IIS 7, Anda memiliki alternatif lain. Anda dapat menggunakan RequestFiltering setting yang disediakan pada IIS 7. Bekerja pada sebagian tingkat yang lebih tinggi dari layanan web dan tidak dapat dilewati oleh bot.
Untuk setup nya cukup sederhana, dan cara termudah dan tercepat untuk memulai Rule ReqestFiltering Anda adalah memberi kode ke dalam file web.config aplikasi Anda. Unsur RequestFiltering berjalan di dalam elemen <system.webServer> <security>. Jika Anda tidak memiliki ini dalam file aplikasi web.config Anda, maka Anda harus membuatnya. Setelah itu yang harus Anda lakukan adalah menciptakan skema ini untuk setup rules RequestFiltering Anda.
<requestFiltering>
<filteringRules>
<filteringRule name="BlockSearchEngines" scanUrl="false" scanQueryString="false">
<scanHeaders>
<clear />
<add requestHeader="User-Agent" />
</scanHeaders>
<appliesTo>
<clear />
</appliesTo>
<denyStrings>
<clear />
<add string="YandexBot" />
</denyStrings>
</filteringRule>
</filteringRules>
</requestFiltering>
<authentication>
<basicAuthentication enabled="true" />
<anonymousAuthentication enabled="true" />
</authentication>
Anda dapat menamakan pengaturan filtering dengan nama apa pun yang Anda ingin dan di elemen “requestHeader” Anda perlu memastikan bahwa Anda mendefinisikan “User-Agent.” Dalam elemen “add string” Anda harus menentukan nama User Agent . Dalam contoh ini saya set ke YandexBot yang mem-block mesin pencarian yang berasal dari Rusia. Anda juga dapat memblokir mesin pencari seperti Googlebot atau BingBot.
Jika Anda ingin melihat apakah pengaturan ini berhasil memblokir bot, Anda akan perlu untuk men-download log HTTP dari server dan menguraikannya untuk mencari header User-Agent. Jika Anda scroll ke kiri dan menemukan header SC-Status (kode status) Anda akan melihat respon 404 HTTP. Selain header juga akan membawa sc-substatus yang akan menjadi kode substatus ke kode respon HTTP primer.
Berikut adalah daftar kode substatus potensial Anda mungkin Anda lihat ketika Anda mengatur RequestFiltering Anda.
JaringanHosting.com adalah provider ASP.NET dan Windows hosting No #1 di Indonesia. Web Hosting kami mendapatkan Microsoft Spotlight Award dari Microsoft dan ini berdasarkan pada beberapa persyaratan utama, yaitu: WebMatrix, WebDeploy, Visual Studio 2015, ASP.NET 4.6, ASP.NET MVC 6, Silverlight 5 and Visual Studio Lightswitch.
Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation.
0 komentar:
Posting Komentar