
Image by Marco Verch, from Ccnull
Labirin AI: Alat Baru Cloudflare Menipu Penjelajah AI Dengan Halaman Web Palsu
Cloudflare telah mengumumkan “AI Labyrinth,” sebuah alat yang dirancang untuk melawan web scraper berbasis AI yang mengekstrak data dari situs web tanpa izin.
Terburu-buru? Berikut ini fakta-fakta singkatnya:
- Alat ini menghasilkan konten buatan AI yang realistis tapi tidak berguna untuk membuang-buang waktu scraper.
- AI Labyrinth menargetkan bot yang mengabaikan robots.txt, termasuk dari Anthropic dan Perplexity AI.
- Ini berfungsi sebagai honeypot generasi berikutnya, mendeteksi dan mengidentifikasi crawler yang tidak berwenang.
Alih-alih langsung memblokir bot-bot ini, AI Labyrinth malah menjerumuskannya ke dalam labirin tanpa henti dari halaman yang dihasilkan AI, membuang-buang waktu dan daya komputasi mereka.
“Ketika kami mendeteksi crawling yang tidak sah, alih-alih memblokir permintaan, kami akan menautkan ke serangkaian halaman yang dihasilkan oleh AI yang cukup meyakinkan untuk memancing crawler untuk menelusurinya,” jelas Cloudflare dalam sebuah postingan blog.
“Namun, meskipun tampak nyata, konten ini bukanlah konten sebenarnya dari situs yang kami lindungi, sehingga crawler membuang waktu dan sumber daya,” tambah Cloudflare.
ArsTechnica mencatat bahwa AI scraper menjadi masalah karena mereka mengumpulkan jumlah data yang sangat besar dari situs web, seringkali tanpa izin, untuk melatih model AI. Hal ini menciptakan beberapa masalah: dapat melanggar hak kekayaan intelektual, melewati kontrol yang digunakan pemilik situs web untuk mengatur akses.
Selain itu, scraping dapat menyebabkan penyalahgunaan data sensitif atau proprietary. Volume scraping telah meningkat secara dramatis, dengan Cloudflare melaporkan lebih dari 50 miliar permintaan crawler setiap hari.
Ekstraksi data skala besar ini menguras sumber daya website, mempengaruhi kinerja situs dan privasi sambil berkontribusi pada kekhawatiran yang berkembang tentang eksploitasi data dalam pengembangan AI.
Sementara pemilik website secara tradisional mengandalkan file robots.txt untuk memberi tahu bot apa yang dapat dan tidak dapat mereka akses, banyak perusahaan AI—termasuk pemain besar seperti Anthropic dan Perplexity AI—telah dituduh mengabaikan direktif ini, seperti yang dilaporkan oleh The Verge.
Labirin AI Cloudflare menawarkan pendekatan yang lebih agresif dalam menangani bot-bot yang tidak diinginkan ini. Alat ini berfungsi sebagai “honeypot generasi berikutnya,” yang menarik bot lebih dalam ke dalam jaringan konten buatan yang tampak nyata tetapi pada akhirnya tidak berguna untuk pelatihan AI.
Berbeda dengan honeypot tradisional, yang sudah dapat dikenali oleh bot, Labirin AI Cloudflare merancang informasi yang tampak realistis namun tidak relevan menggunakan platform AI Workers milik Cloudflare.
“Tidak ada manusia sungguhan yang akan masuk empat tingkat dalam labirin kekacauan yang dihasilkan oleh AI,” kata Cloudflare. “Setiap pengunjung yang melakukannya kemungkinan besar adalah bot, sehingga ini memberi kami alat baru untuk mengidentifikasi dan mencetak sidik jari bot buruk.”
Konten yang dihasilkan AI dirancang untuk secara ilmiah faktual tetapi tidak terkait dengan situs web sebenarnya yang sedang dilindungi.
Ini memastikan bahwa alat tersebut tidak berkontribusi pada penyebaran informasi salah sambil tetap membingungkan pengumpul data AI. Halaman-halaman yang menyesatkan ini tidak terlihat oleh pengunjung manusia dan tidak mempengaruhi peringkat mesin pencarian.
AI Labyrinth tersedia sebagai fitur gratis, pilihan yang dapat diaktifkan untuk semua pengguna Cloudflare. Administrator situs web dapat mengaktifkannya melalui dasbor Cloudflare mereka di bawah pengaturan Manajemen Bot.
Perusahaan ini menggambarkan ini hanya sebagai awal dari langkah-langkah penangkalan yang didorong oleh AI, dengan rencana masa depan untuk membuat halaman palsu bahkan lebih menipu.
Permainan kucing-dan-tikus antara situs web dan pengambil data AI terus berlangsung, dengan Cloudflare mengambil pendekatan inovatif untuk melindungi konten online. Namun, pertanyaan tetap ada tentang seberapa cepat perusahaan AI akan beradaptasi dengan perangkap ini dan apakah strategi ini bisa mengarah ke eskalasi dalam pertempuran atas data web.
Berikan komentar
Batal