• Home
  • >
  • تکنولوژی
  • >
  • جمع‌آوری غیرمجاز اطلاعات از سایت‌ها توسط شرکت‌های هوش مصنوعی

جمع‌آوری غیرمجاز اطلاعات از سایت‌ها توسط شرکت‌های هوش مصنوعی

پیام جوان: فایل robots.txt حاوی دستورالعمل‌هایی برای خزنده‌های وب است که بدانند مجازند به چه صفحه‌هایی دسترسی پیدا کنند و به چه صفحه‌هایی نه.

شرکت پرپلیکسیتی (Perplexity)، که محصول خود را به عنوان یک «موتور جستجوی رایگان هوش مصنوعی» توصیف کرده است، طی چند روز گذشته تحت انتقادات شدیدی قرار گرفته است.

به گزارش ایتنا و به نقل از انگجت، اندکی پس از آنکه فوربس این شرکت را به سرقت خبرش و بازنشر آن در پلتفرم‌های مختلف متهم کرد، وایرد گزارش داد که پرپلیکسیتی «پروتکل عدم‌شمول روبات‌ها»، یا Robots.txt، را نادیده گرفته است و به جمع‌آوری غیرمجاز اطلاعات (اسکرپینگ) از وب‌سایت آن و سایر رسانه‌های شرکت Condé Nast پرداخته است. وب‌سایت فناوری The Shortcut نیز این شرکت را متهم کرد که به طور غیرمجاز از مطالب آن اطلاعات جمع‌آوری کرده است.

اکنون، رویترز گزارش داده است که پرپلیکسیتی تنها شرکت هوش مصنوعی نیست که در حال دور زدن فایل‌های Robots.txt است و به اسکرپینگ وب‌سایت‌ها برای دریافت محتوا برای آموزش فناوری‌هایش می‌پردازد.

شایان ذکر است که فایل robots.txt حاوی دستورالعمل‌هایی برای خزنده‌های وب است که بدانند مجازند به چه صفحه‌هایی دسترسی پیدا کنند و به چه صفحه‌هایی نه. این پروتکل از سال ۱۹۹۴ برای استفاده توسعه‌دهندگان وب موجود بوده است، اما پیروی از آن کاملاً داوطلبانه است.

وبسایت Business Insider می‌گوید که متوجه شده است که Openai و Anthropic – به عنوان سازنده‌های، به ترتیب، چت‌بات‌هایChatGPT و Claude – نیز در حال دور زدن سیگنال‌های robots.txt هستند. هر دو شرکت پیش از این اعلام بودند که آنها به دستورالعمل‌های “do not crawl” که وبسایت‌ها در فایل‌های Robots.txt خود قرار داده‌اند احترام می‌گذارند.

  زبان فارسی چه جایگاهی در دنیای اینترنت دارد؟

وبسایت Wired، در طی تحقیقاتش، کشف کرد که یک ماشین در یک سرور آمازون «که مطمئناً توسط پرپلکسیتی اداره می‌شود» در حال دور زدن دستورالعمل‌های Robots.txt وب‌سایتش است. برای چک کردن اینکه آیا پرپلکسیتی در حال اسکریپینگ محتوایش است یا نه، وایرد با عناوینی از مقالات یا مطالب کوتاهش که اخبارش را توصیف می‌کردند در دسترس ابزار این شرکت قرار داد. این ابزار به نتایجی رسید که مطالب وایرد را «با حداقل انتساب» بازنویسی کرده بود.

دیدگاهتان را بنویسید

آرشیو مقالات پیام جوان

هم‌اکنون عضو خبرنامه پیام جوان شوید

Newsletter Payam Javan

همراهان پیام جوان