Reddit đang bán các bài viết của bạn cho các công ty AI, và giờ đây họ đang kiện để ngăn chặn những công ty không chịu trả tiền.
Reddit đang kiện Perplexity và ba "nhà cung cấp dịch vụ cạo dữ liệu" để "ngăn chặn việc phá vỡ các biện pháp bảo vệ dữ liệu một cách bất hợp pháp quy mô công nghiệp bởi một nhóm kẻ xấu sẽ không từ thủ đoạn nào để có được nội dung có bản quyền có giá trị trên Reddit," theo đơn kiện.
Công ty ví các công ty cạo dữ liệu — SerpApi, Oxylabs, và AWMProxy — như "những kẻ cướp ngân hàng tiềm năng" mà "biết rằng không thể vào được két ngân hàng, nên đột nhập vào xe bọc thép chở tiền thay thế." Reddit cáo buộc rằng Perplexity là khách hàng của "ít nhất một" trong số các công ty cạo dữ liệu, nói rằng nó "dường như sẽ làm bất cứ điều gì để có được dữ liệu Reddit mà nó cần một cách tuyệt vọng để cung cấp cho 'công cụ trả lời' của mình — tức là, bất cứ điều gì khác ngoài việc ký thỏa thuận trực tiếp với Reddit, như một số đối thủ cạnh tranh đã làm."
Theo vụ kiện, Reddit đã gửi thư yêu cầu chấm dứt cho Perplexity vào tháng 5/2024 "yêu cầu ngừng cạo dữ liệu Reddit." Trong khi Perplexity nói với Reddit lúc đó rằng họ không sử dụng nội dung Reddit để huấn luyện mô hình AI và sẽ tôn trọng robots.txt của Reddit, sau lá thư đó, lượng trích dẫn Reddit trên Perplexity thực sự tăng lên. Reddit cũng tạo một bài viết chỉ có thể được Google thu thập, và "trong vòng vài giờ," Perplexity "đã tạo ra nội dung" của bài viết đó, công ty cho biết.
"Cách duy nhất mà Perplexity có thể có được nội dung Reddit đó và sau đó sử dụng nó trong 'công cụ trả lời' của mình là nếu nó và/hoặc các Đồng bị cáo đã cạo Google SERP để lấy nội dung Reddit đó và Perplexity sau đó nhanh chóng tích hợp dữ liệu đó vào công cụ trả lời của mình," Reddit viết.
Dữ liệu của Reddit — các bài viết về đủ loại chủ đề được viết bởi và xếp hạng bởi con người — cực kỳ hữu ích để giúp huấn luyện các mô hình AI, và công ty biết điều đó; những thay đổi API đã gây ra các cuộc biểu tình năm 2023 được định vị như một cách để công ty được bồi thường cho dữ liệu đó. Reddit đã ký thỏa thuận với các công ty AI bao gồm OpenAI và Google, và được báo cáo là muốn có những thỏa thuận tốt hơn. Và Reddit trước đây đã có hành động pháp lý chống lại Anthropic, cáo buộc rằng các bot của Anthropic đã truy cập nền tảng Reddit ngay cả sau khi Anthropic nói rằng họ sẽ không làm điều đó.
"Các công ty AI đang bị khóa trong cuộc chạy đua vũ trang cho nội dung chất lượng của con người — và áp lực đó đã thúc đẩy nền kinh tế 'rửa dữ liệu' quy mô công nghiệp," Ben Lee, giám đốc pháp lý của Reddit, nói trong một tuyên bố. "Các trình cạo bỏ qua các biện pháp bảo vệ công nghệ để đánh cắp dữ liệu, sau đó bán cho các khách hàng khao khát tài liệu huấn luyện. Reddit là mục tiêu chính vì đây là một trong những bộ sưu tập lớn nhất và năng động nhất của cuộc trò chuyện con người từng được tạo ra.
"Các bị cáo Oxylabs UAB, AWM Proxy, và SerpAI — một trình cạo dữ liệu Lithuania, một botnet Nga cũ, và một công ty công khai quảng cáo các chiến thuật phá vỡ đáng ngờ của mình — là những ví dụ điển hình của hành vi bất hợp pháp này," Lee nói. "Không thể cạo Reddit trực tiếp, họ che giấu danh tính, ẩn vị trí và cải trang các trình cạo web để đánh cắp nội dung Reddit từ Google Search. Perplexity là khách hàng sẵn sàng của ít nhất một trong những trình cạo này, chọn mua dữ liệu bị đánh cắp thay vì ký thỏa thuận hợp pháp với chính Reddit."
"Perplexity chưa nhận được đơn kiện, nhưng chúng tôi sẽ luôn chiến đấu mạnh mẽ cho quyền của người dùng trong việc tự do và công bằng truy cập kiến thức công cộng," Jesse Dwyer, trưởng phòng truyền thông của Perplexity, nói với The Verge. "Cách tiếp cận của chúng tôi vẫn có nguyên tắc và có trách nhiệm khi chúng tôi cung cấp câu trả lời thực tế với AI chính xác, và chúng tôi sẽ không dung thứ các mối đe dọa chống lại sự cởi mở và lợi ích công cộng."








