OpenAI triển khai trình thu thập dữ liệu web để chuẩn bị cho GPT-5

OpenAI đã giới thiệu một công cụ thu thập dữ liệu web có tên là “GPTBot”, nhằm củng cố khả năng của các mô hình GPT trong tương lai.

Công ty cho biết dữ liệu được tích lũy thông qua GPTBot có khả năng nâng cao độ chính xác của mô hình và mở rộng khả năng của nó, đánh dấu một bước quan trọng trong quá trình phát triển của các mô hình ngôn ngữ do AI cung cấp.

Trình thu thập dữ liệu web đóng một vai trò quan trọng trong việc lập chỉ mục nội dung trên phạm vi rộng lớn của internet. Các công cụ tìm kiếm nổi tiếng như Google và Bing dựa vào các bot này để điền vào kết quả tìm kiếm của họ các trang web có liên quan.

GPTBot của OpenAI sẽ có một mục đích riêng biệt: thu thập dữ liệu có sẵn công khai trong khi cẩn thận tránh các nguồn liên quan đến thu thập dữ liệu cá nhân hoặc nội dung trái với chính sách của OpenAI.

Chủ sở hữu trang web có khả năng ngăn GPTBot thu thập dữ liệu trang web của họ chỉ bằng cách triển khai lệnh “không cho phép” trong tệp máy chủ tiêu chuẩn. Điều này cấp cho họ quyền kiểm soát những phần nào trong nội dung của mình mà trình thu thập dữ liệu web có thể truy cập được.

Thông báo của OpenAI được công bố ngay sau khi công ty nộp đơn đăng ký nhãn hiệu cho “GPT-5”, được dự đoán là sẽ thành công hơn với mô hình GPT-4 hiện tại.

Việc nộp đơn, được thực hiện với Văn phòng Nhãn hiệu và Bằng sáng chế Hoa Kỳ vào ngày 18 tháng 7, bao gồm việc sử dụng “GPT-5” trong lời nói và văn bản của con người dựa trên AI, chuyển đổi âm thanh thành văn bản, nhận dạng giọng nói và tổng hợp giọng nói.

Tuy nhiên, trong khi ứng dụng nhãn hiệu GPT-5 đã tạo ra sự phấn khích cho những người đam mê AI, thì Giám đốc điều hành của OpenAI, Sam Altman, đã cảnh báo về những kỳ vọng quá sớm. Altman tiết lộ rằng công ty vẫn còn lâu mới bắt đầu đào tạo GPT-5 vì cần phải tiến hành kiểm tra an toàn toàn diện trước khi bắt tay vào quá trình triển khai rộng rãi cho người dùng sử dụng.

Những nỗ lực gần đây của OpenAI không phải là không tạo ra những tranh cãi. Đã có những lo ngại về các hoạt động thu thập dữ liệu của công ty, đặc biệt là xung quanh các vấn đề về bản quyền.

Vào tháng 6, cơ quan quản lý quyền riêng tư của Nhật Bản đã đưa ra cảnh báo tới OpenAI liên quan đến việc thu thập dữ liệu trái phép. Đầu năm nay, Ý đã tạm thời cấm sử dụng ChatGPT do cáo buộc vi phạm luật riêng tư của Liên minh Châu Âu.

OpenAI và Microsoft hiện cũng đang phải đối mặt với một vụ kiện tập thể do 16 nguyên đơn đệ trình, những người cho rằng thông tin cá nhân từ các tương tác của người dùng ChatGPT đã bị truy cập mà không có sự đồng ý thích hợp. Các công ty cũng đã gặp phải một vụ kiện đối với GitHub Copilot, với những người khiếu nại cáo buộc công cụ tạo mã đã vi phạm quyền của các nhà phát triển bằng cách truy cập thông tin của họ mà không cung cấp thông tin xác thực hợp lệ.

Nếu những cáo buộc này được chứng minh là đúng, cả OpenAI và Microsoft đều có khả năng bị phát hiện vi phạm Đạo luật Lạm dụng và Lừa đảo Máy tính, một tiền lệ pháp lý có liên quan đến các trường hợp thu thập thông tin trên web.

Khi OpenAI tiếp tục mở rộng các ranh giới của công nghệ AI, nhà phát triển cần phải kiểm soát được những thách thức này để đảm bảo sự phát triển có trách nhiệm và đạo đức trong kỷ nguyên AI.

Theo Ryan Daws, 8-8-2023 – AI News

Trung Hòa TH