Test 9 Prompt Khó: Claude 4.5 Hay ChatGPT-5 Mạnh Hơn?

Mô hình mới của Anthropic đối đầu với chatbot của OpenAI

Mỗi khi một mô hình AI mới ra mắt, tôi luôn háo hức muốn test và so sánh nó với những gì hiện có. Vì vậy với việc ra mắt gần đây của Claude 4.5 - mô hình AI mà Anthropic gọi là "mô hình thông minh nhất từ trước đến nay", tôi không thể chờ đợi để test nó với ChatGPT-5.

Để xem ChatGPT và Claude 4.5 so tài như thế nào, tôi đã cho chúng thực hiện chín thử thách bao gồm các kỹ năng khác nhau như câu đố logic khó, bài toán văn và debug code để kiểm tra khả năng suy luận và độ chính xác. Tất nhiên, tôi cũng phải thêm vào viết sáng tạo và chuyển đổi phong cách vì cả hai mô hình đều tuyên bố xuất sắc trong những lĩnh vực này.

Đây là những gì đã xảy ra khi tôi cho hai mô hình mạnh mẽ này đối đầu và những kết quả đáng ngạc nhiên.

1. Câu đố chuỗi suy nghĩ

Prompt: "Bạn có ba hộp: một hộp ghi 'táo', một hộp ghi 'cam', và một hộp ghi 'táo và cam'. Mỗi nhãn đều sai. Bạn có thể với tay vào một hộp và lấy ra một quả. Bạn nên chọn hộp nào để gắn lại nhãn đúng cho tất cả các hộp? Giải thích từng bước."

ChatGPT-5 ngay lập tức đưa ra đáp án mà không có lời mở đầu nào, điều này hiệu quả cho người dùng chỉ muốn có giải pháp.

Claude 4.5 Sonnet cung cấp khung giáo dục hoàn chỉnh, hữu ích cho người dùng muốn không chỉ có đáp án mà còn hiểu chuỗi suy nghĩ.

Người thắng: Claude thắng vì giải thích rõ ràng tại sao bạn không thể chọn từ các hộp khác, nêu rõ rằng một quả từ hộp táo hoặc cam sẽ không đủ để kết luận. Hiểu biết này là chìa khóa và làm cho lời giải thích của Claude trở nên kỹ lưỡng hơn.

2. Bài toán văn

Prompt: "Một tàu rời New York lúc 2 giờ chiều với tốc độ 96,5 km/h. Tàu khác rời Boston lúc 3 giờ chiều với tốc độ 128,7 km/h. Hai thành phố cách nhau 321,9 km. Hai tàu sẽ gặp nhau lúc mấy giờ? Trình bày rõ cách suy luận."

ChatGPT-5 trình bày giải pháp đại số ngắn gọn và hiệu quả, mô hình hóa trực tiếp bài toán với một biến duy nhất.

Claude 4.5 Sonnet cấu trúc giải pháp theo cách sư phạm, từng bước rõ ràng giải thích "tại sao" đằng sau mỗi phép tính.

Người thắng: Claude thắng vì cung cấp câu trả lời tốt hơn bằng cách chia bài toán thành các bước rõ ràng, trực quan và tính toán khoảng cách khởi đầu trước; làm cho logic dễ theo dõi hơn cho hầu hết người học.

3. Kể chuyện

Prompt: "Viết cảnh mở đầu của tiểu thuyết khoa học viễn tưởng nơi Trái Đất vừa có liên lạc đầu tiên với người ngoài hành tinh - nhưng từ góc nhìn của người ngoài hành tinh. Giữ dưới 300 từ."

ChatGPT-5 tạo ra một cảnh đẹp, có tính thơ ca và hiệu quả trong việc xây dựng tâm trạng chờ đợi yên lặng.

Claude 4.5 Sonnet dệt nên sinh học độc đáo của người ngoài hành tinh và một tình huống quan liêu cụ thể, nặng nề vào câu chuyện, làm cho góc nhìn thực sự cảm thấy phi nhân loại.

Người thắng: Claude thắng vì hoàn toàn chấp nhận góc nhìn người ngoài hành tinh, sử dụng các đặc điểm sinh học độc đáo (cuống cảm giác, tế bào màu) và quyết định cụ thể, quan trọng (Biến thể Bảy) để tạo ra góc nhìn thực sự của người ngoài hành tinh và căng thẳng tức thì.

4. Test chuyển đổi giọng điệu

Prompt: "Viết một đoạn ngắn về làm bánh pancake, đầu tiên theo phong cách kinh dị, sau đó theo phong cách hài kịch lãng mạn."

ChatGPT-5 viết một đoạn ngắn gọn, có không khí nhanh chóng nắm bắt được bản chất của mỗi thể loại.

Claude tạo ra những cảnh chi tiết và hấp dẫn sử dụng hình ảnh mạnh mẽ hơn và phát triển câu chuyện.

Người thắng: Claude thắng một lần nữa vì mang lại những câu chuyện sống động và đặc trưng thể loại hơn.

5. Lập trình & giải quyết vấn đề

Prompt: "Đây là hàm Python không hoạt động. Sửa nó để trả về giai thừa của một số mà không sử dụng đệ quy."

```python

def factorial(n):

result = 0

for i in range(1, n+1):

result = i

return result

```

ChatGPT-5 đưa ra hàm sẵn sàng sản xuất bao gồm xử lý lỗi cho đầu vào âm và minh họa cách sử dụng với ví dụ.

Claude 4.5 Sonnet tập trung vào lỗi cụ thể và giải thích lý do toán học đằng sau việc sửa chữa, làm cho việc hiểu nguyên nhân gốc rễ dễ dàng hơn.

Người thắng: Claude thắng vì trực tiếp xác định và giải thích vấn đề cốt lõi trong hàm bị hỏng.

6. Test hiệu quả

(Image credit: Future)

Prompt: "Viết truy vấn SQL để tìm 3 khách hàng hàng đầu chi tiêu nhiều nhất tháng trước trong bảng gọi là orders với các cột: customer_id, amount, và order_date."

ChatGPT-5 đưa ra giải thích rõ ràng, từng bước về logic truy vấn, hữu ích để hiểu nhiệm vụ.

Claude 4.5 Sonnet dự đoán nhiều nhu cầu cơ sở dữ liệu và cung cấp các biến thể cú pháp, đảm bảo truy vấn có thể được điều chỉnh dễ dàng.

Người thắng: ChatGPT thắng vì bám sát nhiệm vụ mà không đưa ra các giải pháp khác cho các môi trường cơ sở dữ liệu khác nhau.

7. Test tóm tắt căng thẳng

Prompt: "Tóm tắt đoạn văn sau trong một câu, đảm bảo không khái quát hóa quá mức hoặc tạo ra chi tiết ảo."

ChatGPT đưa ra phản hồi với sự rõ ràng và tuân thủ prompt. Nó cũng trích dẫn nguồn.

Claude 4.5 Sonnet đưa ra tóm tắt vững chắc, nhưng quá dài dòng mà không cung cấp thêm chiều sâu.

Người thắng: ChatGPT thắng với tóm tắt ngắn gọn giải thích bài báo trắng mà không thêm gì khác.

8. Test so sánh

Prompt: "So sánh phong cách lãnh đạo của Steve Jobs và Satya Nadella trong dưới 200 từ, tập trung vào cách mỗi người định hình văn hóa công ty của họ."

ChatGPT-5 tạo ra tóm tắt ngắn gọn và bóng bẩy định nghĩa tác động văn hóa cốt lõi của mỗi nhà lãnh đạo.

Claude 4.5 Sonnet kết hợp các thực hành và khẩu hiệu công ty cụ thể để làm nền tảng cho so sánh trong các hành động thế giới thực, thêm chiều sâu cho phân tích.

Người thắng: Claude thắng vì đưa ra câu trả lời tốt hơn một chút do bao gồm các ví dụ cụ thể, cụ thể hơn (ví dụ: tháo dỡ "xếp hạng chồng", khẩu hiệu "học-tất cả") làm cho phân tích trở nên hữu hình hơn.

9. Đồng cảm & trí tuệ cảm xúc

Prompt: "Tôi vừa bị sa thải và tôi lo lắng về tiền bạc và sự nghiệp. Bạn có thể cho tôi cả lời khuyên thực tế và vài lời an ủi bằng giọng điệu hỗ trợ, đồng cảm không?"

ChatGPT-5 đưa ra lời khuyên tài chính chi tiết, có thể hành động và đề xuất có cấu trúc cho kế hoạch theo dõi, giúp người dùng cảm thấy được trang bị ngay lập tức để giải quyết các mối quan tâm thực tế.

Claude ưu tiên xử lý cảm xúc và tự chăm sóc từ đầu, và kết thúc bằng câu hỏi cá nhân hóa thúc đẩy cảm giác hỗ trợ và kết nối liên tục.

Người thắng: Claude thắng vì cân bằng hiệu quả đồng cảm với tính thực tế bằng cách đầu tiên thừa nhận tác động cảm xúc của việc sa thải và sau đó hướng dẫn người dùng qua các bước có thể hành động, tất cả trong khi duy trì giọng điệu hỗ trợ và đưa ra theo dõi cá nhân hóa [1].

Chatbot chiến thắng: Claude 4.5 Sonnet

Sau chín bài test, kết quả rõ ràng: Claude 4.5 Sonnet vượt trội hơn ChatGPT-5 trong hầu hết các danh mục, đặc biệt khi nói đến suy luận, kể chuyện và trí tuệ cảm xúc. Các câu trả lời của nó có xu hướng kỹ lưỡng hơn, có giọng điệu con người hơn và tốt hơn trong việc hướng dẫn người dùng qua "tại sao" đằng sau giải pháp.

Tuy nhiên, ChatGPT-5 vẫn giữ vững vị trí trong các lĩnh vực như tóm tắt và hiệu quả, nơi câu trả lời ngắn gọn được ưu tiên. Điều rút ra ở đây là cả hai mô hình đều tỏa sáng trong các lĩnh vực nhất định, nhưng không có nghi ngờ gì rằng Claude 4.5 thực sự có thể là mô hình thông minh nhất của Anthropic từ trước đến nay.