Học có giám sát và không giám sát là hai loại mô hình học máy cơ bản phục vụ các mục đích riêng biệt dựa trên bản chất của dữ liệu và mục tiêu của nhiệm vụ trước mắt. Hiểu khi nào nên sử dụng đào tạo có giám sát so với đào tạo không giám sát là rất quan trọng trong việc thiết kế các mô hình học máy hiệu quả. Việc lựa chọn giữa hai cách tiếp cận này phụ thuộc vào tính sẵn có của dữ liệu được gắn nhãn, kết quả mong muốn và cấu trúc cơ bản của tập dữ liệu.
Học có giám sát là một loại học máy trong đó mô hình được đào tạo trên tập dữ liệu được gắn nhãn. Trong học có giám sát, thuật toán học cách ánh xạ dữ liệu đầu vào thành đầu ra chính xác bằng cách đưa ra các ví dụ huấn luyện. Các ví dụ huấn luyện này bao gồm các cặp đầu vào-đầu ra, trong đó dữ liệu đầu vào được kèm theo giá trị đích hoặc đầu ra chính xác tương ứng. Mục tiêu của việc học có giám sát là tìm hiểu hàm ánh xạ từ các biến đầu vào đến các biến đầu ra, sau đó có thể được sử dụng để đưa ra dự đoán về dữ liệu chưa nhìn thấy.
Học có giám sát thường được sử dụng khi biết đầu ra mong muốn và mục tiêu là tìm hiểu mối quan hệ giữa các biến đầu vào và đầu ra. Nó thường được áp dụng trong các nhiệm vụ như phân loại, trong đó mục tiêu là dự đoán nhãn lớp của các phiên bản mới và hồi quy, trong đó mục tiêu là dự đoán giá trị liên tục. Ví dụ: trong kịch bản học có giám sát, bạn có thể huấn luyện một mô hình để dự đoán liệu một email có phải là thư rác hay không dựa trên nội dung của email và trạng thái thư rác/không thư rác được gắn nhãn của các email trước đó.
Mặt khác, học không giám sát là một loại học máy trong đó mô hình được đào tạo trên tập dữ liệu không được gắn nhãn. Trong học không giám sát, thuật toán học các mẫu và cấu trúc từ dữ liệu đầu vào mà không có phản hồi rõ ràng về đầu ra chính xác. Mục tiêu của học không giám sát là khám phá cấu trúc cơ bản của dữ liệu, khám phá các mẫu ẩn và trích xuất những hiểu biết có ý nghĩa mà không cần dữ liệu được gắn nhãn.
Học không giám sát thường được sử dụng khi mục tiêu là khám phá dữ liệu, tìm các mẫu ẩn và nhóm các điểm dữ liệu tương tự lại với nhau. Nó thường được áp dụng trong các tác vụ như phân cụm, trong đó mục tiêu là nhóm các điểm dữ liệu tương tự thành các cụm dựa trên các tính năng của chúng và giảm kích thước, trong đó mục tiêu là giảm số lượng tính năng trong khi vẫn giữ được thông tin cần thiết trong dữ liệu. Ví dụ: trong kịch bản học tập không giám sát, bạn có thể sử dụng phân cụm để nhóm khách hàng dựa trên hành vi mua hàng của họ mà không cần có bất kỳ kiến thức trước nào về phân khúc khách hàng.
Sự lựa chọn giữa học có giám sát và không giám sát phụ thuộc vào một số yếu tố. Nếu bạn có tập dữ liệu được gắn nhãn và muốn dự đoán kết quả cụ thể, học có giám sát là lựa chọn thích hợp. Mặt khác, nếu bạn có một tập dữ liệu chưa được gắn nhãn và muốn khám phá cấu trúc dữ liệu hoặc tìm các mẫu ẩn thì học không giám sát sẽ phù hợp hơn. Trong một số trường hợp, có thể sử dụng sự kết hợp của cả kỹ thuật có giám sát và không giám sát, được gọi là học bán giám sát, để tận dụng lợi ích của cả hai phương pháp.
Quyết định sử dụng đào tạo có giám sát so với đào tạo không giám sát trong học máy phụ thuộc vào tính sẵn có của dữ liệu được gắn nhãn, tính chất của nhiệm vụ và kết quả mong muốn. Hiểu được sự khác biệt giữa học có giám sát và không giám sát là điều cần thiết để thiết kế các mô hình học máy hiệu quả có thể rút ra những hiểu biết sâu sắc có ý nghĩa và đưa ra dự đoán chính xác từ dữ liệu.
Các câu hỏi và câu trả lời gần đây khác liên quan đến EITC/AI/GCML Google Cloud Machine Learning:
- Chuyển văn bản thành giọng nói (TTS) là gì và nó hoạt động như thế nào với AI?
- Những hạn chế khi làm việc với các tập dữ liệu lớn trong học máy là gì?
- Máy học có thể thực hiện một số hỗ trợ đối thoại không?
- Sân chơi TensorFlow là gì?
- Một tập dữ liệu lớn hơn thực sự có ý nghĩa gì?
- Một số ví dụ về siêu tham số của thuật toán là gì?
- Học tập theo nhóm là gì?
- Điều gì sẽ xảy ra nếu thuật toán học máy được chọn không phù hợp và làm cách nào để đảm bảo chọn đúng thuật toán?
- Mô hình machine learning có cần giám sát trong quá trình đào tạo không?
- Các tham số chính được sử dụng trong thuật toán dựa trên mạng thần kinh là gì?
Xem thêm câu hỏi và câu trả lời trong EITC/AI/GCML Google Cloud Machine Learning
Thêm câu hỏi và câu trả lời:
- Cánh đồng: Trí tuệ nhân tạo
- chương trình: EITC/AI/GCML Google Cloud Machine Learning (đi đến chương trình chứng nhận)
- Bài học: Giới thiệu (đến bài học liên quan)
- Chủ đề: Học máy là gì (đi đến chủ đề liên quan)