EITC/AI/ARL Advanced Reinforcement Learning là chương trình Chứng nhận CNTT của Châu Âu về cách tiếp cận của DeepMind đối với việc học tăng cường trong trí tuệ nhân tạo.
Chương trình giảng dạy của EITC/AI/ARL Advanced Reinforcement Learning tập trung vào các khía cạnh lý thuyết và kỹ năng thực hành trong các kỹ thuật học tập củng cố theo quan điểm của DeepMind được tổ chức theo cấu trúc sau, bao gồm nội dung giáo khoa video toàn diện làm tài liệu tham khảo cho Chứng nhận EITC này.
Học tăng cường (RL) là một lĩnh vực học máy liên quan đến cách các tác nhân thông minh phải thực hiện hành động trong môi trường để tối đa hóa khái niệm về phần thưởng tích lũy. Học tăng cường là một trong ba mô hình học máy cơ bản, cùng với học có giám sát và học không giám sát.
Học tăng cường khác với học có giám sát ở chỗ không cần trình bày các cặp đầu vào/đầu ra được gắn nhãn và không cần các hành động tối ưu phụ được sửa chữa rõ ràng. Thay vào đó, trọng tâm là tìm kiếm sự cân bằng giữa khám phá (lãnh thổ chưa được khám phá) và khai thác (kiến thức hiện tại).
Môi trường thường được phát biểu dưới dạng một quy trình quyết định Markov (MDP), bởi vì nhiều thuật toán học tăng cường cho ngữ cảnh này sử dụng các kỹ thuật lập trình động. Sự khác biệt chính giữa các phương pháp lập trình động cổ điển và các thuật toán học tăng cường là phương pháp sau này không giả định kiến thức về một mô hình toán học chính xác của MDP và chúng nhắm mục tiêu vào các MDP lớn nơi các phương pháp chính xác trở nên không khả thi.
Do tính tổng quát của nó, học tăng cường được nghiên cứu trong nhiều lĩnh vực, chẳng hạn như lý thuyết trò chơi, lý thuyết điều khiển, nghiên cứu hoạt động, lý thuyết thông tin, tối ưu hóa dựa trên mô phỏng, hệ thống đa tác nhân, trí thông minh bầy đàn và thống kê. Trong tài liệu nghiên cứu về hoạt động và điều khiển, học tăng cường được gọi là lập trình động gần đúng, hoặc lập trình động thần kinh. Các vấn đề quan tâm trong việc học củng cố cũng đã được nghiên cứu trong lý thuyết điều khiển tối ưu, chủ yếu liên quan đến sự tồn tại và đặc điểm của các giải pháp tối ưu, và các thuật toán để tính toán chính xác của chúng, và ít hơn về học tập hoặc tính gần đúng, đặc biệt là khi một mô hình toán học của môi trường. Trong kinh tế học và lý thuyết trò chơi, học tăng cường có thể được sử dụng để giải thích cách thức cân bằng có thể hình thành dưới tính hợp lý có giới hạn.
Tăng cường cơ bản được mô hình hóa như một quá trình quyết định Markov (MDP). Trong toán học, một quá trình quyết định Markov (MDP) là một quá trình kiểm soát ngẫu nhiên theo thời gian rời rạc. Nó cung cấp một khung toán học để mô hình hóa việc ra quyết định trong các tình huống mà kết quả một phần là ngẫu nhiên và một phần nằm dưới sự kiểm soát của người ra quyết định. MDP rất hữu ích để nghiên cứu các vấn đề tối ưu hóa được giải quyết thông qua lập trình động. MDP đã được biết đến ít nhất là vào đầu những năm 1950. Nhóm nghiên cứu cốt lõi về các quá trình ra quyết định của Markov là kết quả của cuốn sách năm 1960 của Ronald Howard, Lập trình động và các quá trình Markov. Chúng được sử dụng trong nhiều lĩnh vực, bao gồm robot, điều khiển tự động, kinh tế và sản xuất. Tên của MDPs xuất phát từ nhà toán học người Nga Andrey Markov vì chúng là phần mở rộng của chuỗi Markov.
Tại mỗi bước thời gian, quy trình ở một số trạng thái S và người ra quyết định có thể chọn bất kỳ hành động a nào khả dụng ở trạng thái S. Quy trình phản hồi ở bước thời điểm tiếp theo bằng cách chuyển ngẫu nhiên sang trạng thái mới S ', và đưa ra người ra quyết định một phần thưởng tương ứng Ra (S, S ').
Xác suất để quá trình chuyển sang trạng thái mới S 'bị ảnh hưởng bởi hành động đã chọn a. Cụ thể, nó được đưa ra bởi hàm chuyển trạng thái Pa (S, S '). Như vậy, trạng thái tiếp theo S 'phụ thuộc vào trạng thái hiện tại S và hành động của người ra quyết định a. Nhưng với S và a, nó có điều kiện độc lập với tất cả các trạng thái và hành động trước đó. Nói cách khác, các chuyển đổi trạng thái của MDP thỏa mãn thuộc tính Markov.
Các quy trình quyết định Markov là một phần mở rộng của chuỗi Markov; sự khác biệt là việc bổ sung các hành động (cho phép lựa chọn) và phần thưởng (tạo động lực). Ngược lại, nếu chỉ có một hành động tồn tại cho mỗi trạng thái (ví dụ: “chờ”) và tất cả các phần thưởng đều giống nhau (ví dụ: “không”), quy trình quyết định Markov giảm xuống thành chuỗi Markov.
Tác nhân học tập củng cố tương tác với môi trường của nó theo các bước thời gian rời rạc. Tại mỗi thời điểm t, tác nhân nhận được trạng thái hiện tại S (t) và phần thưởng r (t). Sau đó, nó chọn một hành động a (t) từ tập hợp các hành động có sẵn, hành động này sau đó được gửi đến môi trường. Môi trường chuyển sang trạng thái mới S (t + 1) và phần thưởng r (t + 1) gắn với quá trình chuyển đổi được xác định. Mục tiêu của nhân viên hỗ trợ học tăng cường là tìm hiểu chính sách tối đa hóa phần thưởng tích lũy mong đợi.
Hình thành vấn đề dưới dạng MDP giả định tác nhân trực tiếp quan sát trạng thái môi trường hiện tại. Trong trường hợp này, vấn đề được cho là có đầy đủ khả năng quan sát. Nếu tác nhân chỉ có quyền truy cập vào một tập hợp con các trạng thái, hoặc nếu các trạng thái được quan sát bị nhiễu do nhiễu, tác nhân được cho là có khả năng quan sát một phần và chính thức vấn đề phải được xây dựng như một quá trình quyết định Markov có thể quan sát được một phần. Trong cả hai trường hợp, nhóm tác vụ có sẵn cho tác nhân có thể bị hạn chế. Ví dụ, trạng thái của số dư tài khoản có thể bị hạn chế là số dương; nếu giá trị hiện tại của trạng thái là 3 và quá trình chuyển đổi trạng thái cố gắng giảm giá trị đi 4, quá trình chuyển đổi sẽ không được phép.
Khi hiệu suất của tác nhân được so sánh với tác nhân hoạt động tối ưu, sự khác biệt về hiệu suất làm nảy sinh khái niệm hối tiếc. Để hành động gần như tối ưu, người đại diện phải lập luận về hậu quả lâu dài của hành động của mình (tức là tối đa hóa thu nhập trong tương lai), mặc dù phần thưởng trước mắt liên quan đến điều này có thể là tiêu cực.
Do đó, học tập củng cố đặc biệt phù hợp với các vấn đề bao gồm sự đánh đổi phần thưởng dài hạn và ngắn hạn. Nó đã được áp dụng thành công cho các vấn đề khác nhau, bao gồm điều khiển robot, lập lịch thang máy, viễn thông, cờ vây, cờ caro và cờ vây (AlphaGo).
Hai yếu tố làm cho việc học củng cố trở nên mạnh mẽ: việc sử dụng các mẫu để tối ưu hóa hiệu suất và sử dụng phép xấp xỉ hàm để đối phó với các môi trường lớn. Nhờ hai thành phần quan trọng này, việc học củng cố có thể được sử dụng trong môi trường lớn trong các trường hợp sau:
- Một mô hình của môi trường đã được biết đến, nhưng không có giải pháp phân tích.
- Chỉ một mô hình mô phỏng của môi trường được đưa ra (chủ đề của tối ưu hóa dựa trên mô phỏng).
- Cách duy nhất để thu thập thông tin về môi trường là tương tác với nó.
Hai vấn đề đầu tiên trong số này có thể được coi là vấn đề lập kế hoạch (vì một số dạng mô hình có sẵn), trong khi vấn đề cuối cùng có thể được coi là vấn đề học tập thực sự. Tuy nhiên, học tăng cường chuyển đổi cả các vấn đề lập kế hoạch thành các vấn đề học máy.
Sự cân bằng giữa thăm dò và khai thác đã được nghiên cứu kỹ lưỡng nhất thông qua bài toán tên cướp nhiều nhánh và đối với MDP không gian trạng thái hữu hạn ở Burnetas và Katehakis (1997).
Học tập củng cố đòi hỏi cơ chế khám phá thông minh; các hành động lựa chọn ngẫu nhiên, không tham chiếu đến phân phối xác suất ước tính, cho thấy hiệu suất kém. Trường hợp của các quá trình quyết định Markov hữu hạn (nhỏ) được hiểu tương đối rõ ràng. Tuy nhiên, do thiếu các thuật toán mở rộng quy mô tốt với số trạng thái (hoặc quy mô cho các bài toán có không gian trạng thái vô hạn), các phương pháp thăm dò đơn giản là thực tế nhất.
Ngay cả khi vấn đề thăm dò bị bỏ qua và ngay cả khi trạng thái có thể quan sát được, vấn đề vẫn là sử dụng kinh nghiệm trong quá khứ để tìm ra hành động nào dẫn đến phần thưởng tích lũy cao hơn.
Để tìm hiểu chi tiết về chương trình giảng dạy chứng nhận, bạn có thể mở rộng và phân tích bảng bên dưới.
Chương trình giảng dạy Chứng chỉ Học tập Tăng cường Nâng cao của EITC/AI/ARL tham khảo các tài liệu giáo khoa truy cập mở dưới dạng video. Quá trình học tập được chia thành cấu trúc từng bước (chương trình -> bài học -> chủ đề) bao gồm các phần chương trình học có liên quan. Tư vấn không giới hạn với các chuyên gia tên miền cũng được cung cấp.
Để biết chi tiết về kiểm tra thủ tục Chứng nhận Làm thế nào nó hoạt động.
Tài nguyên tham khảo chương trình giảng dạy
Kiểm soát cấp độ con người thông qua ấn phẩm Học tập củng cố sâu
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
Khóa học tiếp cận mở về học tăng cường sâu tại UC Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/
RL áp dụng cho vấn đề tên cướp K-armbed từ Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
Tải xuống tài liệu chuẩn bị tự học ngoại tuyến hoàn chỉnh cho chương trình Học tăng cường nâng cao EITC/AI/ARL dưới dạng tệp PDF
Tài liệu chuẩn bị EITC/AI/ARL – phiên bản tiêu chuẩn
Tài liệu chuẩn bị EITC/AI/ARL – phiên bản mở rộng với các câu hỏi ôn tập