Mạng thần kinh tích chập (CNN) lần đầu tiên được thiết kế cho mục đích nhận dạng hình ảnh trong lĩnh vực thị giác máy tính. Các mạng này là một loại mạng thần kinh nhân tạo chuyên dụng đã được chứng minh là có hiệu quả cao trong việc phân tích dữ liệu hình ảnh. Sự phát triển của CNN được thúc đẩy bởi nhu cầu tạo ra các mô hình có thể phân loại và phân loại hình ảnh một cách chính xác. Thành công của chúng trong lĩnh vực này đã dẫn đến việc chúng được sử dụng rộng rãi trong nhiều ứng dụng khác như phát hiện đối tượng, phân đoạn hình ảnh và thậm chí cả xử lý ngôn ngữ tự nhiên.
CNN được lấy cảm hứng từ cấu trúc và chức năng của vỏ não thị giác trong não người. Giống như vỏ não thị giác, CNN bao gồm nhiều lớp tế bào thần kinh được kết nối với nhau để xử lý các khía cạnh khác nhau của dữ liệu đầu vào. Sự đổi mới quan trọng của CNN nằm ở khả năng tự động tìm hiểu và trích xuất các tính năng có liên quan từ hình ảnh, loại bỏ nhu cầu kỹ thuật tính năng thủ công. Điều này đạt được thông qua việc sử dụng các lớp tích chập, áp dụng các bộ lọc cho hình ảnh đầu vào để phát hiện các mẫu và tính năng trực quan khác nhau, chẳng hạn như các cạnh, góc và họa tiết.
Bước đột phá đầu tiên trong CNN đến với sự ra đời của kiến trúc LeNet-5 bởi Yann LeCun et al. vào năm 1998. LeNet-5 được thiết kế đặc biệt để nhận dạng chữ số viết tay và đạt được hiệu suất vượt trội trên bộ dữ liệu MNIST, bộ dữ liệu chuẩn được sử dụng rộng rãi để đánh giá các thuật toán nhận dạng hình ảnh. LeNet-5 đã chứng minh sức mạnh của CNN trong việc nắm bắt các đặc điểm phân cấp từ hình ảnh, cho phép phân loại chính xác ngay cả khi có sự thay đổi về tỷ lệ, góc xoay và dịch chuyển.
Kể từ đó, CNN đã phát triển đáng kể với các kiến trúc sâu hơn và phức tạp hơn đang được phát triển. Một tiến bộ đáng chú ý là sự ra đời của kiến trúc AlexNet bởi Alex Krizhevsky et al. vào năm 2012. AlexNet đã đạt được bước đột phá trong phân loại hình ảnh khi giành chiến thắng trong Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC) với tỷ lệ lỗi thấp hơn đáng kể so với các phương pháp trước đây. Thành công này đã mở đường cho việc áp dụng rộng rãi CNN trong các nhiệm vụ nhận dạng hình ảnh.
CNN cũng đã được áp dụng thành công cho các nhiệm vụ thị giác máy tính khác. Ví dụ: trong phát hiện đối tượng, CNN có thể được kết hợp với các lớp bổ sung để định vị và phân loại đối tượng trong ảnh. Mạng thần kinh chuyển đổi dựa trên khu vực (R-CNN) nổi tiếng được giới thiệu bởi Ross Girshick et al. vào năm 2014 là một ví dụ về kiến trúc như vậy. R-CNN đã đạt được kết quả tiên tiến về điểm chuẩn phát hiện đối tượng bằng cách tận dụng sức mạnh của CNN để trích xuất tính năng và kết hợp nó với các phương pháp đề xuất khu vực.
Mạng nơ-ron tích chập lần đầu tiên được thiết kế cho các nhiệm vụ nhận dạng hình ảnh trong lĩnh vực thị giác máy tính. Họ đã cách mạng hóa lĩnh vực này bằng cách tự động học các tính năng liên quan từ hình ảnh, loại bỏ nhu cầu kỹ thuật tính năng thủ công. Sự phát triển của CNN đã dẫn đến những tiến bộ đáng kể trong việc phân loại hình ảnh, phát hiện đối tượng và nhiều nhiệm vụ thị giác máy tính khác.
Các câu hỏi và câu trả lời gần đây khác liên quan đến Học sâu nâng cao EITC/AI/ADL:
- Tại sao chúng ta cần áp dụng tối ưu hóa trong học máy?
- Khi nào overfitting xảy ra?
- Mạng thần kinh chuyển đổi có thể xử lý dữ liệu tuần tự bằng cách kết hợp các tích chập theo thời gian, như được sử dụng trong các mô hình Trình tự chuyển đổi thành chuỗi không?
- Mạng đối thủ sáng tạo (GAN) có dựa vào ý tưởng về máy phát điện và máy phân biệt đối xử không?
Thêm câu hỏi và câu trả lời:
- Cánh đồng: Trí tuệ nhân tạo
- chương trình: Học sâu nâng cao EITC/AI/ADL (đi đến chương trình chứng nhận)
- Bài học: Tầm nhìn máy tính nâng cao (đến bài học liên quan)
- Chủ đề: Mạng nơ-ron hợp pháp để nhận dạng hình ảnh (đi đến chủ đề liên quan)