Đề tài Nhận dạng mặt người trên Matlab

Trong thế giới ngày nay với sự phát triển mạnh mẽ của kỹ thuật số và mạng toàn cầu, vấn đề về đảm bảo an toàn về thông tin cũng như vật chất ngày càng trở nên quan trọng và khó khăn. Một trong những phương pháp đơn giản nhất nhưng cũng là bài toán phức tạp nhất là xác định một người thông qua khuôn mặt từ đó cập nhật thông tin để đảm bảo an toàn thông tin cũng như tìm kiếm tội phạm.
Trong nhiều năm qua có rất nhiều công trình nghiên cứu về bài toán nhận dạng khuôn mặt người từ ảnh đen trắng, xám đến ảnh màu như ngày hôm nay. Các nghiên cứu đi từ bài toán đơn giản, mỗi ảnh chỉ có một khuôn mặt người nhìn thẳng vào thiết bị thu hình và đầu ở tư thế thẳng đứng trong ảnh đen trắng. Cho đến ngày hôm nay bài toán mở rộng cho ảnh màu, có nhiều khuôn mặt trong cùng một ảnh, có nhiều tư thế thay đổi trong ảnh. Không những vậy mà còn mở rộng phạm vi từ môi trường xung quanh khá đơn giản cho đến môi trường xung quanh rất phức tạp nhằm đáp ứng nhu cầu của con người.
Mục tiêu của đề tài “Nhận dạng mặt người bằng thuật toán PCA trên Matlab” là thực hiện chương trình tìm kiếm một bức ảnh có khuôn mặt một người trong tập ảnh cơ sở giống với khuôn mặt của người trong bức ảnh cần kiểm tra bằng ngôn ngữ Matlab.
Để tiện theo dõi em xin trình bày đề tài theo ba phần:
Phần đầu là tổng quan về nhận diện khuôn mặt và thuật toán PCA sử dụng trong bài.
Phần 2 giới thiệu về ảnh màu và những thứ liên quan đến việc nhận dạng khuôn mặt và phần mềm sử dụng.
Sau cùng là code chương trình và thuật toán để dễ hình dung hơn
32 trang Minh Tâm 29/03/2025 7200
Download
Bạn đang xem 20 trang mẫu của tài liệu "Đề tài Nhận dạng mặt người trên Matlab", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Đề tài Nhận dạng mặt người trên Matlab

 ĐỒ ÁN MÔN THỊ GIÁC MÁY TÍNH
 ĐỀ TÀI : 
 NHẬN DẠNG MẶT NGƯỜI
 TRÊN MATLAB
 Giảng viên hướng dẫn: Lê Thị Ngọc Thúy
 Sinh viên thực hiện: Đỗ Thanh Huy
 Trần Quốc Tuân
 Đỗ Thị Thảo
 Cù Quang Anh MỤC LỤC
LỜI MỞ ĐẦU.............................................................................................................2
PHẦN I: TỔNG QUAN VỀ NHẬN DIỆN KHUÔN MẶT VÀ THUẬT TOÁN 
PCA..............................................................................................................................3
 I. CÔNG NGHỆ NHẬN DIỆN MẶT NGƯỜI TRONG THỊ GIÁC MÁY 
 TÍNH .................................................................................................................3
 II. THUẬT TOÁN PCA ........................................................................................6
 III. THUẬT TOÁN PCA TRONG NHẬN DIỆN KHUÔN MẶT .....................11
PHẦN II: ẢNH MÀU VÀ CÁC LỆNH XỬ LÝ ẢNH MÀU TRÊN MATLAB ..16
 I. GIỚI THIỆU ẢNH SỐ .....................................................................................16
 1. Ảnh số.............................................................................................................16
 2. Các kiểu hình ảnh trong Matlab......................................................................21
 3. Chuyển đổi giữa những kiểu dữ liệu ..............................................................22
 4. Các phép toán số học cơ bản với dữ liệu ảnh .................................................23
 5. Các hàm hiển thị trong Matlab .......................................................................24
 6. Các hàm sử dụng trong đề tài .........................................................................25
 II. GIAO DIỆN GUI CỦA MATLAB .................................................................26
 1. Giao diện GUI ................................................................................................26
 2. Giới thiệu qua chương trình nhận dạng mặt người ........................................28
 III: SƠ ĐỒ KHỐI VÀ CODE CHƯƠNG TRÌNH ...............................................31
 1. Sơ đồ khối .......................................................................................................31
 2. Code chương trình ..........................................................................................32
 1 LỜI MỞ ĐẦU
 Trong thế giới ngày nay với sự phát triển mạnh mẽ của kỹ thuật số và mạng toàn 
cầu, vấn đề về đảm bảo an toàn về thông tin cũng như vật chất ngày càng trở nên quan 
trọng và khó khăn. Một trong những phương pháp đơn giản nhất nhưng cũng là bài 
toán phức tạp nhất là xác định một người thông qua khuôn mặt từ đó cập nhật thông 
tin để đảm bảo an toàn thông tin cũng như tìm kiếm tội phạm.
 Trong nhiều năm qua có rất nhiều công trình nghiên cứu về bài toán nhận dạng 
khuôn mặt người từ ảnh đen trắng, xám đến ảnh màu như ngày hôm nay. Các nghiên 
cứu đi từ bài toán đơn giản, mỗi ảnh chỉ có một khuôn mặt người nhìn thẳng vào thiết 
bị thu hình và đầu ở tư thế thẳng đứng trong ảnh đen trắng. Cho đến ngày hôm nay bài 
toán mở rộng cho ảnh màu, có nhiều khuôn mặt trong cùng một ảnh, có nhiều tư thế 
thay đổi trong ảnh. Không những vậy mà còn mở rộng phạm vi từ môi trường xung 
quanh khá đơn giản cho đến môi trường xung quanh rất phức tạp nhằm đáp ứng nhu 
cầu của con người.
 Mục tiêu của đề tài “Nhận dạng mặt người bằng thuật toán PCA trên Matlab” là 
thực hiện chương trình tìm kiếm một bức ảnh có khuôn mặt một người trong tập ảnh 
cơ sở giống với khuôn mặt của người trong bức ảnh cần kiểm tra bằng ngôn ngữ 
Matlab.
 Để tiện theo dõi em xin trình bày đề tài theo ba phần:
 ✓ Phần đầu là tổng quan về nhận diện khuôn mặt và thuật toán PCA sử dụng 
 trong bài.
 ✓ Phần 2 giới thiệu về ảnh màu và những thứ liên quan đến việc nhận dạng 
 khuôn mặt và phần mềm sử dụng.
 ✓ Sau cùng là code chương trình và thuật toán để dễ hình dung hơn
 Do tài liệu tham khảo hạn chế, trình độ có hạn và kinh nghiệm thực tiễn còn non 
kém nên đề tài còn nhiều thiếu sót. Chúng em mong nhận được những ý kiến và lời 
nhận xét của cô để giúp chúng em hoàn thiện hơn đề tài này.
 2 PHẦN I: TỔNG QUAN VỀ NHẬN DIỆN KHUÔN MẶT
 VÀ THUẬT TOÁN PCA
I. CÔNG NGHỆ NHẬN DIỆN MẶT NGƯỜI TRONG THỊ GIÁC MÁY 
 TÍNH.
 Sinh trắc học được sử dụng trong quá trình xác thực người bằng cách sử dụng các 
đặc trưng của con người để xác minh hoặc nhận dạng. Có rất nhiều loại hệ thống sinh 
trắc học như nhận diện dấu vân tay, nhận diện và phát hiện khuôn mặt, nhận diện 
mống mắt Các đặc trưng sinh học này này thường được sử dụng cho nhận dạng 
người trong hệ thống giám sát hoặc nhận dạng tội pham. Lợi thế của việc sử dụng đặc 
trưng sinh học trong nhận dạng đó là chúng rất khó có thể thay đổi theo thời gian và là 
các đặc trưng độc nhất của mỗi người.
 Một hệ thống nhận diện khuôn mặt là một ứng dụng máy tính, có khả năng nhận 
dạng và xác minh một người từ một ảnh số hoặc từ khung video trong video. 
 Các pha trong một hệ thống nhận diện khuôn mặt: 
 Để xây dựng một hệ thống nhận dạng mặt, cũng không hề đơn giản, bước đầu tiên 
cần thực hiện là face detection, tức là phát hiện phần ảnh mặt trong dữ liệu đầu vào 
(CSDL ảnh, video ) và cắt lấy phần ảnh mặt để thực hiện nhận dạng (Face 
cropping), bước thứ hai là tiền xử lý ảnh (Preprocessing) bao gồm các bước căn chỉnh 
ảnh (Face image alignment) và chuẩn hóa ánh sáng (Illumination normalization) (ở 
đây đang nói tới các ảnh có góc nhìn thẳng), tiếp đến là bước trích chọn đặc trưng 
(Feature extraction), ở bước này một phương pháp trích chọn đặc trưng nào đó (mẫu 
nhị phân cục bộ – Local Binary Pattern – LBP, Gabor wavelets, ) sẽ được sử dụng 
với ảnh khuôn mặt để trích xuất các thông tin đặc trưng cho ảnh, kết quả là mỗi ảnh sẽ 
được biểu diễn dưới dạng một vector đặc trưng, bước tiếp theo là bước nhận dạng hay 
phân lớp, tức là xác định danh tính hay nhãn của ảnh – đó là ảnh của ai. Ở bước phân 
lớp, thường thì phương pháp k-nearest neighbor sẽ được sử dụng, ngoài ra có thể sử 
dụng SVM (Support Vector Machine) tuy nhiên không mang lại hiệu quả cao. Dữ liệu 
cho một hệ thống nhận dạng mặt được chia làm 3 tập: tập huấn luyện (Training set), 
tập tham chiếu (reference set hay gallery set) và tập để nhận dạng (probe set hay query 
set, đôi khi còn gọi là test set). Trong nhiều hệ thống, tập training trùng với tập 
reference. Tập training gồm các ảnh được dùng để huấn luyện (hay học), thông 
thường tập này được dùng để sinh ra một không gian con (projection subspace) là một 
 3 ma trận và phương pháp hay được sử dụng là PCA (Principal Component Analysis), 
WPCA (Whitened PCA), LDA (Linear Discriminant Analysis), KPCA (Kernel PCA). 
Tập reference gồm các ảnh đã biết danh tính được chiếu (projected) vào không gian 
con ở bước training. Bước training nhằm 2 mục đích: giảm số chiều (Dimension 
reduction) của các vector đặc trưng (Feature vector) vì các vector này thường có độ 
dài khá lớn (vài nghìn tới vài trăm nghìn) nên nếu để nguyên thì việc tính toán sẽ rất 
rất lâu, thứ hai là làm tăng tính phân biệt giữa các ảnh khác lớp (định danh khác nhau), 
ngoài ra có thể làm giảm tính phân biệt giữa các ảnh thuộc về một lớp (tùy theo 
phương pháp, ví dụ như Linear Discriminant Analysis LDA- còn gọi là Fisher Linear 
Discriminant Analysis-Fisherface là một phương pháp làm việc với tập Training mà 
mỗi đối tượng có nhiều ảnh mặt ở các điều kiện khác nhau). Sau khi thực hiện chiếu 
tập Reference vào không gian con, hệ thống lưu lại kết quả là một ma trận với mỗi cột 
của ma trận là một vector tương ứng với ảnh (định danh đã biết) để thực hiện nhận 
dạng (hay phân lớp). Nhận dạng (hay phân lớp) được thực hiện với tập các ảnh khảo 
sát, sau khi tiền xử lý xong, mỗi ảnh sẽ được áp dụng phương pháp trích chọn đặc 
trưng (như với các ảnh thuộc tập training và Reference) và được chiếu vào không gian 
con. Tiếp đến việc phân lớp sẽ dựa trên phương pháp k-NN, định danh của một ảnh 
cần xác định sẽ được gán là định danh của ảnh có khoảng cách (distance) gần với nó 
nhất. Ở đây cần lưu ý là mỗi ảnh là một vector nên có thể dùng khái niệm hàm khoảng 
cách giữa hai vector để đo sự khác biệt giữa các ảnh.
 Ứng dụng của nhận diện khuôn mặt người:
 • Hệ thống tương tác giữa người và máy: giúp những người bị tật hoặc khiếm 
 khuyết có thể trao đổi. 
 • Hệ thống quan sát, theo dõi và bảo vệ.
 • Thẻ căn cước, chứng minh thư nhân dân (Face Indentification).
 • Tìm kiếm và tổ chức dữ liệu liên quan đến con người thông qua khuôn mặt 
 người trên nhiều hệ cơ sở dữ liệu lưu trữ thật lớn, như internet, các hãng truyền 
 hình.
 • Ứng dụng trong video phone.
 • Phân loại trong lưu trữ hình ảnh trong điện thoại di động. 
 • Kiểm tra trạng thái người lái xe có ngủ gật, mất tập trung hay không, và hỗ trợ 
 thông báo khi cần thiết.
 • Trong lĩnh vực thiết kế điều khiển robot.
 Phương pháp nhận diện khuôn mặt người:
 Dựa vào những đặc điểm của phương pháp nhận diện khuôn mặt người trên ảnh. 
Các phương pháp này được chia làm bốn hướng tiếp cận chính:
 4 • Hướng tiếp cận dựa trên tri thức: Mã hóa các hiểu biết của con người về khuôn 
 mặt thành các luật. Thông thường các luật mô tả mối quan hệ giữa các đặc 
 trưng.
 • Hướng tiếp cận dựa trên các đặc trưng không thay đổi: Mục tiêu của các thuật 
 toán này là đi tìm các đặc trưng mô tả cấu trúc khuôn mặt người mà các đặc 
 trưng này sẽ không thay đổi theo thời gian, và không phụ thuộc vào biểu cảm 
 khuôn mặt, vị trí đặt thiết bị thu hình hay điều kiện ánh sáng. 
 • Hướng tiếp cận dựa trên so mẫu khớp: Dùng các mẫu chuẩn của khuôn mặt 
 người (các mẫu này được lựa chọn và lưu trữ) để mô tả cho khuôn mặt người 
 hay các đặc trưng khuôn mặt (các mẫu này phải được chọn làm sao cho tách 
 biệt nhau theo tiêu chuẩn mà các tác giả định ra để so sánh). Các mối tương 
 quan giữa những dữ liệu ảnh đưa vào và các mẫu dùng để xác định khuôn mặt 
 người.
 • Hướng tiếp cận dựa trên diện mạo: Trái ngược hẳn với so mẫu khớp, các mô 
 hình (hay các mẫu) được học từ một tập ảnh huấn luyện trước đó. Sau đó hệ 
 thống (mô hình) sẽ xác định khuôn mặt người. Hay một số tác giả còn gọi 
 hướng tiếp cận này là hướng tiếp cận theo phương pháp học.
 Ưu và nhược điểm
 So với các công nghệ khác
 Trong số các kỹ thuật sinh trắc học, nhận dạng khuôn mặt có thể không phải là 
phương pháp đáng tin cậy và hiệu quả nhất. Tuy nhiên, một trong những lợi thế quan 
trọng là nó không đòi hỏi sự hợp tác của các đối tượng thử nghiệm. Các hệ thống thiết 
kế được lắp đặt tại các sân bay, khu chung cư, và những nơi công cộng khác có thể 
xác định các cá nhân giữa đám đông, mà không bỏ sót một ai. Sinh trắc học khác như 
dấu vân tay, quét mống mắt, và nhận dạng giọng nói không thể thực hiện được điều 
này. 
 Nhược điểm
 Nhận dạng khuôn mặt còn rất xa mới có thể đạt đến mức độ hoàn hảo, ngoài ra 
cũng rất khó để thực hiện phương pháp này trong các điều kiện nhất định. Ralph 
Gross, một nhà nghiên cứu tại Viện Mellon Robotics Carnegie, mô tả một trở ngại liên 
quan đến các góc nhìn của khuôn mặt: "Nhận dạng khuôn mặt đã thực hiện được khá 
tốt ở phía mặt trước và phía chênh lệch 20 độ, nhưng ngay sau khi bạn đi về phía góc 
khuất, thì nó có vấn đề." 
 Các điều kiện khác mà nhận dạng khuôn mặt không làm việc tốt bao gồm thiếu 
ánh sáng, đeo kính mát, tóc dài, hoặc các đối tượng mà một phần khuôn mặt bị che, và 
các hình ảnh độ phân giải thấp. Một bất lợi nghiêm trọng là nhiều hệ thống sẽ kém 
 5 hiệu quả nếu biểu hiện khuôn mặt khác nhau. Ngay cả một nụ cười lớn, cũng có thể 
làm cho hệ thống giảm tính hiệu quả. Ngoài ra còn có sự không thống nhất trong các 
bộ dữ liệu được sử dụng bởi các nhà nghiên cứu. 
 Thách thức đối với nhận diện khuôn mặt: 
 Hiện nay các vấn đề sau được coi là thách thức lớn (chưa có phương pháp tối ưu) 
đối với nhận dạng mặt:
 • Sự thay đổi hướng khuôn mặt: kết quả với các ảnh có hướng thay đổi ( > 45°, 
 không phải chính diện) còn khá khiêm tốn.
 • Độ phân giải thấp: ảnh thu được từ các camera giám sát thường có kích thước 
 và chất lượng rất rất thấp, các kết quả nghiên cứu về lĩnh vực này còn chưa 
 nhiều.
 • Nhận diện khuôn mặt dựa trên video: với sự phát triển của các phương tiện 
 multimedia, thông tin mặt người trong các dữ liệu video là vô cùng nhiều, tuy 
 nhiên hầu hết các phương pháp nhận dạng vẫn làm việc với ảnh tĩnh trích xuất 
 từ dữ liệu video, chưa có phương pháp tốt tận dụng hết ưu thế của dữ liệu 
 video.
 • Các hệ thống lớn: các cơ sở dữ liệu ảnh khuôn mặt được test bởi các nhà 
 nghiên cứu còn khá nhỏ (vài trăm tới vài chục nghìn ảnh mặt), tuy nhiên trên 
 thực tế các CSDL có thể rất lớn, ví dụ CSDL ảnh khuôn mặt của cảnh sát có 
 thể chứa từ hàng triệu tới hơn 1 tỉ ảnh 
 • Điều kiện lão hóa: việc nhận dạng ảnh mặt thay đổi theo thời gian thực sự vẫn 
 còn là một vấn đề lớn ngay cả đối với khả năng nhận dạng của con người.
 • Điều kiện sáng: là một trong những thách thức lớn nhất của nhận dạng mặt, 
 chưa có phương pháp tốt cho các ảnh chụp ở điều kiện ngoài trời.
II. THUẬT TOÁN PCA.
 Phân tính thành phần chính (Principal component analysis) hay còn gọi là PCA là 
một trong những kết quả đẹp từ việc áp dụng đại số tuyến tính. PCA được sử dụng 
nhiều trong các khuôn mẫu phân tích bởi vì nó là phương pháp không cần tham số và 
đơn giản cho việc trích xuất thông tin thích hợp từ các tập dữ liệu không rõ ràng. PCA 
cung cấp một hướng đi cho việc làm thế nào để hạn chế một tập dữ liệu phức tạp tới 
một tập dữ liệu với số chiểu nhỏ hơn để hiện ra thông tin ẩn dưới tập dữ liệu không rõ 
ràng đó.
 Thông thường để hiểu rõ một hiện tượng nào đó, ta thường đo lường một vài đại 
lượng trong hệ thống. Ta có thể không tính toán được điều gì đã xảy ra do dữ liệu đo 
được rất mù mờ, không rõ ràng, số lượng các biến đo lường có thể rất lớn và tại các 
 6 thời điểm dễ gây nhầm lẫn. Ví dụ như với một hệ thống đơn giản ta chỉ cần một vài đo 
lường để tính toán hệ thống đó, nhưng đó là với trường hợp ta đã có những kinh 
nghiệm trước đó về hệ thống, nếu không có kinh nghiệm về hệ thống, thường thì ta sẽ 
sử dụng những hiểu biết đã có để đo lường hệ thống này, nhưng những hiểu biết này 
không phù hợp với hệ thống nên các phép đo này sử dụng một mô hình nhiều chiều 
hơn thực tế để mô tả hệ thống, gây nên dư thừa và dữ liệu không rõ ràng. Thuật toán 
PCA rất hữu dụng trong những trường hợp này. Nó sẽ biến đổi tập dữ liệu đo lường 
dư thừa, nhiễu lớn về tập dữ liệu mà biểu diễn diễn tốt nhất (dễ quan sát nhất, dễ phân 
biệt nhất) hệ thống. Với một hệ thống liên tục và tuyến tính nếu ta đưa các đo lường 
vào một không gian vector nơi mà mỗi thể hiện của hệ thống được xem như một 
vector thuộc không gian vector đó thì nó sẽ là tổ hợp tuyến tính của các vector cơ sở 
của không gian vector đó (số các vector cơ sở là số chiều của không gian đó). Ta sẽ sử 
dụng một phép biến đổi tuyến tính để ánh xạ tập dữ liệu gốc vào tập dữ liệu mới và ta 
mong muốn rằng tập dữ liệu mới này sẽ giảm sự dư thừa và nhiễu. Nhiệm vụ của ta là 
tìm ra phép biến đổi này.
 Một số đặc điểm của PCA:
 • Giúp giảm số chiều của dữ liệu.
 • Thay vì giữ lại các trục tọa độ của không gian cũ, PCA xây dựng một không 
 gian mới ít chiều hơn, nhưng lại có khả năng biểu diễn dữ liệu tốt tương đương 
 không gian cũ, nghĩa là đảm bảo độ biến thiên (variability) của dữ liệu trên mỗi 
 chiều mới.
 • Các trục tọa độ trong không gian mới là tổ hợp tuyến tính của không gian cũ, 
 do đó về mặt ngữ nghĩa, PCA xây dựng đặc trưng mới dựa trên các đặc trưng 
 đã quan sát được. Điểm hay là những đặc trưng này vẫn biểu diễn tốt dữ liệu 
 ban đầu.
 • Trong không gian mới, các liên kết tiềm ẩn của dữ liệu có thể được khám phá, 
 mà nếu đặt trong không gian cũ thì khó phát hiện hơn, hoặc những liên kết như 
 thế không thể hiện rõ.
 Giả sử, với X là ma trận các vector biểu diễn tập dữ liệu gốc, Y là ma trận các 
vector biểu diễn lại tập dữ liệu. P là phép biến đổi tuyến tính. Công thức để ánh xạ tập 
dữ liệu gốc vào tập dữ liệu biểu diễn lại như sau:
 푃 = 푌 (1)
 Sau đây ta sẽ phân tích làm thế nào để xác định P. Có hai đại lượng toán học mà 
chúng ta cần quan tâm đó là phương sai và hiệp phương sai. Trong lý thuyết xác 
suất và thống kê:
 7 • Phương sai của một biến ngẫu nhiên là một độ đo sự phân tán thống kê của 
 biến đó, nó hàm ý các giá trị của biến đó thường ở cách giá trị kỳ vọng bao xa.
 푛 2
 ∑ 푖 ― 
 휎2 = 푖=1
 (푛 ― 1)
 • Hiệp phương sai là độ đo sự biến thiên cùng nhau của hai biến ngẫu nhiên.
 푛
 ∑ 푖 ― 푌푖 ― 푌
 표푣( ,푌) = 푖=1
 (푛 ― 1)
 Hiệp phương sai của hai biến ngẫu nhiên X và Y cho biết mối tương quan giữa X 
và Y. Giá trị của hiệp phương sai không quan trọng bằng dấu của nó.
 • Nếu giá trị hiệp phương sai là dương chỉ ra rằng X và Y tăng hoặc giảm cùng 
 nhau.
 • Nếu giá trị hiệp phương sai là âm sẽ chỉ ra rằng X sẽ tăng trong khi Y sẽ giảm 
 hoặc ngược lại.
 • Nếu giá trị hiệp phương sai bằng không, X và Y độc lập với nhau.
 Hiệp phương sai là công cụ hữu dụng để tìm mối liên hệ giữa các chiều trong một 
tập dữ liệu có số chiều cao. Hiệp phương sai của một biến bằng phương sai của biến 
đó.
 Các vector trong không gian vector được xem như một biến ngẫu nhiên nhiều 
chiều, mỗi thành phần của vector là một biến ngẫu nhiên vô hướng. Giả sử ta có 
vector sau.
 1
 = ⋮
 푛
 Ma trân hiệp phương sai của của X có dạng sau.
 표푣( 1, 1) 표푣( 1, 2) ⋯ 표푣( 1, 푛)
 1 표푣( , ) 표푣( , ) ⋯ 표푣( , )
 = = 2 1 2 2 2 푛
 푛 ― 1 ⋮ ⋮ ⋱ ⋮
 표푣( 푛, 1) 표푣( 푛, 2) ⋯ 표푣( 푛, 푛)
 Ta có nhận xét sau về ma trận hiệp phương sai:
 8 • Đường chéo ma trận là các phương sai của các thành phần của vector ngẫu 
 nhiên X.
 • Các vị trí không phải đường chéo cho thấy mối tương quan dữ liệu theo các 
 chiều tương ứng trong vector ngẫu nhiên X.
 • Ma trận C là ma trận đối xứng.
 X là vector ngẫu nhiên nên ta có thể nói các thành phần không phải đường chéo 
của ma trận C biểu diễn mối tương quan giữa các chiều trong tập dữ liệu. Các thành 
phần đường chéo biểu diễn khả năng phân tán thống kê của dữ liệu theo chiều tương 
ứng. Như vậy để hệ thống có thể quan sát và phân biệt rõ ta cần tăng giá trị phương 
sai và giảm giá trị hiệp phương sai để giảm nhiễu và dư thừa. Nguyên nhân là do để 
biểu diễn tốt nhất tập dữ liệu thì nhiễu và dư thừa phải nhỏ nhất. 
 Một đo lường phổ biến cho biết chất lượng dữ liệu là tỉ số tín hiệu trên nhiễu SNR, 
hay tỉ số của phương sai 휎2.
 2
 휎푡í푛 ℎ푖ệ 
 푆 푅 = 2
 휎푛ℎ푖ễ 
 SNR cao ( ≫ 1) chỉ ra rằng dữ liệu có độ chính xác cao, trong khi SNR thấp chỉ ra 
dữ liệu nhiễm nhiễu lớn. Trong ma trận hiệp phương sai các thành phần đường chéo là 
phương sai dữ liệu theo chiều tương ứng. Chiều có phương sai lớn tương ứng với hệ 
thống thay đổi rất nhiều với chiều này tức nghĩa là nó phụ thuộc rất nhiều vào những 
chiều này nên ta có thể coi đây là các thành phần 휎푡í푛 ℎ푖ệ , còn chiều có phương sai 
nhỏ thì hệ thống thay đổi rất ít theo chiều đó nên ta có thể coi như 휎푛ℎ푖ễ và cần loại 
bỏ (do những thành phần nhiễu thường thay đổi rất ít xung quanh một hằng số nào 
đó), và ta cũng có xu hướng loại bỏ các chiều có tính chất hằng do các chiều này 
không giúp phân biệt rõ giữa các đo lường trong hệ thống. Mục tiêu của chúng ta là 
tìm ra các chiều mới giúp phân biệt rõ các đo lường trong hệ thống. Những chiều 
không giúp phân biệt đưa vào hệ thống càng làm cho hệ thống khó hiểu hơn. Ta xét 
tiếp hình sau
 9
File đính kèm:
de_tai_nhan_dang_mat_nguoi_tren_matlab.docx