Tiểu luận Phương pháp correspondence analysis (CA)

Trong việc nghiên cứu các đặc tính khác nhau của cùng một sản phẩm hay của các sản phẩm khác nhau để đưa ra kết luận, đánh gía về sự tương quan ảnh hưởng lẫn nhau giữa các yếu tố trên hay sự ảnh hưởng của chúng đến một giá trị khác… Người phân tích sản phẩm gặp khá nhiều khó khăn trong việc thu thập và xử lí số liệu ban đầu. Bởi với từng sản phẩm khác nhau và từng người thử – phép thử khác nhau sẽ cho ra rất nhiều kết quả đánh giá khác nhau.Ví dụ: Khảo sát về các đặt tính cảm quan của một loại nước giải khát mới được thực hiện đánh giá với 50 người thử,cho ra một số kết quả đánh giá như sau:
Về màu sắc: vàng cam, cam, vàng.
Về mùi hương: hương cam, hương chanh, hương thơm.
Về vị ngọt: thấp, trung bình, cao.
22 trang Minh Tâm 29/03/2025 6940
Download
Bạn đang xem 20 trang mẫu của tài liệu "Tiểu luận Phương pháp correspondence analysis (CA)", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Tiểu luận Phương pháp correspondence analysis (CA)

 Correspondence Analysis- CA
 BỘ CÔNG THƯƠNG
 TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP. HCM
 KHOA CÔNG NGHỆ THỰC PHẨM
 MÔN XỬ LÍ SỐ LIỆU THỰC NGHIỆM
 
 TIỂU LUẬN
 PHƯƠNG PHÁP CORRESPONDENCE ANALYSIS 
 (CA)
 GVHD: Trần Thị Hồng Cẩm
 Nhóm: Nhóm 6 Lớp: 05DHDB2
 - Phạm Văn Đông 2022140345 
 - Phạm Văn Luân 2022140331
 - Hà Trung Phương 2022140357
 - Hoàng Anh Đức 2022140322
 Buổi: Thứ 4 – tiết 9+10 – phòng B107
 TP. HCM, tháng 4 năm 2016
Nhóm 9
 Page 1
 Tp.HCM, Tháng 05/2014 Correspondence Analysis- CA
 Danh sách nhóm và bảng phân công nhiệm vụ.
 -
 -
 -
Nhóm 9
 Page 2 Correspondence Analysis- CA
 MỤC LỤC
CHƯƠNG 1: GIỚI THIỆU CHUNG...................................................................................4
CHƯƠNG 2: ĐẶC ĐIỂM DATA/ DỮ LIỆU CẦN PHÂN TÍCH......................................6
2.1. Một số khái niệm cơ bản ...............................................................................................6
2.2. Đặc điểm dữ liệu đầu vào (input)..................................................................................6
CHƯƠNG 3: CÁCH BỐ TRÍ DỮ LIỆU TRONG DATA...................................................8
3.1. Cách bố trí dữ liệu đầu vào trong bảng dự phòng .........................................................8
3.2. Tiền xử lí dữ liệu đầu vào..............................................................................................9
3.2.1. χ2 Tính toán ................................................................................................................9
3.2.2. χ2 Khoảng cách ......................................................................................................10
CHƯƠNG 4: PHẦN MỀN HỖ TRỢ VÀ CÁCH ĐỌC KẾT QUẢ ..................................12
4.1. Giới thiệu một số phần mền thông dụng .....................................................................12
4.2. Phần mềm XLSTAT .....................................................................................................12
4.2.1. Rows and Column Profile ........................................................................................14
4.2.2. Kiểm định sự phụ thuộc giữa các dòng (rows) và cột (columns) trong Contingency 
Table 15
4.2.3. Xác định số chiều của không gian dùng để biểu diễn các điểm...............................16
4.2.4. Giải thích các chiều (các trục - axis) ........................................................................17
4.2.5. Biểu diễn trực quan bằng bản đồ kết quả CA...........................................................18
4.2.6. Đánh giá chất lượng của bản đồ ...............................................................................21
KẾT LUẬN .........................................................................................................................22
Nhóm 9
 Page 3 Correspondence Analysis- CA
 CHƯƠNG 1: GIỚI THIỆU CHUNG
 Trong việc nghiên cứu các đặc tính khác nhau của cùng một sản phẩm hay của các 
sản phẩm khác nhau để đưa ra kết luận, đánh giá về sự tương quan ảnh hưởng lẫn nhau 
giữa các yếu tố trên hay sự ảnh hưởng của chúng đến một giá trị khác Người phân tích 
sản phẩm gặp khá nhiều khó khăn trong việc thu thập và xử lí số liệu ban đầu. Bởi với 
từng sản phẩm khác nhau và từng người thử – phép thử khác nhau sẽ cho ra rất nhiều kết 
quả đánh giá khác nhau.
 Ví dụ: Khảo sát về các đặt tính cảm quan của một loại nước giải khát mới được thực 
hiện đánh giá với 50 người thử,cho ra một số kết quả đánh giá như sau:
 - Về màu sắc: vàng cam, cam, vàng.
 - Về mùi hương: hương cam, hương chanh, hương thơm.
 - Về vị ngọt: thấp, trung bình, cao.
 - 
 Mỗi tính chất có số người cùng đánh giá khác nhau.
 Với một loạt những kết quả đánh giá trên rất khó để đưa ra kết luận chính xác về đặc 
tính của sản phẩm. Do đó những dữ liệu ban đầu trên - “bộ dữ liệu thô” cần được xử lí, 
tóm tắt, mã hóa, phân tích thành dạng đơn giản và khoa học hơn, giúp ta dễ dàng tiếp 
cận và có thể rút ra kết luận từ các kết quả đã được xử lí và phân tích. Một trong số những 
phương pháp phân tích số liệu thường được sử dụng là Phân tích tương ứng 
Correspondence Analysis- CA.
 Correspondence Analysis- CA là một phân tích thành phần chính tổng quát phù hợp 
cho việc phân tích dữ liệu định tính. Ban đầu, CA được tạo ra để phân tích “bảng dự 
phòng”, nhưng về sau nó được sử dụng linh hoạt hơn cho nhiều bảng dữ liệu khác.có thể 
hiểu đơn giản Correspondence Analysis- CA là phương pháp trực quan để phân tích dữ 
liệu được biểu diễn bằng các bảng dữ liệu 2 chiều (contingency table) hay đa chiều, giúp 
đơn giản hình thức phân tích trong nghiên cứu.
Nhóm 9
 Page 4 Correspondence Analysis- CA
 Mục tiêu của phân tích tương ứng CA là chuyển đổi một bảng dữ liệu thành hai 
bộ yếu tố điểm: Một cho các hàng và một cho các cột. Điểm yếu tố phải là điểm đại diện 
tốt nhất của cấu trúc tương tự của các hàng và các cột trong bảng. Ngoài ra, yếu tố điểm 
có thể được vẽ trên bản đồ, hiển thị các thông tin cần thiết của bảng dữ liệu gốc. Trong 
các bản đồ này, tọa độ của các điểm hiển thị các yếu tố tương tự như các hàng và các cột 
trong bảng dữ liệu. Điều đặc biệt là các điểm yếu tố của các hàng và các cột có cùng 
phương sai và, do đó, cả hàng và cột có thể được đại diện thuận tiện trên cùng một bản 
đồ duy nhất.
 Như vậy kết quả của CA là bản đồ các điểm (Map of Points). Trong đó các điểm 
biểu diễn cho các dòng (rows) và các cột (columns) của bảng. Sự hiển thị các hàng và cột 
của một bảng như là các điểm trong một bản đồ không gian, với một giải thích hình học 
cụ thể các vị trí của các điểm như một phương tiện để giải thích những điểm tương đồng 
và khác biệt giữa các hàng , sự giống nhau và khác nhau giữa cột và sự liên kết giữa các 
hàng và cột. Các kết quả cung cấp thông tin tương tự như trong thực tiễn sản xuất, giúp 
chúng ta phát hiện được mối quan hệ tìm ẩn ảnh hưởng lẫn nhau của các yếu tố được 
phân tích trong bảng.
Nhóm 9
 Page 5 Correspondence Analysis- CA
 CHƯƠNG 2: ĐẶC ĐIỂM DATA/ DỮ LIỆU CẦN PHÂN TÍCH
2.1. Một số khái niệm cơ bản
 Profile: Tần suất tương đối trong bảng dữ liệu thống kê (Row and column profiles). 
Dùng để xác định tọa độ của các điểm trong bản đồ
 Masses (marginal distribution): Đo lường độ quan trọng của các điểm.
 Centroid (tâm): Trọng số trung bình của các vị trí
 Projection: Phép chiếu lên không gian con.
 Inertia: Tổng bình phương các khoảng cách của các điểm đến centroid.
2.2. Đặc điểm dữ liệu đầu vào (input)
 Như đã giới thiệu ở phần trên, các dữ liệu thu thập ban đầu là “tập các dữ liệu thô”, 
chủ yếu là các dữ liệu dạng văn bản (các nhận định và đánh giá ). Do đó, những dữ liệu 
này cần được xử lí và tóm tắt lại để thuận tiện và dễ dàng cho quá trình phân tích.
 Các dữ liệu dạng văn bản này cần được đồng nhất về mặt ngữ nghĩa. Do các dữ liệu 
dạng văn bản thường rất đa dạng và phong phú về mặt ngữ nghĩa (nghĩa của từ).
 Như ở ví dụ trên, khi khảo sát đặc tính của một loại nước giải khát do cách cảm 
nhận của những người khác nhau và cách kết luận tự do nên sẽ dẫn đến những đánh giá có 
sự khác nhau về mặt từ ngữ nhưng lại cùng diễn tả một tính chất chung như: “vàng”, 
“vàng vàng”, “vàng nhạt”, cùng mang một ý nghĩa khá giống nhau là “vàng”; hay “ngòn 
ngọt”, “ngọt dịu”, “hơi ngọt” cùng diễn đạt tính chất trung bình của vị ngọt hơn thế 
nữa, nhận xét và đánh giá của một người hoàn toàn có thể bị chi phối bởi yếu tố tâm lí, 
được xem là các dữ liệu ngẫu nhiên – tự phát. Do đó, việc đồng nhất dữ liệu dạng văn bản 
là việc làm cần thiết giúp giảm mức độ phức tạp của dữ liệu đầu vào.
 Phân tích tương ứng là hiệu quả nhất nếu các điều kiện sau đây:
 - Ma trận dữ liệu là đủ lớn, để kiểm tra trực quan hoặc phân tích thống kê đơn giản 
 không thể tiết lộ cấu trúc của nó
Nhóm 9
 Page 6 Correspondence Analysis- CA
 - Các biến là đồng nhất, do đó nó làm cho cảm giác để tính toán khoảng cách thống 
 kê giữa các hàng hoặc cột.
 - Ma trận dữ liệu là một ưu tiên "vô định hình", tức là cấu trúc của nó, hoặc là không 
 biết hoặc chưa được hiểu rõ.
Nhóm 9
 Page 7 Correspondence Analysis- CA
 CHƯƠNG 3: CÁCH BỐ TRÍ DỮ LIỆU TRONG DATA
 3.1. Cách bố trí dữ liệu đầu vào trong bảng dự phòng
 Trong phương pháp phân tích tương ứng này, “bộ dữ liệu thô” ban đầu cần được 
tóm tắt và hệ thống hóa vào một bảng dữ liệu thống kê (bảng ngẫu nhiên). Ở bảng thống 
kê này chúng ta quan tâm đến hai biến: một là biến tương ứng với lời đánh giá của những 
người được khảo sát (biến đặc tính), biến thứ hai tương ứng với sản phẩm được đánh giá.
 Các biến dữ liệu trên được bố trí trong bảng như sau:
 - Các hàng i (rows): chứa dữ liệu tương ứng với các sản phẩm được đánh giá.
 - Các cột j (colums): chứa các dữ liệu tương ứng với từ ngữ dùng để mô tả đặc tính 
 của sản phẩm.
 - Các điểm giao nhau giữa hàng i và cột j: chứa dữ liệu ghi nhận tần số tương quan 
 giữa i và j, tức số lần đánh giá được lập lại đối với một đặc tính của từng sản phẩm.
 Ví dụ: Bảng dự phòng sau khảo sát về tần suất sử dụng của 4 nhãn hiệu kem đánh răng 
(Brand A, Brand B, Brand C và Brand D) tại 3 khu vực (Region 1, Region 2 và Region 3) 
được điều tra ngẫu nhiên từ 120 người như sau:
 Region 1 Region 2 Region 3 Total
 Brand A 5 5 30 40
 Brand B 5 25 5 35
 Brand C 15 5 5 25
 Brand D 15 5 0 20
 Total 40 40 40 120
Nhóm 9
 Page 8 Correspondence Analysis- CA
 3.2. Tiền xử lí dữ liệu đầu vào
 3.2.1. χ2 Tính toán
 Câu hỏi đặt ra là liệu bạn có chắc chắn các dữ liệu trong bảng dự phòng độc lập với 
nhau? Để khắng định điều đó chúng ta cần kiểm tra χ 2 , để xem các tab chéo có lệch nhau 
đáng kể giữa các hàng và các cột.
 Việc kiểm tra được mô tả chính thức bởi các ma trận (i x j), F =[f ij] . Chúng ta nhận 
được các ma trận tương ứng P từ F bằng cách chia các mục của nó: 
 (푖푗)
 P = [ p ] =[ , where n = ∑ ∑퐽 (1)
 ij 푛 ] 푖=1 퐽=1 (푖푗)
 Tiếp theo, xác định hàng và cột tổng: 
 퐽
 p(i + ) = pij 
 푗=1
 (2) 
 p( + j) = pij
 푖=1
 Các χ2 Thống kê, X2 được tính:
 푠푞 푒(X) = n∑ ∑퐽 푠푞 푒[ (푖푗) µ(ij)] (3)
 푖=1 퐽=1 µ(ij) 
 µij là ước tính giá trị giả định độc lập của đầu ra:
 µij = pi+ p+j (4)
 Nếu các hàng và cột thực sự là độc lập (tức là, "theo giả thuyết 
 null"), X2 nên theo một χ2 phân phối với (I-1)x(J-1) bậc tự do. Chúng ta có thể 
 so sánh giá trị thực tế tính toán cho các ví dụ tab chéo với phân phối của mình 
Nhóm 9
 Page 9 Correspondence Analysis- CA
 theo giả thuyết. 
 3.2.2.χ 2 Khoảng cách
 Theo mục đích của phân tích tương ứng, sự khác biệt giữa các bản phân phối của các 
biến hàng ngang của bảng chéo (bảng dự phòng) được đo bằng χ 2 khoảng cách, trong đó 
có trọng lượng khoảng cách Euclide giữa các hàng bình, với trọng lượng tỉ lệ nghịch với 
căn bậc hai của tổng số cột. Trong các biểu tượng, các χ2 khoảng cách giữa các hàng i và 
hàng k được cho bởi biểu thức:
 (5)
 χ2 khoảng cách giữa các mẫu văn bản sử dụng ma trận tương ứng và hiển thị chúng 
trong một bảng nhỏ gọn hợp lý (sau khi nhân rộng lên 100 và làm tròn số).
Từ phương trình (5) kể từ khi tổng hàng cho các trọng tâm là 1 (theo định nghĩa của P ), 
các χ2 khoảng cách hàng i với trọng tâm là:
 (7)
 Bây giờ với µij như được định nghĩa trong (4):
 (8)
 Vẽ một tương tự với khái niệm vật lý của quán tính góc cạnh, phân tích tương ứng xác 
định quán tính của một hàng như sản phẩm của tổng hàng (được gọi là khối lượng của 
 2
hàng) và bình phương khoảng cách của nó với trọng tâm pi+diz . So sánh biểu 
 2 2 
thức diz trong (5) với định nghĩa của χ . Thống kê trong (3), nó sau đó tổng quán tính 
Nhóm 9
 Page 10
File đính kèm:
tieu_luan_phuong_phap_correspondence_analysis_ca.docx