Tiểu luận Phương pháp correspondence analysis (CA)
Trong việc nghiên cứu các đặc tính khác nhau của cùng một sản phẩm hay của các sản phẩm khác nhau để đưa ra kết luận, đánh gía về sự tương quan ảnh hưởng lẫn nhau giữa các yếu tố trên hay sự ảnh hưởng của chúng đến một giá trị khác… Người phân tích sản phẩm gặp khá nhiều khó khăn trong việc thu thập và xử lí số liệu ban đầu. Bởi với từng sản phẩm khác nhau và từng người thử – phép thử khác nhau sẽ cho ra rất nhiều kết quả đánh giá khác nhau.Ví dụ: Khảo sát về các đặt tính cảm quan của một loại nước giải khát mới được thực hiện đánh giá với 50 người thử,cho ra một số kết quả đánh giá như sau:
Về màu sắc: vàng cam, cam, vàng.
Về mùi hương: hương cam, hương chanh, hương thơm.
Về vị ngọt: thấp, trung bình, cao.
Tóm tắt nội dung tài liệu: Tiểu luận Phương pháp correspondence analysis (CA)

Correspondence Analysis- CA BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP. HCM KHOA CÔNG NGHỆ THỰC PHẨM MÔN XỬ LÍ SỐ LIỆU THỰC NGHIỆM TIỂU LUẬN PHƯƠNG PHÁP CORRESPONDENCE ANALYSIS (CA) GVHD: Trần Thị Hồng Cẩm Nhóm: Nhóm 6 Lớp: 05DHDB2 - Phạm Văn Đông 2022140345 - Phạm Văn Luân 2022140331 - Hà Trung Phương 2022140357 - Hoàng Anh Đức 2022140322 Buổi: Thứ 4 – tiết 9+10 – phòng B107 TP. HCM, tháng 4 năm 2016 Nhóm 9 Page 1 Tp.HCM, Tháng 05/2014 Correspondence Analysis- CA Danh sách nhóm và bảng phân công nhiệm vụ. - - - Nhóm 9 Page 2 Correspondence Analysis- CA MỤC LỤC CHƯƠNG 1: GIỚI THIỆU CHUNG...................................................................................4 CHƯƠNG 2: ĐẶC ĐIỂM DATA/ DỮ LIỆU CẦN PHÂN TÍCH......................................6 2.1. Một số khái niệm cơ bản ...............................................................................................6 2.2. Đặc điểm dữ liệu đầu vào (input)..................................................................................6 CHƯƠNG 3: CÁCH BỐ TRÍ DỮ LIỆU TRONG DATA...................................................8 3.1. Cách bố trí dữ liệu đầu vào trong bảng dự phòng .........................................................8 3.2. Tiền xử lí dữ liệu đầu vào..............................................................................................9 3.2.1. χ2 Tính toán ................................................................................................................9 3.2.2. χ2 Khoảng cách ......................................................................................................10 CHƯƠNG 4: PHẦN MỀN HỖ TRỢ VÀ CÁCH ĐỌC KẾT QUẢ ..................................12 4.1. Giới thiệu một số phần mền thông dụng .....................................................................12 4.2. Phần mềm XLSTAT .....................................................................................................12 4.2.1. Rows and Column Profile ........................................................................................14 4.2.2. Kiểm định sự phụ thuộc giữa các dòng (rows) và cột (columns) trong Contingency Table 15 4.2.3. Xác định số chiều của không gian dùng để biểu diễn các điểm...............................16 4.2.4. Giải thích các chiều (các trục - axis) ........................................................................17 4.2.5. Biểu diễn trực quan bằng bản đồ kết quả CA...........................................................18 4.2.6. Đánh giá chất lượng của bản đồ ...............................................................................21 KẾT LUẬN .........................................................................................................................22 Nhóm 9 Page 3 Correspondence Analysis- CA CHƯƠNG 1: GIỚI THIỆU CHUNG Trong việc nghiên cứu các đặc tính khác nhau của cùng một sản phẩm hay của các sản phẩm khác nhau để đưa ra kết luận, đánh giá về sự tương quan ảnh hưởng lẫn nhau giữa các yếu tố trên hay sự ảnh hưởng của chúng đến một giá trị khác Người phân tích sản phẩm gặp khá nhiều khó khăn trong việc thu thập và xử lí số liệu ban đầu. Bởi với từng sản phẩm khác nhau và từng người thử – phép thử khác nhau sẽ cho ra rất nhiều kết quả đánh giá khác nhau. Ví dụ: Khảo sát về các đặt tính cảm quan của một loại nước giải khát mới được thực hiện đánh giá với 50 người thử,cho ra một số kết quả đánh giá như sau: - Về màu sắc: vàng cam, cam, vàng. - Về mùi hương: hương cam, hương chanh, hương thơm. - Về vị ngọt: thấp, trung bình, cao. - Mỗi tính chất có số người cùng đánh giá khác nhau. Với một loạt những kết quả đánh giá trên rất khó để đưa ra kết luận chính xác về đặc tính của sản phẩm. Do đó những dữ liệu ban đầu trên - “bộ dữ liệu thô” cần được xử lí, tóm tắt, mã hóa, phân tích thành dạng đơn giản và khoa học hơn, giúp ta dễ dàng tiếp cận và có thể rút ra kết luận từ các kết quả đã được xử lí và phân tích. Một trong số những phương pháp phân tích số liệu thường được sử dụng là Phân tích tương ứng Correspondence Analysis- CA. Correspondence Analysis- CA là một phân tích thành phần chính tổng quát phù hợp cho việc phân tích dữ liệu định tính. Ban đầu, CA được tạo ra để phân tích “bảng dự phòng”, nhưng về sau nó được sử dụng linh hoạt hơn cho nhiều bảng dữ liệu khác.có thể hiểu đơn giản Correspondence Analysis- CA là phương pháp trực quan để phân tích dữ liệu được biểu diễn bằng các bảng dữ liệu 2 chiều (contingency table) hay đa chiều, giúp đơn giản hình thức phân tích trong nghiên cứu. Nhóm 9 Page 4 Correspondence Analysis- CA Mục tiêu của phân tích tương ứng CA là chuyển đổi một bảng dữ liệu thành hai bộ yếu tố điểm: Một cho các hàng và một cho các cột. Điểm yếu tố phải là điểm đại diện tốt nhất của cấu trúc tương tự của các hàng và các cột trong bảng. Ngoài ra, yếu tố điểm có thể được vẽ trên bản đồ, hiển thị các thông tin cần thiết của bảng dữ liệu gốc. Trong các bản đồ này, tọa độ của các điểm hiển thị các yếu tố tương tự như các hàng và các cột trong bảng dữ liệu. Điều đặc biệt là các điểm yếu tố của các hàng và các cột có cùng phương sai và, do đó, cả hàng và cột có thể được đại diện thuận tiện trên cùng một bản đồ duy nhất. Như vậy kết quả của CA là bản đồ các điểm (Map of Points). Trong đó các điểm biểu diễn cho các dòng (rows) và các cột (columns) của bảng. Sự hiển thị các hàng và cột của một bảng như là các điểm trong một bản đồ không gian, với một giải thích hình học cụ thể các vị trí của các điểm như một phương tiện để giải thích những điểm tương đồng và khác biệt giữa các hàng , sự giống nhau và khác nhau giữa cột và sự liên kết giữa các hàng và cột. Các kết quả cung cấp thông tin tương tự như trong thực tiễn sản xuất, giúp chúng ta phát hiện được mối quan hệ tìm ẩn ảnh hưởng lẫn nhau của các yếu tố được phân tích trong bảng. Nhóm 9 Page 5 Correspondence Analysis- CA CHƯƠNG 2: ĐẶC ĐIỂM DATA/ DỮ LIỆU CẦN PHÂN TÍCH 2.1. Một số khái niệm cơ bản Profile: Tần suất tương đối trong bảng dữ liệu thống kê (Row and column profiles). Dùng để xác định tọa độ của các điểm trong bản đồ Masses (marginal distribution): Đo lường độ quan trọng của các điểm. Centroid (tâm): Trọng số trung bình của các vị trí Projection: Phép chiếu lên không gian con. Inertia: Tổng bình phương các khoảng cách của các điểm đến centroid. 2.2. Đặc điểm dữ liệu đầu vào (input) Như đã giới thiệu ở phần trên, các dữ liệu thu thập ban đầu là “tập các dữ liệu thô”, chủ yếu là các dữ liệu dạng văn bản (các nhận định và đánh giá ). Do đó, những dữ liệu này cần được xử lí và tóm tắt lại để thuận tiện và dễ dàng cho quá trình phân tích. Các dữ liệu dạng văn bản này cần được đồng nhất về mặt ngữ nghĩa. Do các dữ liệu dạng văn bản thường rất đa dạng và phong phú về mặt ngữ nghĩa (nghĩa của từ). Như ở ví dụ trên, khi khảo sát đặc tính của một loại nước giải khát do cách cảm nhận của những người khác nhau và cách kết luận tự do nên sẽ dẫn đến những đánh giá có sự khác nhau về mặt từ ngữ nhưng lại cùng diễn tả một tính chất chung như: “vàng”, “vàng vàng”, “vàng nhạt”, cùng mang một ý nghĩa khá giống nhau là “vàng”; hay “ngòn ngọt”, “ngọt dịu”, “hơi ngọt” cùng diễn đạt tính chất trung bình của vị ngọt hơn thế nữa, nhận xét và đánh giá của một người hoàn toàn có thể bị chi phối bởi yếu tố tâm lí, được xem là các dữ liệu ngẫu nhiên – tự phát. Do đó, việc đồng nhất dữ liệu dạng văn bản là việc làm cần thiết giúp giảm mức độ phức tạp của dữ liệu đầu vào. Phân tích tương ứng là hiệu quả nhất nếu các điều kiện sau đây: - Ma trận dữ liệu là đủ lớn, để kiểm tra trực quan hoặc phân tích thống kê đơn giản không thể tiết lộ cấu trúc của nó Nhóm 9 Page 6 Correspondence Analysis- CA - Các biến là đồng nhất, do đó nó làm cho cảm giác để tính toán khoảng cách thống kê giữa các hàng hoặc cột. - Ma trận dữ liệu là một ưu tiên "vô định hình", tức là cấu trúc của nó, hoặc là không biết hoặc chưa được hiểu rõ. Nhóm 9 Page 7 Correspondence Analysis- CA CHƯƠNG 3: CÁCH BỐ TRÍ DỮ LIỆU TRONG DATA 3.1. Cách bố trí dữ liệu đầu vào trong bảng dự phòng Trong phương pháp phân tích tương ứng này, “bộ dữ liệu thô” ban đầu cần được tóm tắt và hệ thống hóa vào một bảng dữ liệu thống kê (bảng ngẫu nhiên). Ở bảng thống kê này chúng ta quan tâm đến hai biến: một là biến tương ứng với lời đánh giá của những người được khảo sát (biến đặc tính), biến thứ hai tương ứng với sản phẩm được đánh giá. Các biến dữ liệu trên được bố trí trong bảng như sau: - Các hàng i (rows): chứa dữ liệu tương ứng với các sản phẩm được đánh giá. - Các cột j (colums): chứa các dữ liệu tương ứng với từ ngữ dùng để mô tả đặc tính của sản phẩm. - Các điểm giao nhau giữa hàng i và cột j: chứa dữ liệu ghi nhận tần số tương quan giữa i và j, tức số lần đánh giá được lập lại đối với một đặc tính của từng sản phẩm. Ví dụ: Bảng dự phòng sau khảo sát về tần suất sử dụng của 4 nhãn hiệu kem đánh răng (Brand A, Brand B, Brand C và Brand D) tại 3 khu vực (Region 1, Region 2 và Region 3) được điều tra ngẫu nhiên từ 120 người như sau: Region 1 Region 2 Region 3 Total Brand A 5 5 30 40 Brand B 5 25 5 35 Brand C 15 5 5 25 Brand D 15 5 0 20 Total 40 40 40 120 Nhóm 9 Page 8 Correspondence Analysis- CA 3.2. Tiền xử lí dữ liệu đầu vào 3.2.1. χ2 Tính toán Câu hỏi đặt ra là liệu bạn có chắc chắn các dữ liệu trong bảng dự phòng độc lập với nhau? Để khắng định điều đó chúng ta cần kiểm tra χ 2 , để xem các tab chéo có lệch nhau đáng kể giữa các hàng và các cột. Việc kiểm tra được mô tả chính thức bởi các ma trận (i x j), F =[f ij] . Chúng ta nhận được các ma trận tương ứng P từ F bằng cách chia các mục của nó: (푖푗) P = [ p ] =[ , where n = ∑ ∑퐽 (1) ij 푛 ] 푖=1 퐽=1 (푖푗) Tiếp theo, xác định hàng và cột tổng: 퐽 p(i + ) = pij 푗=1 (2) p( + j) = pij 푖=1 Các χ2 Thống kê, X2 được tính: 푠푞 푒(X) = n∑ ∑퐽 푠푞 푒[ (푖푗) µ(ij)] (3) 푖=1 퐽=1 µ(ij) µij là ước tính giá trị giả định độc lập của đầu ra: µij = pi+ p+j (4) Nếu các hàng và cột thực sự là độc lập (tức là, "theo giả thuyết null"), X2 nên theo một χ2 phân phối với (I-1)x(J-1) bậc tự do. Chúng ta có thể so sánh giá trị thực tế tính toán cho các ví dụ tab chéo với phân phối của mình Nhóm 9 Page 9 Correspondence Analysis- CA theo giả thuyết. 3.2.2.χ 2 Khoảng cách Theo mục đích của phân tích tương ứng, sự khác biệt giữa các bản phân phối của các biến hàng ngang của bảng chéo (bảng dự phòng) được đo bằng χ 2 khoảng cách, trong đó có trọng lượng khoảng cách Euclide giữa các hàng bình, với trọng lượng tỉ lệ nghịch với căn bậc hai của tổng số cột. Trong các biểu tượng, các χ2 khoảng cách giữa các hàng i và hàng k được cho bởi biểu thức: (5) χ2 khoảng cách giữa các mẫu văn bản sử dụng ma trận tương ứng và hiển thị chúng trong một bảng nhỏ gọn hợp lý (sau khi nhân rộng lên 100 và làm tròn số). Từ phương trình (5) kể từ khi tổng hàng cho các trọng tâm là 1 (theo định nghĩa của P ), các χ2 khoảng cách hàng i với trọng tâm là: (7) Bây giờ với µij như được định nghĩa trong (4): (8) Vẽ một tương tự với khái niệm vật lý của quán tính góc cạnh, phân tích tương ứng xác định quán tính của một hàng như sản phẩm của tổng hàng (được gọi là khối lượng của 2 hàng) và bình phương khoảng cách của nó với trọng tâm pi+diz . So sánh biểu 2 2 thức diz trong (5) với định nghĩa của χ . Thống kê trong (3), nó sau đó tổng quán tính Nhóm 9 Page 10
File đính kèm:
tieu_luan_phuong_phap_correspondence_analysis_ca.docx