Thứ Tư, 16 tháng 3, 2016

Thuật toán nhận dạng khuôn mặt người và xây dựng chương trình thử nghiệm

diễn của một ảnh. Các mô hình biểu diễn ảnh cho ta một mô tả logic hay định lượng các tính chất của hàm này. Việc xử lý ảnh số phải được lấy mẫu và lượng tử hóa. Việc lượng tử hóa là chuyển đổi tín hiệu tương tự sang tín hiệu số của một ảnh đã lấy mẫu sang một số hữu hạn mức xám. Một số mô hình thường dùng biểu diễn ảnh: mô hình toán, mô hình thống kê. 1.3. Ảnh màu Như ta đã biết thì khi cho ánh sáng trắng đi qua lăng kính ta sẽ thu được một dãy phổ màu bao gồm 6 màu rộng: tím, lam, lục, vàng, cam, đỏ. Nếu nhìn kỹ thì sẽ không có ranh giới rõ ràng giữa các màu mà màu này sẽ từ từ chuyển sang màu kia. Mắt chúng ta nhìn thấy được là do ánh sáng phản xạ từ vật thể. Tất cả các màu được tạo ra từ 3 màu cơ bản (màu sơ cấp) là: đỏ (R), lam (B) và lục (G). Các màu cơ bản trộn lại với nhau theo một tỉ lệ nhất định để tạo ra các màu thứ cấp. Phương trình màu: Y= 0.2989*R + 0.58662*G + 0.11448*B Hình 1.2: Các màu cơ sở Ví dụ: Đỏ + lục = vàng Lục + lam = xanh -5- Trộn ba màu sơ cấp hoặc trộn một màu thứ cấp với màu sơ cấp ngược với nó sẽ tạo ra được ánh sáng trắng. Các màu gốc có liên quan đến các khái niệm sinh học hơn là vật lý, nó dựa trên cơ sở phản ứng sinh lý học của mắt người đối với ánh sáng. Mắt người có các tế bào cảm quang hình nón nên còn được gọi là tế bào hình nón, các tế bào này thông thường có phản ứng cực đại với ánh sáng vàng - xanh lá cây (tế bào hình nón L), xanh lá cây (tế bào hình nón M) và xanh lam (tế bào hình nón S) tương ứng với các bước sóng khoảng 564 nm, 534 nm và 420 nm. Ví dụ, màu vàng thấy được khi các tế bào cảm nhận màu xanh ánh vàng được kích thích nhiều hơn một chút so với tế bào cảm nhận màu xanh lá cây và màu đỏ cảm nhận được khi các tế bào cảm nhận màu vàng - xanh lá cây được kích thích nhiều hơn so với tế bào cảm nhận màu xanh lá cây. Các đặc trưng dùng để phân biệt một màu với màu khác là: độ sáng (Brightness), sắc màu (Hue) và độ bảo hòa màu (Saturation). + Màu sắc có liên quan đến bước sóng ánh sáng. Thông thường, sắc màu chính là tên của màu. Ví dụ: đỏ, cam, lục… + Độ sáng thể hiện về cường độ ánh sáng: mô tả nó sáng hay tối như thế nào. + Độ bão hòa màu: thể hiện độ thuần khiết của màu. Khi độ bão hòa cao, màu sẽ sạch và rực rỡ. Có nhiều mô hình màu như RGB, CYM, YIQ, CIE... Ở đây chỉ trình bày về mô hình màu RGB. -6- Lam (0.0.1) Trắng (0.1.0) Lục Đen Đỏ Vàng (1.0.0) Hình 1.3: Mô hình màu RGB Các màu R, G, B nằm ở các đỉnh trên trục tọa độ của khối vuông. Màu đen nằm ở gốc tọa độ, màu trắng nằm ở góc xa nhất so với điểm gốc. Thang màu xám kéo dài từ đen đến trắng (đường chấm). Hình ảnh trong mô hình màu RGB bao gồm 3 mặt phẳng ảnh độc lập (dùng cho các màu sơ cấp). Thường thì ta giả thiết là tất cả các giá trị màu được chuẩn hóa (tức là khối vuông là khối đơn vị), tất cả các giá trị màu nằm trong khoảng [0,1]. Vì vậy trong hệ màu RGB các màu có thể mô tả như là những điểm bên trong hình lập phương. Ở gốc tọa độ (0, 0, 0) là màu đen. Trên các trục tọa độ dương là các màu đỏ, lục, lam. Khi đó, ánh sáng từ các điểm riêng biệt sẽ được cộng với nhau để tạo ra các màu khác nhau. + (0, 0, 0) là màu đen + (255, 255, 255) là màu trắng + (255, 0, 0) là màu đỏ + (0, 255, 0) là màu xanh lá cây + (0, 0, 255) là màu xanh lam + (255, 255, 0) là màu vàng + (0, 255, 255) là màu xanh ngọc + (255, 0, 255) là màu hồng sẫm -7- 1.4. Các định dạng ảnh cơ bản trong xử lý ảnh Ảnh thu được sau quá trình số hóa thường được lưu lại cho các quá trình xử lý tiếp theo hay truyền đi. Trong quá trình phát triển của kỹ thuật xử lý ảnh, tồn tại nhiều định dạng ảnh khác nhau từ ảnh đen trắng (với định dạng IMG), ảnh đa cấp xám cho đến ảnh màu: (BMP, GIF, JPEG…). - Định dạng ảnh IMG là ảnh đen trắng, phần đầu của IMG có 16 byte chứa thông tin. - Định dạng ảnh GIF: GIF (viết tắt của Graphics Interchange Format; trong tiếng anh nghĩa là "Định dạng trao đổi hình ảnh") là một định dạng tập tin hình ảnh bitmap cho các hình ảnh dùng ít hơn 256 màu sắc khác nhau và các hoạt hình dùng ít hơn 256 màu cho mỗi khung hình. GIF là định dạng nén dữ liệu đặc biệt hữu ích cho việc truyền hình ảnh qua đường truyền lưu lượng nhỏ. Định dạng này được CompuServe cho ra đời vào năm 1987 và nhanh chóng được dùng rộng rãi trên World Wide Web cho đến nay. Tập tin GIF dùng nén dữ liệu bảo toàn trong đó kích thước tập tin có thể được giảm mà không làm giảm chất lượng hình ảnh, cho những hình ảnh có ít hơn 256 màu. Số lượng tối đa 256 màu làm cho định dạng này không phù hợp cho các hình chụp (thường có nhiều màu sắc). Tuy nhiên các kiểu nén dữ liệu bảo toàn cho hình chụp nhiều màu cũng có kích thước quá lớn đối với truyền dữ liệu trên mạng hiện nay. Định dạng JPEG là nén dữ liệu thất thoát có thể được dùng cho các ảnh chụp, nhưng lại làm giảm chất lượng cho các bức vẽ ít màu, tạo nên những chỗ nhòe thay cho các đường sắc nét, đồng thời độ nén cũng thấp cho các hình vẽ ít màu. Như vậy, GIF thường được dùng cho sơ đồ, hình vẽ, nút bấm và các hình ít màu, còn JPEG được dùng cho ảnh chụp. Định dạng GIF dựa vào các bảng màu: một bảng chứa tối đa 256 màu khác nhau cho biết các màu được dùng trong hình. -8- Hình 1.4: Ảnh GIF - Định dạng JPEG: Phương pháp nén ảnh JPEG (tiếng anh viết tắt cho Joint Photo - Graphic Experts Group) là một trong những phương pháp nén ảnh hiệu quả, có tỷ lệ nén ảnh tới vài chục lần. Tuy nhiên ảnh sau khi giải nén sẽ khác với ảnh ban đầu. Chất lượng ảnh bị suy giảm sau khi giải nén. Sự suy giảm này tăng dần theo hệ số nén. Tuy nhiên sự mất mát thông tin này là có thể chấp nhận được và việc loại bỏ những thông tin không cần thiết được dựa trên những nghiên cứu về hệ nhãn thị của mắt người. Phần mở rộng của các file JPEG thường có dạng .jpeg, .jfif, .jpg hay .jpe. Dạng .jpg là dạng được dùng phổ biến nhất. Hiện nay dạng nén ảnh .JPEG rất được phổ biến trong điện thoại di động cũng như những trang thiết bị lưu giữ có dung lượng nhỏ. Công đoạn chính là chia nhỏ bức ảnh thành nhiều vùng nhỏ (thông thường là những vùng 8×8 pixel) rồi sử dụng biến đổi cosin rời rạc để biến đổi những vùng thể hiện này thành dạng ma trận có 64 hệ số thể hiện "thực trạng" các pixel. Điều quan trọng là ở đây hệ số đầu tiên có khả năng thể hiện "thực trạng" cao nhất, khả năng đó giảm rất nhanh với các hệ số khác. Nói cách khác thì lượng thông tin của 64 pixel tập trung chủ yếu ở một số hệ số ma trận theo biến đổi trên. Trong giai đoạn này có sự mất mát thông tin, bởi không có biến đổi ngược chính xác. Nhưng lượng thông tin bị mất này chưa đáng kể so với giai đoạn tiếp theo. Ma trận nhận được sau biến đổi cosin rời rạc được lược bớt sự khác nhau giữa các hệ số. Đây chính là lúc mất nhiều thông tin vì người ta sẽ vứt bỏ những thay đổi nhỏ của các hệ số. Như thế khi bung ảnh đã nén ta sẽ có được những tham số khác của các pixel. Các biến đổi trên áp -9- dụng cho thành phần U và V của ảnh với mức độ cao hơn so với Y (mất nhiều thông tin của U và V hơn). Sau đó thì áp dụng phương pháp mã hóa của Gernot Hoffman: phân tích dãy số, các phần tử lặp lại nhiều được mã hóa bằng ký hiệu ngắn (marker). Khi bung ảnh người ta chỉ việc làm lại các bước trên theo quá trình ngược lại cùng với các biến đổi ngược. . Hình 1.5: Ảnh dạng JPEG 1.5. Giới thiệu về Matlab 1.5.1. Chuyển đổi giữa các kiểu dữ liệu Chúng ta có thể chuyển đổi giữa các kiểu dữ liệu uint8, uint16 và double nhờ sử dụng các hàm chuyển đổi của Matlab như im2double, im2uint8 im2uint16. Cú pháp của các hàm này rất đơn giản, chỉ cần nhập vào ma trận cần chuyển kiểu, riêng với ảnh indexed cần thêm vào chuỗi “indexed”. Tuy nhiên cần lưu ý các vấn đề sau khi chuyển đổi ảnh: - Khi chuyển đổi từ ảnh nhiều bit sang ảnh ít bit hơn, như chuyển từ uint16 sang uint8 thì sẽ làm mất đi một số thông tin của ảnh ban đầu, chất lượng ảnh sẽ giảm. - Khi chuyển đổi dữ liệu với kiểu indexed, thì lưu ý các thông tin ma trận là địa chỉ trong bản đồ màu chứ không phải giá trị màu nên không phải lúc nào cũng chuyển đổi được. Muốn chuyển được đầu tiên ta phải dùng hàm - 10 -

Không có nhận xét nào:

Đăng nhận xét