
Thứ Tư, 16 tháng 3, 2016
Thuật toán nhận dạng khuôn mặt người và xây dựng chương trình thử nghiệm
diễn của một ảnh. Các mô hình biểu diễn ảnh cho ta một mô tả logic hay định
lượng các tính chất của hàm này.
Việc xử lý ảnh số phải được lấy mẫu và lượng tử hóa. Việc lượng tử
hóa là chuyển đổi tín hiệu tương tự sang tín hiệu số của một ảnh đã lấy mẫu
sang một số hữu hạn mức xám.
Một số mô hình thường dùng biểu diễn ảnh: mô hình toán, mô hình
thống kê.
1.3. Ảnh màu
Như ta đã biết thì khi cho ánh sáng trắng đi qua lăng kính ta sẽ thu
được một dãy phổ màu bao gồm 6 màu rộng: tím, lam, lục, vàng, cam, đỏ.
Nếu nhìn kỹ thì sẽ không có ranh giới rõ ràng giữa các màu mà màu này sẽ từ
từ chuyển sang màu kia. Mắt chúng ta nhìn thấy được là do ánh sáng phản xạ
từ vật thể.
Tất cả các màu được tạo ra từ 3 màu cơ bản (màu sơ cấp) là: đỏ (R),
lam (B) và lục (G). Các màu cơ bản trộn lại với nhau theo một tỉ lệ nhất định
để tạo ra các màu thứ cấp.
Phương trình màu:
Y= 0.2989*R + 0.58662*G + 0.11448*B
Hình 1.2: Các màu cơ sở
Ví dụ:
Đỏ + lục = vàng
Lục + lam = xanh
-5-
Trộn ba màu sơ cấp hoặc trộn một màu thứ cấp với màu sơ cấp ngược
với nó sẽ tạo ra được ánh sáng trắng. Các màu gốc có liên quan đến các khái
niệm sinh học hơn là vật lý, nó dựa trên cơ sở phản ứng sinh lý học của mắt
người đối với ánh sáng. Mắt người có các tế bào cảm quang hình nón nên còn
được gọi là tế bào hình nón, các tế bào này thông thường có phản ứng cực đại
với ánh sáng vàng - xanh lá cây (tế bào hình nón L), xanh lá cây (tế bào hình
nón M) và xanh lam (tế bào hình nón S) tương ứng với các bước sóng khoảng
564 nm, 534 nm và 420 nm. Ví dụ, màu vàng thấy được khi các tế bào cảm
nhận màu xanh ánh vàng được kích thích nhiều hơn một chút so với tế bào
cảm nhận màu xanh lá cây và màu đỏ cảm nhận được khi các tế bào cảm nhận
màu vàng - xanh lá cây được kích thích nhiều hơn so với tế bào cảm nhận
màu xanh lá cây.
Các đặc trưng dùng để phân biệt một màu với màu khác là: độ sáng
(Brightness), sắc màu (Hue) và độ bảo hòa màu (Saturation).
+ Màu sắc có liên quan đến bước sóng ánh sáng. Thông thường, sắc
màu chính là tên của màu. Ví dụ: đỏ, cam, lục…
+ Độ sáng thể hiện về cường độ ánh sáng: mô tả nó sáng hay tối như
thế nào.
+ Độ bão hòa màu: thể hiện độ thuần khiết của màu. Khi độ bão hòa
cao, màu sẽ sạch và rực rỡ.
Có nhiều mô hình màu như RGB, CYM, YIQ, CIE... Ở đây chỉ trình
bày về mô hình màu RGB.
-6-
Lam (0.0.1)
Trắng
(0.1.0)
Lục
Đen
Đỏ
Vàng
(1.0.0)
Hình 1.3: Mô hình màu RGB
Các màu R, G, B nằm ở các đỉnh trên trục tọa độ của khối vuông. Màu
đen nằm ở gốc tọa độ, màu trắng nằm ở góc xa nhất so với điểm gốc. Thang
màu xám kéo dài từ đen đến trắng (đường chấm).
Hình ảnh trong mô hình màu RGB bao gồm 3 mặt phẳng ảnh độc lập
(dùng cho các màu sơ cấp).
Thường thì ta giả thiết là tất cả các giá trị màu được chuẩn hóa (tức là
khối vuông là khối đơn vị), tất cả các giá trị màu nằm trong khoảng [0,1].
Vì vậy trong hệ màu RGB các màu có thể mô tả như là những điểm bên
trong hình lập phương. Ở gốc tọa độ (0, 0, 0) là màu đen. Trên các trục tọa độ
dương là các màu đỏ, lục, lam. Khi đó, ánh sáng từ các điểm riêng biệt sẽ
được cộng với nhau để tạo ra các màu khác nhau.
+ (0, 0, 0) là màu đen
+ (255, 255, 255) là màu trắng
+ (255, 0, 0) là màu đỏ
+ (0, 255, 0) là màu xanh lá cây
+ (0, 0, 255) là màu xanh lam
+ (255, 255, 0) là màu vàng
+ (0, 255, 255) là màu xanh ngọc
+ (255, 0, 255) là màu hồng sẫm
-7-
1.4. Các định dạng ảnh cơ bản trong xử lý ảnh
Ảnh thu được sau quá trình số hóa thường được lưu lại cho các quá
trình xử lý tiếp theo hay truyền đi. Trong quá trình phát triển của kỹ thuật xử
lý ảnh, tồn tại nhiều định dạng ảnh khác nhau từ ảnh đen trắng (với định dạng
IMG), ảnh đa cấp xám cho đến ảnh màu: (BMP, GIF, JPEG…).
- Định dạng ảnh IMG là ảnh đen trắng, phần đầu của IMG có 16 byte
chứa thông tin.
- Định dạng ảnh GIF: GIF (viết tắt của Graphics Interchange Format;
trong tiếng anh nghĩa là "Định dạng trao đổi hình ảnh") là một định dạng tập
tin hình ảnh bitmap cho các hình ảnh dùng ít hơn 256 màu sắc khác nhau và
các hoạt hình dùng ít hơn 256 màu cho mỗi khung hình. GIF là định dạng nén
dữ liệu đặc biệt hữu ích cho việc truyền hình ảnh qua đường truyền lưu lượng
nhỏ. Định dạng này được CompuServe cho ra đời vào năm 1987 và nhanh
chóng được dùng rộng rãi trên World Wide Web cho đến nay. Tập tin GIF
dùng nén dữ liệu bảo toàn trong đó kích thước tập tin có thể được giảm mà
không làm giảm chất lượng hình ảnh, cho những hình ảnh có ít hơn 256 màu.
Số lượng tối đa 256 màu làm cho định dạng này không phù hợp cho các hình
chụp (thường có nhiều màu sắc). Tuy nhiên các kiểu nén dữ liệu bảo toàn cho
hình chụp nhiều màu cũng có kích thước quá lớn đối với truyền dữ liệu trên
mạng hiện nay. Định dạng JPEG là nén dữ liệu thất thoát có thể được dùng
cho các ảnh chụp, nhưng lại làm giảm chất lượng cho các bức vẽ ít màu, tạo
nên những chỗ nhòe thay cho các đường sắc nét, đồng thời độ nén cũng thấp
cho các hình vẽ ít màu. Như vậy, GIF thường được dùng cho sơ đồ, hình vẽ,
nút bấm và các hình ít màu, còn JPEG được dùng cho ảnh chụp. Định dạng
GIF dựa vào các bảng màu: một bảng chứa tối đa 256 màu khác nhau cho biết
các màu được dùng trong hình.
-8-
Hình 1.4: Ảnh GIF
- Định dạng JPEG: Phương pháp nén ảnh JPEG (tiếng anh viết tắt cho
Joint Photo - Graphic Experts Group) là một trong những phương pháp nén
ảnh hiệu quả, có tỷ lệ nén ảnh tới vài chục lần. Tuy nhiên ảnh sau khi giải nén
sẽ khác với ảnh ban đầu. Chất lượng ảnh bị suy giảm sau khi giải nén. Sự suy
giảm này tăng dần theo hệ số nén. Tuy nhiên sự mất mát thông tin này là có
thể chấp nhận được và việc loại bỏ những thông tin không cần thiết được dựa
trên những nghiên cứu về hệ nhãn thị của mắt người. Phần mở rộng của các
file JPEG thường có dạng .jpeg, .jfif, .jpg hay .jpe. Dạng .jpg là dạng được
dùng phổ biến nhất. Hiện nay dạng nén ảnh .JPEG rất được phổ biến trong
điện thoại di động cũng như những trang thiết bị lưu giữ có dung lượng nhỏ.
Công đoạn chính là chia nhỏ bức ảnh thành nhiều vùng nhỏ (thông thường là
những vùng 8×8 pixel) rồi sử dụng biến đổi cosin rời rạc để biến đổi những
vùng thể hiện này thành dạng ma trận có 64 hệ số thể hiện "thực trạng" các
pixel. Điều quan trọng là ở đây hệ số đầu tiên có khả năng thể hiện "thực
trạng" cao nhất, khả năng đó giảm rất nhanh với các hệ số khác. Nói cách
khác thì lượng thông tin của 64 pixel tập trung chủ yếu ở một số hệ số ma trận
theo biến đổi trên. Trong giai đoạn này có sự mất mát thông tin, bởi không có
biến đổi ngược chính xác. Nhưng lượng thông tin bị mất này chưa đáng kể so
với giai đoạn tiếp theo. Ma trận nhận được sau biến đổi cosin rời rạc được
lược bớt sự khác nhau giữa các hệ số. Đây chính là lúc mất nhiều thông tin vì
người ta sẽ vứt bỏ những thay đổi nhỏ của các hệ số. Như thế khi bung ảnh đã
nén ta sẽ có được những tham số khác của các pixel. Các biến đổi trên áp
-9-
dụng cho thành phần U và V của ảnh với mức độ cao hơn so với Y (mất nhiều
thông tin của U và V hơn). Sau đó thì áp dụng phương pháp mã hóa của
Gernot Hoffman: phân tích dãy số, các phần tử lặp lại nhiều được mã hóa
bằng ký hiệu ngắn (marker). Khi bung ảnh người ta chỉ việc làm lại các bước
trên theo quá trình ngược lại cùng với các biến đổi ngược.
.
Hình 1.5: Ảnh dạng JPEG
1.5. Giới thiệu về Matlab
1.5.1. Chuyển đổi giữa các kiểu dữ liệu
Chúng ta có thể chuyển đổi giữa các kiểu dữ liệu uint8, uint16 và
double nhờ sử dụng các hàm chuyển đổi của Matlab như im2double, im2uint8
im2uint16. Cú pháp của các hàm này rất đơn giản, chỉ cần nhập vào ma trận
cần chuyển kiểu, riêng với ảnh indexed cần thêm vào chuỗi “indexed”.
Tuy nhiên cần lưu ý các vấn đề sau khi chuyển đổi ảnh:
- Khi chuyển đổi từ ảnh nhiều bit sang ảnh ít bit hơn, như chuyển từ
uint16 sang uint8 thì sẽ làm mất đi một số thông tin của ảnh ban đầu, chất
lượng ảnh sẽ giảm.
- Khi chuyển đổi dữ liệu với kiểu indexed, thì lưu ý các thông tin ma
trận là địa chỉ trong bản đồ màu chứ không phải giá trị màu nên không phải
lúc nào cũng chuyển đổi được. Muốn chuyển được đầu tiên ta phải dùng hàm
- 10 -

Đăng ký:
Đăng Nhận xét (Atom)
Không có nhận xét nào:
Đăng nhận xét