Giải thưởng Marr Prize (Giải thưởng giấy tốt nhất), ICCV 2011

Devi Parikh and Kristen Grauman

“Ai trong cầu vồng có thể vẽ đường thẳng mà màu tím kết thúc và màu cam bắt đầu? Chúng ta thấy sự khác biệt của màu sắc, nhưng chính xác thì cái nào đầu tiên hòa vào nhau? Vì vậy, với sự tỉnh táo và điên rồ.”

– Herman Melville, Billy Budd

Abstracto

Các thuộc tính “trực quan” có thể đặt tên con người có thể mang lại lợi ích cho các nhiệm vụ nhận dạng khác nhau. Tuy nhiên, các kỹ thuật hiện có hạn chế các thuộc tính này đối với các nhãn phân loại (ví dụ, một người là ‘mỉm cười’ hay không, cảnh là ‘khô’ hay không), và do đó không nắm bắt được nhiều mối quan hệ ngữ nghĩa chung hơn. Chúng tôi đề xuất mô hình các thuộc tính tương đối. Với dữ liệu đào tạo nêu rõ cách thể loại đối tượng / cảnh liên quan theo các thuộc tính khác nhau, chúng tôi tìm hiểu hàm xếp hạng cho mỗi thuộc tính. Các hàm xếp hạng đã học được dự đoán sức mạnh tương đối của mỗi thuộc tính trong các hình ảnh mới. Sau đó, chúng tôi xây dựng một mô hình sinh học trên không gian chung của các kết quả xếp hạng thuộc tính và đề xuất một dạng không học tập mới trong đó người giám sát liên quan đến thể loại đối tượng không nhìn thấy trước đối tượng thông qua các thuộc tính (ví dụ, ‘gấu là furrier hơn hươu cao cổ ‘). Chúng tôi tiếp tục cho thấy cách các thuộc tính tương đối được đề xuất cho phép mô tả văn bản phong phú hơn cho hình ảnh mới, trong thực tế chính xác hơn cho việc diễn giải của con người. Chúng tôi chứng minh cách tiếp cận trên các bộ dữ liệu của khuôn mặt và cảnh tự nhiên, và cho thấy những lợi thế rõ ràng của nó so với dự đoán thuộc tính nhị phân truyền thống cho các nhiệm vụ mới này.

Động lực

Thuộc tính nhị phân là hạn chế và có thể không tự nhiên. Trong các ví dụ trên, trong khi người ta có thể mô tả hình ảnh ở trên cùng bên trái và trên cùng bên phải là hình ảnh tự nhiên và nhân tạo tương ứng, bạn sẽ mô tả hình ảnh ở giữa trên cùng như thế nào? Cách duy nhất có ý nghĩa để mô tả nó là đối với các hình ảnh khác: nó ít tự nhiên hơn hình ảnh bên trái, nhưng nhiều hơn so với hình ảnh bên phải.

Propuesta

Trong công việc này, chúng tôi đề xuất mô hình các thuộc tính tương đối. Trái ngược với dự đoán sự hiện diện của một thuộc tính, một thuộc tính tương đối cho biết sức mạnh của một thuộc tính trong một hình ảnh liên quan đến các hình ảnh khác. Ngoài việc tự nhiên hơn, các thuộc tính tương đối cung cấp chế độ giao tiếp phong phú hơn, do đó cho phép truy cập giám sát chi tiết hơn của con người (và do đó có khả năng nhận diện cao hơn), cũng như khả năng tạo ra các mô tả chi tiết hơn về các hình ảnh mới.

Chúng tôi đưa ra một cách tiếp cận để tìm hiểu một hàm xếp hạng cho mỗi thuộc tính, cho các ràng buộc tương tự tương đối trên các cặp ví dụ (hoặc thường là một phần đặt hàng trên một số ví dụ). Hàm xếp hạng đã học có thể ước tính thứ hạng có giá trị thực cho các hình ảnh biểu thị cường độ tương đối của sự hiện diện thuộc tính trong chúng.

Chúng tôi giới thiệu các dạng mới của mô hình học tập và mô tả hình ảnh không khai thác mà khai thác các dự đoán thuộc tính tương đối.

Enfoque

Học thuộc tính tương đối: Mỗi thuộc tính tương đối được học thông qua một bài học để xếp hạng công thức, được giám sát so sánh, như hình dưới đây:

Phân biệt giữa việc học hàm xếp hạng lề rộng (phải) thực thi thứ tự mong muốn trên các điểm đào tạo (1-6) và một phân lớp nhị phân rộng (bên trái) chỉ phân tách hai lớp (+ và -), và không nhất thiết phải bảo tồn thứ tự mong muốn trên các điểm được hiển thị bên dưới:

Tiểu thuyết không bắn học: Chúng tôi nghiên cứu thiết lập sau

  • N total categories: S seen categories (associated images are available) + U unseen categories (no images are available for these categories)
  • S seen categories are described relative to each other via attributes (not all pairs of categories need to be related for all attributes)
  • U unseen categorires are described relative to (a subset of) seen categories in terms of (a subset of) attributes.

We first train a set of relative attributes using the supervision provided on the seen categories. These attributes can also be pre-trained from external data. We then build a generative model (Gaussian) for each seen category using the responses of the relative attributes to the images from the seen categories. We then infer the parameters of the generative models of unseen caregories by utilizing their relative descriptions with respect to seen categories. A visualization of the simple approach we employ for this is shown below:

Hình ảnh thử nghiệm được gán cho danh mục có khả năng tối đa.

Tự động tạo các mô tả hình ảnh tương đối: Cho hình ảnh tôi được mô tả, chúng tôi đánh giá tất cả các hàm xếp hạng đã học trên I. Đối với mỗi thuộc tính, chúng tôi xác định hai hình ảnh tham chiếu nằm ở hai bên của tôi và không quá xa hoặc quá gần đến I. Hình ảnh Sau đó tôi được mô tả liên quan đến hai hình ảnh tham chiếu này, như hình dưới đây:

Như đã thấy ở trên, ngoài việc mô tả một hình ảnh liên quan đến các hình ảnh khác, cách tiếp cận của chúng tôi cũng có thể mô tả một hình ảnh liên quan đến các danh mục khác, dẫn đến một mô tả thuần túy về văn bản. Rõ ràng, các mô tả tương đối chính xác hơn và nhiều thông tin hơn so với mô tả nhị phân thông thường.

Thử nghiệm và kết quả

Llevamos a cabo experimentos en dos conjuntos de datos:

(1) Nhận dạng cảnh ngoài trời (OSR) có 2688 hình ảnh từ 8 loại: bờ biển C, rừng F, đường cao tốc H, bên trong thành phố I, núi M, quốc lộ O, đường S và cao ốc T. Chúng tôi sử dụng các tính năng của gist để đại diện cho hình ảnh.

(2) Một tập hợp con của Cơ sở dữ liệu khuôn mặt công cộng (PubFig) chứa 772 hình ảnh từ 8 danh mục: Alex Rodriguez A, Clive Owen C, Hugh Laurie H, Jared Leto J, Miley Cyrus M, Scarlett Johansson S, Viggo Mortensen V và Zac Efron Z. Chúng tôi sử dụng tính năng liên kết và màu sắc để thể hiện hình ảnh.

Danh sách các thuộc tính được sử dụng cho mỗi tập dữ liệu, cùng với chú thích thuộc tính nhị phân và thuộc tính tương đối được hiển thị bên dưới:

Học tập không bắn:

Chúng tôi so sánh cách tiếp cận được đề xuất của chúng tôi với hai đường cơ sở. Đầu tiên là các thuộc tính tương đối dựa trên điểm (SRA). Đường cơ sở này giống như cách tiếp cận của chúng ta, ngoại trừ nó sử dụng điểm của một trình phân loại nhị phân (các thuộc tính nhị phân) thay vì các điểm của một hàm xếp hạng. Đường cơ sở này giúp đánh giá sự cần thiết của một hàm xếp hạng để mô hình hóa các thuộc tính tương đối tốt nhất. Cơ sở thứ hai của chúng tôi là mô hình Dự báo thuộc tính trực tiếp (DAP) được giới thiệu bởi Lampert et al. trong CVPR 2009. Đường cơ sở này giúp đánh giá lợi ích của việc xử lý tương đối các thuộc tính thay vì phân loại. Chúng tôi đánh giá các phương pháp này cho số lượng danh mục không nhìn thấy khác nhau, số lượng dữ liệu khác nhau được sử dụng để đào tạo các thuộc tính, số lượng attribtues khác nhau được sử dụng để mô tả các danh mục không nhìn thấy, và các mức độ khác nhau của ‘looseness’ trong mô tả các danh mục không nhìn thấy. Chi tiết về việc thiết lập thử nghiệm có thể được tìm thấy trong bài báo của chúng tôi. Kết quả được hiển thị dưới đây:

 

Mô tả hình ảnh được tạo tự động:

Để đánh giá chất lượng của mô tả hình ảnh tương đối của chúng tôi đối với các đối tác nhị phân, chúng tôi đã tiến hành một nghiên cứu về con người. Chúng tôi tạo ra một mô tả của một hình ảnh bằng cách sử dụng cách tiếp cận của chúng tôi, cũng như các thuộc tính nhị phân cơ bản. Chúng tôi trình bày các chủ đề với mô tả này, cùng với ba hình ảnh. Một trong ba hình ảnh là hình ảnh được mô tả. Nhiệm vụ của các đối tượng là xếp hạng ba hình ảnh dựa trên hình ảnh mà họ cho là có nhiều khả năng là hình ảnh được mô tả nhất. Mô tả chính xác hơn, các đối tượng cơ hội càng tốt để xác định hình ảnh chính xác. Một minh họa của một nhiệm vụ trình bày cho các đối tượng được hiển thị dưới đây:

Kết quả của nghiên cứu được trình bày dưới đây. Chúng tôi thấy rằng các đối tượng có thể xác định chính xác hình ảnh chính xác hơn bằng cách sử dụng các thuộc tính tương đối được đề xuất của chúng tôi, so với các thuộc tính nhị phân.

Ví dụ về mô tả nhị phân của hình ảnh cũng như mô tả liên quan đến các danh mục được hiển thị bên dưới:

không thuộc về thiên nhiên
đừng mở
quan điểm

tự nhiên hơn so với cao tầng, ít tự nhiên hơn rừng
cởi mở hơn so với cao tầng, ít mở hơn bờ biển
nhiều quan điểm hơn

không thuộc về thiên nhiên
đừng mở
quan điểm

tự nhiên hơn so với insidecity, ít tự nhiên hơn đường cao tốc
cởi mở hơn đường phố, ít mở hơn bờ biển
nhiều quan điểm hơn đường cao tốc, ít quan điểm hơn so với insidecity

tự nhiên
mở
quan điểm

tự nhiên hơn so với cao tầng, ít tự nhiên hơn núi
cởi mở hơn núi
ít quan điểm hơn opencountry

trắng
không cười
VisibleForehead

trắng hơn AlexRodriguez
Mỉm cười hơn JaredLeto, ít Mỉm cười hơn ZacEfron
nhiều VisibleForehead hơn JaredLeto, ít VisibleForehead hơn MileyCyrus

Blanco
no sonriendo
no visible

trắng hơn AlexRodriguez, ít trắng hơn MileyCyrus
ít mỉm cười hơn HughLaurie
nhiều VisibleForehead hơn ZacEfron, ít VisibleForehead hơn MileyCyrus

không trẻ
Lông mày rậm
Khuôn mặt tròn

trẻ hơn CliveOwen, trẻ hơn ScarlettJohansson
nhiều BushyEyebrows hơn ZacEfron, ít BushyEyebrows hơn AlexRodriguez
nhiều RoundFace hơn CliveOwen, ít RoundFace hơn ZacEfron

Datos

Chúng tôi cung cấp các thuộc tính tương đối đã học và dự đoán của chúng cho hai bộ dữ liệu được sử dụng trong bài báo của chúng tôi: Nhận dạng cảnh ngoài trời (OSR) và một tập con của Cơ sở dữ liệu khuôn mặt công cộng (PubFig).

README

Tải xuống (v2)

Relative Face Attributes Dataset. Nó chứa chú thích cho 29 thuộc tính tương đối trên 60 loại từ Cơ sở dữ liệu khuôn mặt công cộng (PubFig).

Mã số

Chúng tôi đã sửa đổi việc triển khai RankSVM của Olivier Chappelle để đào tạo các thuộc tính tương đối với các ràng buộc tương tự. Mã sửa đổi của chúng tôi có thể được tìm thấy ở đây.

Nếu bạn sử dụng mã của chúng tôi, vui lòng trích dẫn bài viết sau:

D. Parikh và K. Grauman

Các thuộc tính tương đối

Hội nghị quốc tế về tầm nhìn máy tính (ICCV), 2011.

Trình diễn

Có thể tìm thấy bản trình diễn các ứng dụng khác nhau của các thuộc tính tương đối tại đây. Bạn có thể tìm thấy mô tả về các ứng dụng này trong các giấy tờ ở đây.

 

Link to original source:https://www.cc.gatech.edu/~parikh/relative.html