Key points
- Synology Photos
Chỉ cần chạm đúng cách: Cách Synology Photos xếp chồng các ảnh tương tự của bạn, cho phép các thuật toán giúp sắp xếp bộ sưu tập của bạn
Để bắt được nụ cười rạng rỡ nhất của con, bạn có thể nhấn nút chụp mười lần liên tiếp. Để có được tông màu hoàng hôn hoàn hảo, bạn có thể lưu năm phiên bản đã lọc. Nhiếp ảnh hiện đại tuy cho phép chúng ta ghi lại những khoảnh khắc đẹp, nhưng cũng khiến album ảnh trở nên lộn xộn và khó quản lý.
Kịch bản này quen thuộc với tất cả chúng ta. Nhưng một câu hỏi thú vị được đặt ra: khi chúng ta nói về việc "sắp xếp các bức ảnh tương tự", chính xác thì "tương tự" được định nghĩa như thế nào?
Liệu đó có phải là một loạt ảnh hoàng hôn từ cùng một cảnh với vị trí mặt trời hơi khác nhau? Liệu đó có phải là cùng một bố cục với một người được thêm vào hoặc bị loại bỏ? Hay đó là nhiều phiên bản của cùng một bức ảnh sau khi được cắt và chỉnh sửa bằng các phần mềm khác nhau? Trong các bối cảnh khác nhau, tiêu chí đánh giá của mỗi người có thể khác nhau đáng kể.
Vậy làm thế nào một thuật toán cố định có thể đáp ứng được logic sắp xếp linh hoạt, thậm chí có phần chủ quan của con người như vậy? Hôm nay, chúng tôi sẽ cùng bạn tìm hiểu hậu trường để xem xét những đánh đổi giữa công nghệ và trải nghiệm người dùng mà chúng tôi gặp phải khi phát triển tính năng "Xếp chồng các mục tương tự" trong Synology Photos.
Đánh đổi thứ nhất: Làm thế nào để hiệu chỉnh tiêu chuẩn “Tương tự” của thuật toán?
Khi bắt đầu phát triển, câu hỏi triết học đầu tiên mà nhóm chúng tôi phải đối mặt là: mối quan hệ giữa “sự tương đồng” do thuật toán định nghĩa và “sự tương đồng” trong mắt con người là gì?Chúng tôi phát hiện ra rằng khả năng phán đoán của con người cực kỳ linh hoạt. Khi sắp xếp ảnh chụp tiệc sinh nhật của một đứa trẻ, chúng ta có thể coi một số bức ảnh liên tiếp với biểu cảm hơi khác nhau là "tương tự". Nhưng khi chọn ảnh phong cảnh để in, ngay cả những khác biệt nhỏ về vị trí mây cũng có thể đủ để chúng ta xem chúng như hai tác phẩm riêng biệt.
Một thuật toán không thể sao chép hoàn toàn tư duy phức tạp này của con người. Nó cần một tiêu chuẩn khách quan và nhất quán. Do đó, trước khi dạy máy tính cách "hiểu" những bức ảnh tương tự, trước tiên chúng ta phải dạy nó cách "nắm bắt những điều cốt yếu".
Chúng tôi đã giới thiệu thuật toán băm PDQ. Quá trình này cực kỳ thông minh—nó tự động bỏ qua những "chi tiết bề mặt" không quan trọng trong ảnh, chẳng hạn như bạn lưu ảnh dưới dạng PNG hay JPG, độ phân giải cao hay thấp, hoặc có nhiễu kỹ thuật số hay không. Thuật toán chỉ tập trung vào việc nắm bắt các đường nét cốt lõi, đường nét và phân bố sáng tối của toàn bộ ảnh, nhanh chóng tạo ra một "bản phác thảo tâm hồn" độc đáo cho mỗi bức ảnh của bạn. Quá trình phác thảo "thuật toán của họa sĩ" này thường bao gồm một số bước:
- Tập trung vào Bản chất : Đầu tiên, thuật toán chuyển đổi ảnh màu sang thang độ xám. Điều này giống như một họa sĩ bỏ qua màu sắc khi phác thảo, thay vào đó tập trung vào việc nắm bắt đường nét, ánh sáng và bóng đổ của chủ thể. Bước này đảm bảo chúng ta tập trung vào các cấu trúc thị giác mà mắt người nhạy cảm nhất, thay vì bị phân tâm bởi các màu sắc biến đổi.
- Thống nhất Phối cảnh : Tiếp theo, bất kể ảnh của bạn là ảnh chân dung chụp bằng điện thoại hay ảnh phong cảnh chụp bằng máy ảnh, thuật toán đều sẽ thu nhỏ tất cả về một kích thước cố định. Điều này giống như một nghệ sĩ đặt tất cả ảnh tham chiếu lên cùng một khung vẽ để so sánh, đảm bảo rằng cơ sở so sánh là nhất quán và không bị đánh giá sai do sự khác biệt về kích thước gốc. Thách thức ở đây là tìm ra "độ phân giải tối ưu". Nếu thu nhỏ quá, mặc dù tốc độ tính toán cực kỳ nhanh, nhưng quá nhiều chi tiết hình ảnh sẽ bị mất, khiến những bức ảnh rõ ràng khác biệt bị nhận dạng nhầm là giống nhau. Do đó, chúng tôi đã áp dụng một kích thước chuẩn tương đối lớn hơn, vừa giữ lại đủ các tính năng chính vừa duy trì hiệu quả tính toán, đạt được sự cân bằng tốt nhất giữa độ chính xác và hiệu suất.
- Giải cấu trúc và Trích xuất : Đây là bước quan trọng nhất. Thuật toán sử dụng một công cụ toán học gọi là "Biến đổi Cosine Rời rạc (DCT)" để phân tích hình ảnh thành các "kết cấu hình ảnh" và "mẫu bố cục" cơ bản nhất. Bạn có thể hình dung nó giống như một nghệ sĩ phân tích các đặc điểm khuôn mặt của một người thành các hình dạng hình học cơ bản và phân tích vị trí tương đối của chúng. Quá trình này thực sự trích xuất các đặc điểm hình ảnh quan trọng nhất của hình ảnh.
- Tạo Dấu vân tay và Điểm chất lượng : Cuối cùng, thuật toán tạo ra một mã gồm 256 số 0 và 1 dựa trên các đặc điểm cốt lõi được trích xuất này. Đây chính là "bản phác thảo tâm hồn" độc đáo của bức ảnh này - dấu vân tay trực quan của nó. Thú vị hơn, thuật toán PDQ cũng chấm điểm chất lượng cho bức ảnh này, đánh giá độ rõ nét của nó. Giống như một nghệ sĩ ghi chú sau khi hoàn thành một bức phác thảo: "Bức ảnh tham khảo này hơi mờ". Điểm số này giúp chúng ta xác định xem "bản phác thảo" này có đủ rõ nét để so sánh một cách có ý nghĩa hay không.
Về mặt kỹ thuật, chúng tôi sử dụng một phương pháp gọi là "Khoảng cách Hamming" để định lượng sự khác biệt giữa hai "bản phác thảo". Bạn có thể hình dung rằng mỗi "bản phác thảo" bao gồm 256 điểm đặc trưng chính. Chúng tôi xếp chồng hai bản phác thảo lại với nhau, so sánh từng điểm đặc trưng này, rồi đếm xem có bao nhiêu điểm khác biệt. "Số điểm khác biệt" này chính là khoảng cách Hamming giữa chúng.
- Khoảng cách Hamming từ 0 đến 15 có nghĩa là hai bản phác thảo giống hệt nhau, gần như chắc chắn là bản sao của cùng một bức ảnh.
- Khoảng cách Hamming nhỏ (ví dụ, từ 16 đến 40) thường chỉ ra rằng các bức ảnh chỉ trải qua quá trình cắt xén, thay đổi tỷ lệ hoặc điều chỉnh độ sáng nhỏ, với nội dung hình ảnh rất giống nhau.
- Khoảng cách Hamming lớn hơn (ví dụ, giữa 41 và 80) có nghĩa là mặc dù hai bức ảnh có thể có chủ đề liên quan, nhưng chúng vẫn cho thấy sự khác biệt đáng kể về bố cục, con người hoặc phong cảnh.
Sau vô số thử nghiệm và thảo luận, chúng tôi đã thiết lập một nguyên tắc thiết kế cốt lõi: thà chồng nhiều còn hơn bỏ sót. Chúng tôi đã chọn một ngưỡng tương đối lỏng lẻo nhưng được kiểm chứng nghiêm ngặt.
Mục tiêu của chúng tôi là đảm bảo rằng những bức ảnh tương tự được thuật toán tìm thấy có "khả năng cao là có liên quan" với người dùng. Người dùng có thể nghĩ, "Mặc dù trông chúng giống nhau, nhưng tôi muốn xem chúng riêng biệt", nhưng hiếm khi họ nghĩ, "Hai bức ảnh này chẳng liên quan gì đến nhau; tại sao lại được xếp chồng lên nhau?"
Lý do đằng sau quyết định này rất đơn giản: thời gian người dùng cần để "xóa" thủ công một vài ảnh khỏi bộ sưu tập đã được sắp xếp gọn gàng ít hơn nhiều so với thời gian cần thiết để "tìm và ghép" thủ công các ảnh nằm rải rác trong thư viện. Đây cũng là lý do tại sao hiện tại chúng tôi chỉ cung cấp tùy chọn "Gỡ chồng" và "Xóa khỏi chồng", chứ không cho phép người dùng tự tạo chồng. Chúng tôi định vị thuật toán là một "trợ lý sàng lọc" hiệu quả, chứ không phải là "ông chủ" đưa ra quyết định cuối cùng cho bạn. Nó hoàn thành 80% công việc tẻ nhạt, đồng thời giữ lại 20% niềm vui sắp xếp còn lại, chứa đầy sở thích cá nhân của bạn.
Đánh đổi thứ hai: Làm thế nào để thực hiện so sánh hiệu quả trong dữ liệu lớn?
Sau khi định nghĩa "điểm tương đồng", thách thức tiếp theo là về mặt kỹ thuật: làm thế nào để hoàn thành công việc so sánh một cách hiệu quả trong thư viện kỹ thuật số có thể lưu trữ hàng triệu bức ảnh mà không làm chậm toàn bộ NAS?Nếu mọi ảnh mới tải lên được so sánh với tất cả ảnh trong cơ sở dữ liệu bằng "dấu vân tay trực quan", đó sẽ là một thảm họa tính toán. Vì lý do này, chúng tôi đã thiết kế một cơ chế phân bổ và cải tiến tác vụ đa cấp.
Đầu tiên, chúng tôi đã thêm các hạn chế vào "tầm nhìn" của thuật toán. Chúng tôi nhận thấy rằng phần lớn các ảnh tương tự (chẳng hạn như ảnh chụp liên tiếp và ảnh đã chỉnh sửa) được tạo ra tại các thời điểm gần nhau. Do đó, chúng tôi quy định rằng dù là ảnh mới tải lên hay tác vụ so sánh được lên lịch nền hệ thống, ảnh đó sẽ chỉ được so sánh với ảnh chụp trong khung thời gian 24 giờ (±12 giờ). Thiết kế "khung thời gian" này thu hẹp phạm vi so sánh theo cấp số nhân, tránh lãng phí hiệu suất không cần thiết ngay từ đầu.
Thứ hai, chúng tôi tận dụng tối đa mọi sức mạnh tính toán trong hệ sinh thái. Về mặt ứng dụng di động, khi bạn tải ảnh lên qua điện thoại, chúng tôi sẽ tận dụng bộ xử lý mạnh mẽ của điện thoại để tính toán trước bản phác thảo PDQ cục bộ, sau đó tải lên NAS cùng với ảnh. Điều này có nghĩa là bước tính toán chuyên sâu nhất sẽ được điện thoại xử lý, và NAS chỉ cần tập trung vào việc nhận dữ liệu và thực hiện so sánh cơ sở dữ liệu vân tay.
Cuối cùng, chúng tôi đã tích hợp liền mạch các tác vụ so sánh và xếp chồng backend vào bộ lập lịch hệ thống lõi DSM. Thiết kế này giúp các tác vụ so sánh của Synology Photos trở thành một phần của hệ thống lập lịch tài nguyên thông minh của toàn bộ hệ thống thay vì hoạt động độc lập. Nó đảm bảo rằng các phép tính tương tự không thường xuyên đánh thức các ổ cứng đang ngủ đông, duy trì hiệu suất năng lượng của NAS.
Bằng cách này, nó phối hợp với các tác vụ nền từ các gói khác (chẳng hạn như lịch trình tải xuống của Download Station hoặc lịch trình sao lưu của Hyper Backup). Điều này có nghĩa là công việc sắp xếp Ảnh được lên lịch vào thời điểm thích hợp nhất, tránh nhiều tác vụ nền cạnh tranh tài nguyên hệ thống cùng lúc và tăng cường tính ổn định và khả năng dự đoán tổng thể của NAS.
Kết luận: Trợ lý thông minh, bạn quyết định
Tính năng “Xếp chồng ảnh tương tự” trong Synology Photos được xây dựng dựa trên ý tưởng cốt lõi: biến công nghệ thành trợ lý đắc lực của bạn, chứ không phải thay thế việc ra quyết định của bạn.Chúng tôi đã đầu tư đáng kể nguồn lực vào việc tối ưu hóa độ chính xác của thuật toán, cải thiện hiệu quả của các phép so sánh quy mô lớn và đảm bảo toàn bộ quy trình không gây ảnh hưởng đến hiệu suất NAS của bạn. Đồng thời, chúng tôi mang đến cho bạn sự tự do tối đa - từ việc thiết lập nắp ngăn xếp đến việc gỡ bỏ ngăn xếp chỉ bằng một cú nhấp chuột, cho đến việc xóa bất kỳ ảnh nào khỏi ngăn xếp.
Chúng tôi tin rằng tự động hóa tốt nhất sẽ hoàn thành công việc sơ bộ tẻ nhạt cho người dùng, sau đó mang lại niềm vui cho họ khi hoàn thiện quy trình. Chúng tôi hy vọng rằng khi bạn tận hưởng một lịch trình gọn gàng, bạn cũng có thể cảm nhận được "sự tinh tế vừa đủ" mà chúng tôi đã tỉ mỉ thiết kế dành riêng cho bạn.
Về Vietcorp
Vietcorp là Gold Partner Synology tại Việt Nam, chuyên cung cấp giải pháp lưu trữ, sao lưu dữ liệu và hạ tầng CNTT toàn diện cho doanh nghiệp. Với mạng lưới đối tác rộng khắp và đội ngũ kỹ thuật giàu kinh nghiệm, Vietcorp cam kết mang đến giải pháp tối ưu, dịch vụ tận tâm và sự đồng hành lâu dài cùng khách hàng trong hành trình chuyển đổi số.Liên hệ tư vấn giải pháp
Vietcorp là đối tác uy tín của Synology, chúng tôi tự hào đạt các danh hiệu:
Vietcorp đồng thời là nhà phân phối & tích hợp của các thương hiệu hàng đầu như Synology, Centerm, vCloudPoint, NComputing, WD, Seagate, Aruba, Unifi, Hikvision, Axis, Microsoft,...