Có thể nói rằng, đọc tài liệu (reading) là một trong những kĩ năng quan trọng nhất trong quá trình NCKH. Theo bài Efficient Reading thì qui trình đọc paper có thể chia làm 2 giai đoạn tạm gọi là read for breadth (đọc theo chiều rộng) và read in depth (đọc kĩ). Trong đó ở bước đọc theo chiều rộng, việc xem xét độ tin cậy của bài báo (credibility) là một trong các bước rất cần thiết mà nhiều bạn chúng ta thường bỏ qua. Topic này tôi muốn trao đổi kĩ hơn về vấn đề này.
Publish (tạm dịch là xuất bản, công bố) các công trình nghiên cứu của mình ở các conference (hội nghị) hay các journal (tạpchí) là một trong những bước bắt buộc để đánh giá thành quả nghiên cứu của mình. Trong cộng đồng các nhà nghiên cứu khoa học, một nhà nghiên cứu được xem là có danh tiếng và nhận được sự nể trọng của các đồng nghiệp khi họ có các đóng góp quan trọng thông qua các publication. Đó là lí do tại sao trong các trang homepage của các nhà nghiên cứu, phần không thể thiếu luôn là publication.
Tuy nhiên publication cũng có nhiều loại, vấn đề thỏa hiệp giữa số lượng và chất lượng của các publication cũng là vấn đề mà nhiều nhà nghiên cứu đối mặt. Một cách lí tưởng mà nói thì nếu vừa được cả hai thì quá xuất sắc rồi, còn không thì là thỏa hiệp.
Có hai loại publication chính, một là proceeding (tạm dịch là kỉ yếu hội nghị) của các conference (thông thường là được in trước và phát trong thời gian diễn ra hội nghị, có một số workshop thì các paper có chất lượng được đánh giá qua báo cáo mới được tuyển lại và in thành proceeding sau), hai là journal. Hai loại hình này về bản chất là khác nhau mà được định nghĩa ở đây [1].
Distinction between proceedings and journal papers: The proceedings provide a vehicle for rapid reporting of ideas, techniques, and results to the optical engineering community. These reports may be somewhat incomplete, unpolished, and even somewhat inconclusive. It is generally understood that their purpose is to provide snapshots of recent or continuing work and that they are not intended or required to be archival in nature. The journal, however, is intended to be archival, and papers published therein are expected to be more complete and polished than proceedings papers, to contain comparisons of theoretical and experimental results, and to include references to other work, substantial conclusions, suggestions for future research, etc
Nói một cách nôm na là bài được chấp nhận đăng ở conference và bài được chấp nhận đăng ở journal có một số tiêu chí khác nhau nhất định. Bài ở conference thường được ưu tiên cho các ý tưởng mới, trong khi các bài journal thường là các bài vừa có tính mới (ko nhất thiết phải hoàn toàn mới) vừa có tính thuyết phục cao. Nếu như bài ở conference, khi bạn đưa ra một ý tưởng mới và làm một số thí nghiệm để minh họa cho tính hiệu quả của ý tưởng đó là đủ thì ở bài journal, bạn phải phân tích tại sao bạn chọn ý tưởng đó, ý tưởng đó so với các ý tưởng trước có gì đặc biệt mà giúp kết quả của bạn hơn những người khác. Rồi bạn còn phải làm thí nghiệm so sánh cách tiếp cận của bạn với các cách tiếp cận khác để thuyết phục người đọc tin là cách tiếp cận của bạn là đúng đắn.
Lấy ví dụ, nếu bạn làm về face detection, trước khi Viola đưa ra thuật toán dựa trên AdaBoost, face detection đã có một số kết quả đáng kể (ví dụ như tỉ lệ nhận dạng trên 80% với chỉ có 1-2 nhầm lẫn). Khi Viola đưa ra thuật toán mới dựa trên boosting, Viola khẳng định (claim) rằng thuật toán này cho độ chính xác cao hơn, chạy nhanh hơn. Trong thuật toán đó, Viola đề nghị xài Haar Feature và cho rằng nó là một trong các nguyên nhân làm nên sự vượt trội. Để thuyết phục mọi người, Viola phải đưa ra các thuật toán, các chứng cứ. Lập luận của Viola là: Haar Feature đã được nghiên cứu trước đó ở các bài toán tương tự và đã có thành công, cho nên nếu dùng vào đây thì sẽ có hiệu quả tương tự (kquả chứng minh bằng thực nghiệm). Hay khi nói AdaBoost có thể mang lại hiệu quả cao, Viola cũng phải dẫn ra các công trình của các tác giả khác đã chứng minh ở các bài toán tương tự. Từ những luận điểm đó, người đọc mới có thể hoàn toàn tin tưởng vào cách tiếp cận mà Viola đã đưa ra và chấp nhận nó.
Chính vì vậy mà các bạn có thể thấy rằng cũng là một vấn đề nhưng hai bài journal và conference hoàn toàn khác hẳn nhau và được xem như là hai công trình. Viết journal thông thường khó hơn conference vì không bị giới hạn thời gian của review process và reviewers thường là chuyên gia hàng đầu của lĩnh vực đó.
Về việc tổ chức các conferences
Hàng năm trên thế giới, có hàng trăm các conference được tổ chức. Mục đích khi tổ chức các conference là nhằm tạo ra một nơi để mọi người có thể gặp nhau, trao đổi các ý tưởng, thảo luận về các vấn đề cùng quan tâm. Cũng chính vì lẽ đó mà việc nhận bài của các conference cũng rất khác nhau. Có những conference có thể chấp nhận gần hết (acceptance rate 70%-80%) các bài gửi đến (submission) nhưng cũng có những conference chỉ chấp nhận khoảng 15-20% trên số bài gửi đến.
Vậy làm thế nào để biết một conference có chất lượng hay không? Có thể liệt kê một số tiêu chí như sau:
1. Có lịch sử lâu đời, tổ chức hàng năm và được bảo trợ bởi các society như IEEE, ACM, ..., được các nhà xuất bản có uy tín như xuất bản proceedings. Một ví dụ là LNCS (Lecture Notes in CS) của Springer Velag hay các proceeding của IEEE/CS, ...
2. Là conference chuyên ngành chứ ko phải đa ngành (multidisciplinary). Chuyên ngành có thể hiểu là, nếu conference về CVPR thì sẽ không có bài liên quan đến e-bussiness vì hai lĩnh vực đó nó hoàn toàn ko có gì liên quan (tương tư như WorldCup thì chỉ có đá banh thôi, ko có điền kinh hay bơi lội gì).
Mặc dù trong call for papers (CFP) của các conference đều có liệt kê các topics of interest nhưng cũng thòng thêm câu là "but not limited to" để muốn nói rằng họ có thể chấp nhận các bài ko chỉ ở các mục đã liệt kê. Tuy nhiên, trong lúc review, reviewer luôn được đòi hỏi phải cho biết paper đó có phù hợp với conference hay ko.
3. Được điều hành và tổ chức bởi các nhà nghiên cứu hàng đầu trong lĩnh vực đó.
Uy tín của một conference phụ thuộc rất lớn vào Program Chair (tạm dịch là phụ trách nội dung - là người sẽ quyết định bài nào được accept và là người sẽ nhóm các bài thành từng session. Program Chair cũng sẽ là người đóng vai trò chủ biên (Editors) của proceeding) và Program Committee - PC (tạm dịch là thành viên hôi đồng - là những người sẽ chịu trách nhiệm review các paper, recommend cho Program Chair về việc có nên accept paper họ review hay không).
Thông thường, Program Chair phải là "cây đại thụ" trong lĩnh vực đó và có các publication có đóng góp quan trọng, ... Các PC member cũng là những chuyên gia hàng đầu trong lĩnh vực đó và cũng đã có không ít publication publish ở các conf. và journal hàng đầu.
Program Chair và Program Committee như vậy mới đảm bảo là paper của bạn được đánh giá đúng và các comment (lời nhận xét) là có giá trị.
4. Được review khách quan và có tỉ lệ chấp nhận (acceptance rate) dưới 50%.
Review khách quan ở đây là bài viết phải là blind review, nghĩa là reviewer không biết tác giả là ai. Thực tế hiện nay là vẫn có không ít conference vẫn cho phép tác giả để tên và địa chỉ trong paper. Thường các top conference luôn là blind review.
Để đảm bảo chất lượng cho conference, thông thường các conference đều có một acceptance rate nhất định. Với các conference sinh sau đẻ muộn chưa được nhiều người biết đến, việc tăng acceptance rate lên khoảng 60-70% có thể giúp họ nhận được nhiều sự quan tâm hơn và tạo cơ hội cho nhiều người. Sau một thời gian đủ mạnh, các conference dạng này sẽ giảm acceptance rate để tăng chất lượng và uy tín của mình.
Tuy nhiên đối với các conference lâu đời, có tiếng tăm (ví dụ như CVPR, ICCV, ECCV trong lĩnh vực CVPR) thì acceptance rất thấp chỉ dao động trong khoảng 20-30%. Hãy tưởng tượng trong 1.000 papers, họ chỉ chọn có 200-300 papers mà thôi. Chính vì vậy mà các paper publish ở các conference dạng này rất được mọi người tin cậy và trích dẫn nhiều trong các paper khác của mình.
Các conference ở giữa thì có acceptance rate khoảng từ 40-50%. Các conference này cũng là các conference có chất lượng khá. Bạn có thể xem acceptance rate ở trong các trang Preface của các conference proceedings. Thống kê trong lĩnh vực CVPR thì có thể xem ở đây. Xếp hạng các conference có thể xem ở đây (lưu ý xếp hạng này chỉ có tính tham khảo vì không có tổ chức độc lập nào xác nhận và khá lâu không được cập nhật)
Tất nhiên một trong các thông số liên quan đến acceptance rate đó là số lượng submission. Với các conference nhận được sự quan tâm của nhiều người thì con số trung bình ước chừng là khoảng từ 200 trở lên. Với các conference cực lớn như ICIP, ICASSP, CVPR thì con số submission có thể lên đến 1.000, 2.000. Hãy tưởng tượng một bài được phải được review bởi 3 reviewer, thì 1.000 bài sẽ cần 3.000 lượt review, nếu PC members khoảng 150 người thì một người phải review khoảng hơn 20 bài (trong trường hợp này, ngoài PC members, người ta phải tuyển thêm external reviewer).
Số lượng submission sẽ quyết định thời gian review process. Với các conference có khoảng dưới 150 submission thì thời gian khoảng chừng 1 tháng nhưng với các conference khoảng từ 300 submission trở lên thì thời gian lâu hơn, khoảng từ 2 đến 3 tháng là chuyện thường. Đó là lí do tại sao từ lúc nộp bài cho đến lúc diễn ra, khỏang thời gian thường là 5-7 tháng là vậy..
Đối với các journal, thông thường thì họ cũng có acceptance rate, tuy nhiên chất lượng chủ yếu phụ thuộc vào các submission và citation. Citation (sự trích dẫn) là một trong các tiêu chí rất quan trọng để đánh giá công trình của một nhà nghiên cứu và chất lượng của một journal. Nếu một bài viết được trích dẫn nhiều ở các công trình có giá trị khác, hoặc nếu một journal có nhiều bài viết được trích dẫn ở các công trình có giá trị khác, điều đó chứng tỏ bài viết đã có những ảnh hưởng nhất định đến các công trình khác (thông số Impact Factor).
Có thể tham khảo đánh giá về chất lượng các journal ở đây (cũng nhắc lại là danh sách này chỉ mang tính tham khảo vì không được bất cứ tổ chức độc lập nào xác nhận và đã khá lâu không cập nhật).
Hiện nay, thường các journal của ACM, IEEE dưới dạng các Transaction, ví dụ như IEEE Transactions on Pattern Analysis and Machine Intelligence, là các journal rất có giá trị. Hoặc các journal của Elsevier như Pattern Recognition.
So với các bài ở conference, các bài viết ở journal dài hơn và chi tiết hơn. Nếu bạn muốn hiểu ý tưởng thì nên tìm đọc bài ở conference, còn nếu bạn muốn hiểu chi tiết tường tận để mà, ví dụ như làm lại thí nghiệm đã được mô tả, thì bạn nên tìm đọc bài ở journal.
Một lưu ý nữa là thời gian review của một bài journal rất lâu, thường là gần 1 năm, cộng với thời gian từ lúc được accept cho đến lúc publish là thêm 1 năm nữa nên lúc bạn đọc được paper journal thì nó thường là ý tưởng của 2 năm về trước. Đối với conference paper thì thường là 6 tháng về trước.
Đến đây, hi vọng các bạn đã hiểu phần nào "chuyện bếp núc" của các paper. Tôi xin chia sẻ thêm một số kinh nghiệm của tôi trong việc tìm và đọc paper khi nghiên cứu:
1. Cho người mới bắt đầu - Nguyên lí hội tụ
Giả sử rằng bạn yêu thích một lĩnh vực nào đó và bây giờ muốn nghiên cứu sâu hơn về nó. Vấn đề đặt ra là làm thế nào để tìm được các paper có chất lượng để đọc?
Trước hết bạn hãy lên mạng tìm các paper có từ khóa liên quan trực tiếp đến vấn đề của bạn. Ví dụ, nếu làm về face detection thì search với từ khóa face detection. Thông dụng nhất vẫn là Google và Google Scholar. Bạn cũng có thể tìm trong CiteSeer.
Hãy thử đọc lướt qua các paper mà bạn tìm được với mục tiêu chính là tìm xem các key references trong lĩnh vực mà bạn quan tâm. Sau bước này, bạn đã thu hẹp lại không gian tìm kiếm của mình từ rất rộng đến hẹp hơn. Sau khoảng một thời gian, bạn sẽ tự xác định được các papers nào là có chất lượng và đáng để đọc. Tôi nói hội tụ là vậy. Bạn bắt đầu từ không biết gì nhiều nhưng sau mỗi lần refine, bạn sẽ có kết quả hiện rõ dần hơn.
2. Keep Reading - Luôn cập nhật thông tin
Lập danh sách các key conferences, journals, people
Song song với bước trước, bạn thu thập lại các key conferences, journals, boss trong lĩnh vực của bạn. Thường xuyên viếng thăm các trang web các conferences, journals và các trang homepages của các boss để tìm đọc các ý tưởng, các papers mới nhất của họ.
Thông thường, người ta sẽ publish các paper đầu tiên ở các conference, sau đó nếu có kết quả thuyết phục và đủ mạnh, họ sẽ revise lại để publish ở các journal. Nếu bạn quan tâm đến ý tưởng thì đọc bài của conference nhưng nến quan tâm đến chi tiết của ý tưởng đó, ví dụ như tại sao người ta lại có thể nghĩ ra ý tưởng đó, ý tưởng đó khác với các ý tưởng trước thế nào và vì sao nó đem lại kết quả tốt hơn, ... , bạn nên tìm bài journal để đọc.
3. Challenge Arguments - Biết nghi ngờ
Đây là phần khó nhất và đòi hỏi kinh nghiệm. Khi đọc paper, bạn phải biết đánh giá contribution (đóng góp) của tác giả đến đâu. Đánh giá và so sánh các ý tưởng của tác giả so với các bài đã đọc, đánh giá xem ý tưởng đó có hữu ích để áp dụng cho các bài toán khác hay không.
Tôi xin lấy một ví dụ về bài toán hand gesture recognition mà tôi đang cùng thực hiện với các SV Khoa CNTT. Bài toán đặt ra ban đầu là làm thế nào để nhận dạng các kí tự thông qua các kí hiệu bàn tay. Trong khi làm thí nghiệm, chúng tôi phát hiện ra là hai chữ A và E có posture (tư thế) rất giống nhau và kết quả thường rất hay nhầm lẫn. SV của tôi mới đề nghị là dùng thêm NLP (natural language processing) vào để hỗ trợ cho việc nhận dạng có độ chính xác cao hơn. Hoặc có thể bổ sung heuristics theo kiểu chữ A thì có tính chất dạng xương phải có góc nghiêng, trong khi chữ E thì không.
Giả sử cách tiếp cận đó thành công và cho kết quả rất tốt đi. Nhưng đánh giá về nó thì sao? Theo tôi, việc dùng các heuristic kiểu đó không được đánh giá cao bởi vì nếu người ta đặt câu hỏi là bây giờ tôi muốn mở rộng bài toán thành không nhận dạng các chữ cái từ A đến Z nữa mà là các chữ số 0-9 thì sao? Nếu vậy thì cái NLP xem như dẹp. Hay là nếu giờ tôi phát hiện ra chữ A và chữ S rất giống nhau, tôi lại phải đi kiếm bằng tay đặc trưng phân biệt A và S ah? Hay giờ nếu tôi mở rộng ra khoảng 1.000 class khác nhau thì làm sao? Lưu ý rằng, trong nghiên cứu một paper chỉ được đánh giá cao khi đọc nó, người ta có thể tìm được ý tưởng để có thể áp dụng vào các bài toán khác. Các kết quả thể hiện trong paper đã đọc dạng như recognition rate 98% chỉ mang ý nghĩa là ý tưởng của bạn nó có hiệu quả thôi chứ để đạt 98% bằng cách như đã nói ở trên thì cũng không mang lại nhiều hứng thú lắm.
Một ví dụ khác là bạn đọc một bài báo và tác giả đề xuất một phương pháp mới và chỉ làm một thí nghiệm đơn giản để minh họa và cho thấy kết quả 99.9%, không có bất kì so sánh nào. Nếu tác giả không có giải thích nguyên nhân làm sao phương pháp mới đề xuất cho kết quả cao như vậy thì cũng vô nghĩa. Hay nếu không có so sánh nào với các phương pháp khác trên cùng điều kiện thí nghiệm thì không thuyết phục. Reviewer có thể đặt câu hỏi là vì đkiện thí nghiệm của anh đơn giản như vậy thì tôi xài phương pháp XYZ trước đó cũng có thể đạt 99.9% vậy. Lúc đó, có thể thấy thông số 99.9% chẳng có ý nghĩa gì.
Một vài lời bàn thêm
Trong thời gian qua, có thể thấy là các hội nghị tổ chức trong nước ít nhận được sự quan tâm của mọi người. Có thể có nhiều nguyên nhân, ví dụ như kinh phí để tham dự hội nghị hạn chế, ... Tuy nhiên, tôi nghĩ rằng nguyên nhân chính là nhiều người nghĩ rằng các hội nghị này không có giá trị.
Như tôi đã nói ở trên, mục đích của các hội nghị là tạo cơ hội cho các nhà nghiên cứu giới thiệu, trao đổi các công trình của mình. Chúng ta không thể đòi hỏi một hội nghị tổ chức lần đầu tiên mà chất lượng cao như các hội nghị lâu đời được. Hãy thử nghĩ xem nếu chúng ta không góp sức vào bằng cách gửi bài cho hội nghị, để rồi từ năm này sang năm khác, chất lượng của hội nghị sẽ tăng theo thời gian.
Tôi cũng đã quan sát không ít hội nghị (không thuộc loại danh tiếng) ở nước ngoài, các mặt tổ chức và bài vở cũng gặp vấn đề tương tự như ở trong nước chúng ta mà thôi. Có một kinh nghiệm ở Hàn Quốc rất hay. Một trong các tiêu chí để tốt nghiệp PhD ở Hàn Quốc là ngoài các paper publish ở các international conference, các PhD student buộc phải có các publication ở trong nước. Tôi nói hay bởi vì chỉ bằng cách đó, chất lượng của các conference và journal của Hàn Quốc mới dần dần có tầm vóc quốc tế được, chứ nếu ai cũng gửi hết cho international conference và journal thì làm sao mong mỏi các publication trong nước có tầm quốc tế được.
Theo quan điểm cá nhân, tôi thấy các hội nghị thường niên ở VN như Hội thảo QG về CNTT, RIVF, HSPC, FAIR... đang có những bước tiến bộ đáng kể so với lần tổ chức trước và tất nhiên để nó có thể là sân chơi tốt hơn cho chúng ta thì chính chúng ta chứ không phải ai khác góp sức vào nó.
Một số bài viết liên quan có thể xem thêm tại Blog KHMT
1. Các hội nghị KHMT
2. Các hội nghị KH về CNTT tại Việt Nam
Lê Đình Duy
Cập nhật ngày 15.12.2006
http://ledduy.blogspot.com/2005/09/lam-th-nao-anh-gia-cht-lng-cua-mt.html
Không có nhận xét nào:
Đăng nhận xét