Hãy cùng chúng tôi giữ gìn tiếng Việt- Bài 1: Những thông tin gây hoang mang

Khi phóng viên không nghiên cứu kỹ báo cáo

Thông tin trên các báo nêu: Theo Báo cáo tình hình chính tả trong văn bản tiếng Việt, đợt đánh giá tháng 6/2010, tỷ lệ lỗi trung bình là 7,79% và đặc biệt là có những cơ quan tỉ lệ lỗi tới 30%, thậm chí gần 40%.

Câu chuyện bắt đầu từ một cuộc họp báo của Viện Công nghệ thông tin, Đại học Quốc gia Hà Nội và Trung tâm Nghiên cứu Phát triển Công nghệ GRID tại Huế, Công ty VIEGRID JSC., công bố Báo cáo về tình hình chính tả trong văn bản tiếng Việt, đợt đánh giá tháng 6/2010. Sau cuộc họp báo, nhiều báo chí ngày 29/7 đã đưa tin về Báo cáo này, với những tít giật mình: “Lỗi chính tả tiếng Việt đang ở mức báo động” (Hà Nội mới), “Lỗi chính tả trong văn bản tiếng Việt gấp 8 lần chuẩn” (dantri.com), “Báo chí viết sai lỗi chính tả cao nhất” (plo.vn dẫn nguồn LĐO- laodong.com.vn). Tiếp đó, báo Đất Việt và báo Lao động cuối tuần đăng bài “Báo động chính tả: Căn cứ vào đâu?” của PGS.TS Phạm Văn Tình.

Hãy cùng chúng tôi giữ gìn tiếng Việt- Bài 1: Những thông tin gây hoang mang ảnh 1

Trước những thông tin gây bức xúc và các dư luận xung quanh Báo cáo, phóng viên đã gặp TS Nguyễn Ái Việt, Phó Viện trưởng Viện Công nghệ thông tin, Đại học Quốc gia Hà Nội và PGS-TS Phạm Văn Tình, Phó Tổng Biên tập Tạp chí Từ điển học và Bách khoa thư, Viện Từ điển học và Bách khoa thư Việt Nam để tìm hiểu thêm.

Liên quan đến khái niệm tỷ lệ lỗi chính tả, ông Phạm Văn Tình cho biết: “Từ góc độ nghiên cứu ngôn ngữ, khi nói đến tỷ lệ lỗi, người ta nói đến tỷ lệ của số con chữ bị sai lỗi trên tổng số con chữ của toàn văn bản. Và như vậy, nếu số lỗi chính tả trung bình là 7,79%, tức là một trang văn bản có 600 con chữ mà có tới 46-48 chữ sai chính tả thì quả là rất đáng báo động”.

 Thực tế, trong Báo cáo về tình hình chính tả, các tác giả đã giới thiệu về phương pháp thống kê của công trình nghiên cứu: Chọn một tập lỗi của những từ “phổ biến” có tần suất xuất hiện cao trong những văn bản, sử dụng công cụ tìm kiếm của Google và một chương trình phần mềm tự động để tìm kiếm số lần một lỗi nhất định và số lần từ đúng của nó, tỷ lệ lỗi được tính bằng số lần xuất hiện của lỗi trên tổng số lần xuất hiện của từ.

Như vậy, với số liệu về tỷ lệ lỗi nêu ra trong Báo cáo về tình hình chính tả cần được hiểu là tỷ lệ của số lần xuất hiện tập lỗi trên tổng số tập từ được chọn. Ví dụ như lỗi “thăm quan” (viết đúng là “tham quan”) có tỷ lệ 17,8%, nghĩa là nếu có 1.000 tình huống có từ tham quan xuất hiện thì có đến 178 từ được viết thành “thăm quan”.

Tỷ lệ lỗi trung bình trên các văn bản tiếng Việt được công trình nghiên cứu đề cập là 7,79%, nghĩ là với tập 20 lỗi do người thực hiện chọn, cứ 10.000 mẫu thì có 779 lỗi xuất hiện (Chứ không phải 7,79% của toàn bộ văn bản bị lỗi). Nhiều phóng viên đưa tin về Báo cáo đã không đọc kỹ để hiểu và đưa thông tin đúng theo tinh thần của nghiên cứu.

Khi chúng tôi đặt vấn đề này với TS. Nguyễn Ái Việt, ông nói: “Tôi không bình luận về chuyện này. Việc này không liên quan đến Viện, không liên quan đến VIEGRID. Việc chính xác đến đâu là việc của họ (báo chí-PV). Không bao giờ có chuyện một công trình khoa học mà thông tin đại chúng lại hiểu hoàn toàn được, đó là điều chắc chắn. Thế nên, nếu có sai lạc thì đó cũng là chuyện bình thường”.

Không sai nhưng chưa chuẩn

Trả lời câu hỏi của phóng viên, việc chọn tập lỗi để khảo sát (ở đây là tập 20 lỗi) liệu có mang tính chủ quan? Ông Nguyễn Ái Việt cho rằng: “Không có gì chủ quan cả. Cũng như ra đề thi thôi. Vấn đề ra đề thi là một quy trình, có khống chế hay không, có lộ đề hay không. Còn nói là tại sao là tập này mà không phải tập khác thì không nói thế được. Đây là một cuộc thi, một cuộc trắc nghiệm. Ở đây tôi chỉ khảo sát theo sample (mẫu), thống kê là tuyệt đối đúng. Khi những tập mẫu mà đơn vị chỉ có 120 mẫu thôi, hoặc 800 mẫu thôi, chúng tôi đã bỏ đi. Thực ra, đứng về quan điểm thi, thì 100 mẫu là quá đủ rồi. Để cho công bằng, đơn vị nào có đủ 1.000 mẫu tôi mới đánh giá, 1.000 cơ hội mà anh sai mất 200 cơ hội thì anh còn lý luận vào đâu nữa?”.

Nhưng với câu hỏi tương tự, nhà ngôn ngữ học Phạm Văn Tình lại cho rằng: “Tỷ lệ lỗi phải căn cứ vào toàn bộ văn bản. Lỗi chính tả bao gồm nhiều chi tiết, đặt dấu sai vị trí cũng là sai, viết sai chữ cái là sai chính tả, viết sai thanh điệu là sai chính tả… Việc chọn tập lỗi là một phương pháp khác, có thể mang ý kiến chủ quan của các nhà nghiên cứu”.

Trong Báo cáo về tình hình chính tả, liệt kê 5 đơn vị truyền thông có nhiều lỗi nhất, trong đó Đài TNVN có tỷ lệ cao nhất- 30,15% trên tổng mẫu 2.040, Việt Báo (mà trong Báo cáo nêu là Việt báo Việt Nam) đứng thứ 5 với tỷ lệ 19,85% trên tổng số mẫu 20.017. Phóng viên chúng tôi đã đặt câu hỏi: “Việc đưa ra các tỷ lệ lỗi trên tổng số mẫu không tương đương liệu có làm sai lệch kết quả khảo sát?”. Ông Nguyễn Ái Việt khẳng định: “Số mẫu không quan trọng, nếu số mẫu đó đủ để đặc trưng thì kết quả không thể khác nhau được” (?).

Người ta có câu “Một nửa cái bánh mì vẫn là bánh mì, nhưng một nửa sự thật thì đã không còn là sự thật”. Kết quả đánh giá 20.000 mẫu được đem so sánh với kết quả đánh giá 2.000 mẫu có độ chính xác đến đâu, quyền phán xét là ở bạn đọc.

Theo Bích Đào (VOV)

Đừng bỏ lỡ

Video đang xem nhiều

Đọc thêm