Octahedron80

เข้าร่วมเมื่อ 26 มกราคม 2551
I IZ SERIUS ADMNIM THIZ IZ SERIUS BIZNIS lolcat.jpg
ข้อมูลภาษาของผู้ใช้
th-N ผู้ใช้คนนี้ใช้ภาษาไทยเป็นภาษาแม่
en-3 This user has advanced knowledge of English.
zh-1 这位用户的中文达到初级水平
cmn-1 This user has basic knowledge of Mandarin Chinese.
ผู้ใช้ตามภาษา
  • 🏠 วิกิพีเดียภาษาไทย และวิกิพจนานุกรมภาษาไทย
  • 🇹🇭󠁔󠁈 ประเทศไทย
  • 🎓 วท.บ. (ศาสตร์คอมพิวเตอร์) และ บธ.บ. (การตลาด)
  • 🤖 ผู้ใช้:OctraBot
  • 😅 ขออภัยหากข้าพเจ้าแก้ไขหน้าใดหน้าหนึ่งมากครั้งเกินไป
  • 😵 ข้าพเจ้าทำงานกับหลายภาษาที่สามารถเรียนรู้ได้ง่าย

หน้าย่อยแก้ไข

อื่น ๆ สำหรับทดสอบแก้ไข

สถานะโครงการแก้ไข

  • มีมาตรฐานรูปแบบการเขียนแล้ว แต่บางครั้งต้องสร้างแม่แบบของภาษาต่าง ๆ ขึ้นมาเฉพาะ เพราะไวยากรณ์ต่างกัน รูปแบบการเขียนของคำเก่า ๆ ต้องทยอยปรับปรุงไปเรื่อย ๆ
  • หน้าที่ต้องการเก็บกวาดให้เป็นมาตรฐานมีจำนวนมาก เพราะคนเก่า ๆ สร้างไว้นานแล้ว
  • ผู้ใช้กระตือรือร้นมีน้อย ผู้ดูแลนั่งตบยุง ไม่เพียงพอที่จะทำให้เกิดมติส่วนใหญ่ของโครงการได้ เท่าที่นับได้มีประมาณ 10 คน ต้องใช้วิธีลงคะแนนเสียง
  • ลิงก์ข้ามภาษาในหน้าคำศัพท์ไม่จำเป็นต้องมีอีกต่อไป เพราะส่วนขยาย Cognate เชื่อมโยงกันโดยอัตโนมัติ (บางหน้ายังจำเป็น เช่นภาษามือ คำยาวมาก หรือคำที่มีตัวอักษรที่ใช้ตั้งชื่อไม่ได้)
  • หน้าอื่นนอกเหนือจากคำศัพท์ เช่นหมวดหมู่หรือเนมสเปซเฉพาะกิจ เชื่อมโยงถึงกันได้ในวิกิสนเทศ แต่ต้องเพิ่มด้วยตัวเอง
  • มอดูล คือการใช้ภาษาลูอาทำงานร่วมกับโครงการวิกิ ซึ่งยืดหยุ่นกว่าแม่แบบมาก ส่วนมากใช้มอดูลของวิกิพจนานุกรมภาษาอังกฤษเป็นต้นแบบ
    • หมวดหมู่เริ่มที่จะเป็นระเบียบมากขึ้น แต่บางอย่างก็ไม่เหมาะสมที่จะใช้ในโครงการนี้ ต้องดัดแปลงหรือตัดออก
    • มอดูลภาษา เช่น ชื่อภาษา การถอดอักษร การเรียงลำดับ ตระกูล/กลุ่ม บรรพบุรุษ ฯลฯ ค่อนข้างเปลี่ยนแปลงบ่อย
    • มีมอดูลถอดอักษร และถอดการออกเสียงเป็น IPA มากขึ้น ผู้ใช้ทั่วไปไม่ต้องเขียนเองให้ลำบาก (แต่บางภาษาก็ยากเกินไป ทำไม่ได้จริง ๆ)

ช่วยกันหน่อยแก้ไข

คำแนะนำแก้ไข

  • จำนวนคำในภาษาหนึ่งมีเป็นแสน ๆ ถ้าเขียนวันละคำชาตินี้ก็ไม่เสร็จ ดังนั้นควรเขียนวันละไม่ต่ำกว่า 100 คำ
  • คำสั้นมักจะมีหลายภาษารวมกันอยู่มาก ทำให้ขี้เกียจแปลและจัดเรียง ถ้าเริ่มต้นสร้างคำยาวก่อน มีภาษาน้อย อาจจะทำได้เร็วกว่า
  • ข้อความแจ้งเตือนข้อผิดพลาด และเอกสารกำกับ ของแม่แบบและมอดูล ไม่ต้องแปลก็ได้
  • หมวดหมู่ที่ต้องการ บางหมวดหมู่มีไว้เพื่อติดตามงานเท่านั้น ไม่จำเป็นต้องสร้างขึ้นมา
  • ชนิดของคำที่อาจสร้างความสับสน
    • acronym = อักษรอ่านย่อ (คำที่เอาอักษรตัวหน้ามาและอ่านรวมกัน เช่น UNESCO, OPEC, NASA ฯลฯ; ใช้แทนศัพท์บัญญัติว่า รัสพจน์ ซึ่งคนทั่วไปไม่รู้จัก)
    • initialism = อักษรย่อ (คำที่เอาอักษรตัวหน้ามาแต่ไม่อ่านรวม; ภาษาไทยส่วนมากเป็นอันนี้)
    • clipping = คำตัดทอน (คำยาวที่ถูกตัดเป็นคำสั้นลง)
    • abbreviation = คำย่อ (คำที่ไม่ใช่ทั้งหมดด้านบน เช่น isn't l'more je t'aime)
    • shortening = การย่อ (หมวดหมู่ใหญ่ที่คลุมทั้งหมดด้านบน)
  • PSWT ก่อนหน้านี้อิงกับระบบของ Li อย่างเดียว ภายหลังพบว่า ก็ยังมีของอีกหลายคนที่เกิดขึ้นทีหลังอย่างเช่น Jonsson และต่อมา Pittayaporn ปรับปรุงระบบทั้งหมดนั่นใหม่ จึงควรเปลี่ยนไปใช้ระบบ Pittayaporn ทั้งหมด เพื่อที่จะนำไปใส่เนมสเปซ การสืบสร้าง (Reconstruction) ขณะนี้ก็ยังมีระบบ Li ตกค้างอยู่หลายหน้า ส่วนวรรณยุกต์ยึดตามระบบ Gedney คือ A B C DS DL และกลุ่มพยัญชนะ 4 กลุ่มซึ่งครอบคลุมที่สุด (มีบางภาษาที่ทั้ง 4 กลุ่มผันเสียงต่างกัน)

ปัญหาแปลก ๆ ด้านเทคนิคแก้ไข

  • อักขระที่มองไม่เห็น สามารถสังเกตได้จาก URL หรือการถอดอักษร
    • ZWSP (U+200B) หรือเครื่องหมายจัดรูปแบบอื่น ๆ ที่มองไม่เห็น มักเกิดจาก Word หรือ Machine Learning ต้องตัดออกเพราะถูกใช้เป็นตัวตัดคำ/บรรทัด ไม่มีผลในการค้นหา แต่จะทำให้เชื่อมโยงคำกันไม่เจอ และจะทำให้คนสร้างหน้าใหม่ซ้ำ
    • ZWJ (U+200C) และ ZWNJ (U+200D) ควรคงไว้เพราะเกี่ยวกับการเปลี่ยนรูปอักษร (ภ.เปอร์เซีย, อูรดู, สิงหล) การใส่กับไม่ใส่ให้ผลลัพธ์เป็นคนละคำ
  • ตัวอักษรในภาษาไทดั้งเดิมและไทตะวันออกเฉียงใต้ดั้งเดิม ᴬ ᴮ ꟲ ᴰ ᴸ ˢ ซึ่งใช้แทนวรรณยุกต์ ตัว s เป็นตัวเล็ก
    • มาตรฐานยูนิโคด 14.0 มี C ตัวใหญ่แล้ว คือ ꟲ (U+A7F2) ฟอนต์ที่มีคือ Symbola
  • คุณลักษณะ OpenType ทำงานไม่ครบถ้วนในเบราว์เซอร์
    • อักษรไทธรรม (ภ.คำเมือง, เขิน, ไทลื้อ) เวลามีพยัญชนะมากกว่า 1 ตัว เช่นอักษรซ้อนหรือตัวควบกล้ำ แล้วใส่สระหน้าตาม สระหน้าไม่ยอมไปอยู่ข้างหน้าสุด แต่เวลาทดสอบใน BabelMap มันโอเค (บางตัว)
    • อักษรไทลื้อใหม่ (ภ.ไทลื้อ) มาตรฐานปัจจุบันให้ใส่ตามลำดับปรากฏ แต่มีบางฟอนต์ที่หวังดี ดึงสระหน้าที่ตามหลังพยัญชนะไปไว้ข้างหน้า เช่น ขแจ กลายเป็น แขจ แล้วก็จะได้คำที่สะกดผิดทั้งที่เราคีย์ถูก
      • วิธีแก้เบื้องต้นคือเอา ZWNJ มาคั่นใน DISPLAYTITLE และ head ซึ่งเป็นจุดสำคัญที่คนมองเห็น ตรงอื่นไม่จำเป็นมีแต่เหนื่อยเพิ่ม
      • ปัญหาใหม่ DISPLAYTITLE ไม่แสดงตามที่ต้องการ ถ้า normalize แล้วได้ค่าเดียวกับชื่อหน้า ซึ่งเป็นข้อจำกัดที่ตั้งไว้ของมีเดียวิกิ อาจต้องใช้จาวาสคริปต์แทน (?)

บันทึกแก้ไข