I IZ SERIUS ADMNIM THIZ IZ SERIUS BIZNIS lolcat.jpg
ข้อมูลภาษาของผู้ใช้
th-N ผู้ใช้คนนี้ใช้ภาษาไทยเป็นภาษาแม่
en-3 This user has advanced knowledge of English.
zh-1 这位用户的中文达到初级水平
cmn-1 This user has basic knowledge of Mandarin Chinese.
{{t}}-3 ผู้ใช้นี้สามารถเขียนแม่แบบวิกิได้ในระดับสูง สามารถเขียนโค้ดที่ซับซ้อนได้
JS-3 ผู้ใช้นี้สามารถเขียนจาวาสคริปต์ได้ในระดับสูง สามารถเขียนโค้ดที่ซับซ้อนได้
lua-3 ผู้ใช้นี้สามารถเขียนภาษาลูอาได้ในระดับสูง สามารถเขียนโค้ดที่ซับซ้อนได้
Python-2 ผู้ใช้นี้สามารถเขียนภาษาไพทอนได้ในระดับปานกลาง สามารถเข้าใจโค้ดที่คนอื่นเขียนได้
ผู้ใช้ตามภาษา
UTC+7 ผู้ใช้นี้อยู่ในเขตเวลา UTC+7
  • 🏠 วิกิพีเดียภาษาไทย และวิกิพจนานุกรมภาษาไทย
  • 🇹🇭󠁔󠁈 ประเทศไทย
  • 🎓 วท.บ. (ศาสตร์คอมพิวเตอร์) และ บธ.บ. (การตลาด)
  • 🤖 ผู้ใช้:OctraBot (บางครั้งใช้บัญชี Octahedron80 เก็บกวาดถ้าไม่เยอะมาก)
  • 😅 ขออภัยหากข้าพเจ้าแก้ไขหน้าใดหน้าหนึ่งมากครั้งเกินไป
  • 😵 ข้าพเจ้าทำงานกับหลายภาษาที่สามารถเรียนรู้ได้ง่าย

หน้าย่อยแก้ไข

อื่น ๆ สำหรับทดสอบแก้ไข

สถานะโครงการแก้ไข

  • มีมาตรฐานรูปแบบการเขียนแล้ว แต่บางครั้งต้องสร้างแม่แบบของภาษาต่าง ๆ ขึ้นมาเฉพาะ เพราะไวยากรณ์ต่างกัน รูปแบบการเขียนของคำเก่า ๆ ต้องทยอยปรับปรุงไปเรื่อย ๆ
  • หน้าที่ต้องการเก็บกวาดให้เป็นมาตรฐานมีจำนวนมาก เพราะคนเก่า ๆ สร้างไว้นานแล้ว
  • ผู้ใช้กระตือรือร้นมีน้อย ผู้ดูแลนั่งตบยุง ไม่เพียงพอที่จะทำให้เกิดมติส่วนใหญ่ของโครงการได้ เท่าที่นับได้มีประมาณ 10 คน ต้องใช้วิธีลงคะแนนเสียง
  • ลิงก์ข้ามภาษาในหน้าคำศัพท์ไม่จำเป็นต้องมีอีกต่อไป เพราะส่วนขยาย Cognate เชื่อมโยงกันโดยอัตโนมัติ (บางหน้ายังจำเป็น เช่นภาษามือ คำยาวมาก หรือคำที่มีตัวอักษรที่ใช้ตั้งชื่อไม่ได้)
  • หน้าอื่นนอกเหนือจากคำศัพท์ เช่นหมวดหมู่หรือเนมสเปซเฉพาะกิจ เชื่อมโยงถึงกันได้ในวิกิสนเทศ แต่ต้องเพิ่มด้วยตัวเอง
  • มอดูล คือการใช้ภาษาลูอาทำงานร่วมกับโครงการวิกิ ซึ่งยืดหยุ่นกว่าแม่แบบมาก ส่วนมากใช้มอดูลของวิกิพจนานุกรมภาษาอังกฤษเป็นต้นแบบ
    • หมวดหมู่เริ่มที่จะเป็นระเบียบมากขึ้น แต่บางอย่างก็ไม่เหมาะสมที่จะใช้ในโครงการนี้ ต้องดัดแปลงหรือตัดออก
    • มอดูลภาษา เช่น ชื่อภาษา การถอดอักษร การเรียงลำดับ ตระกูล/กลุ่ม บรรพบุรุษ ฯลฯ ค่อนข้างเปลี่ยนแปลงบ่อย
    • มีมอดูลถอดอักษร และถอดการออกเสียงเป็น IPA มากขึ้น ผู้ใช้ทั่วไปไม่ต้องเขียนเองให้ลำบาก (แต่บางภาษาก็ยากเกินไป ทำไม่ได้จริง ๆ)

ช่วยกันหน่อยแก้ไข

คำแนะนำแก้ไข

  • จำนวนคำในภาษาหนึ่งมีเป็นแสน ๆ ถ้าเขียนวันละคำชาตินี้ก็ไม่เสร็จ ดังนั้นควรเขียนวันละไม่ต่ำกว่า 100 คำ
  • คำสั้นมักจะมีหลายภาษารวมกันอยู่มาก ทำให้ขี้เกียจแปลและจัดเรียง ถ้าเริ่มต้นสร้างคำยาวก่อน มีภาษาน้อย อาจจะทำได้เร็วกว่า
  • ข้อความแจ้งเตือนข้อผิดพลาด และเอกสารกำกับ ของแม่แบบและมอดูล ไม่ต้องแปลก็ได้
  • หมวดหมู่ที่ต้องการ บางหมวดหมู่มีไว้เพื่อติดตามงานเท่านั้น ไม่จำเป็นต้องสร้างขึ้นมา
  • ส่วนหนึ่งของชื่อภาษา
    • Middle = กลาง; Central = ตอนกลาง (ยกเว้น Mandarin = จีนกลาง; Middle Chinese = จีนยุคกลาง)
    • Old = เก่า; Ancient = โบราณ (เท่าที่เห็นมี Ancient Greek = กรีกโบราณ เท่านั้น)
    • dialect/minor language ที่ขยายชื่อภาษา ใช้คำว่า "แบบ" เพราะบางครั้งไม่ได้อ้างถึงประเทศหรือเมือง
  • ชนิดของคำที่อาจสร้างความสับสน
    • acronym = อักษรอ่านย่อ (คำที่เอาอักษรตัวหน้ามาและอ่านรวมกัน เช่น UNESCO, OPEC, NASA ฯลฯ; ใช้แทนศัพท์บัญญัติว่า รัสพจน์ ซึ่งคนทั่วไปไม่รู้จัก)
    • initialism = อักษรย่อ (คำที่เอาอักษรตัวหน้ามาแต่ไม่อ่านรวม; ภาษาไทยส่วนมากเป็นอันนี้)
    • clipping = คำตัดทอน (คำยาวที่ถูกตัดเป็นคำสั้นลง)
    • abbreviation = คำย่อ (คำที่ไม่ใช่ทั้งหมดด้านบน เช่น isn't l'more je t'aime)
    • shortening = การย่อ (หมวดหมู่ใหญ่ที่คลุมทั้งหมดด้านบน)
  • PSWT ก่อนหน้านี้อิงกับระบบของ Li อย่างเดียว ภายหลังพบว่า ก็ยังมีของอีกหลายคนที่เกิดขึ้นทีหลังอย่างเช่น Jonsson และต่อมา Pittayaporn ปรับปรุงระบบทั้งหมดนั่นใหม่ จึงควรเปลี่ยนไปใช้ระบบ Pittayaporn ทั้งหมด เพื่อที่จะนำไปใส่เนมสเปซ การสืบสร้าง (Reconstruction) ขณะนี้ก็ยังมีระบบ Li ตกค้างอยู่หลายหน้า ส่วนวรรณยุกต์ยึดตามระบบ Gedney คือ A B C DS DL และกลุ่มพยัญชนะ 4 กลุ่มซึ่งครอบคลุมที่สุด (มีบางภาษาที่ทั้ง 4 กลุ่มผันเสียงต่างกัน)
  • ชื่อวันและชื่อเดือน (จันทรคติหรือสุริยคติก็ตาม) บางภาษาให้เป็นคำวิสามานยนาม บางภาษาให้เป็นคำสามานยนาม
  • อักษรยาวีของกลุ่มภาษามาเลย์อิกทั้งหมด ให้ใช้ ک และ ݢ เท่านั้น ห้ามใช้ ك และ ڬ ของกลุ่มภาษาอาหรับ เพราะมันแสดงผลต่างกัน (ระบุไว้ในเอกสารยูนิโคด)
  • ฐ/ญ ไม่มีเชิง มีให้ใช้บน PUA คือ (U+F700) และ (U+F70F) สำหรับแสดงผลเท่านั้น ห้ามใช้ตั้งชื่อหน้า เพราะจะเชื่อมโยงไม่ถึงกัน (การตั้งชื่อหน้าให้ใช้ ฐ/ญ ปกติตามกฎเดิม)
    • สามารถทำลิงก์จาก ฐ/ญ ไม่มีเชิงได้ ถ้า entry_name ในมอดูลชื่อภาษา ได้ทำการเปลี่ยนตัวอักษรไว้แล้ว (ตัวอย่าง pi, sa, mfa) ซึ่งจะเชื่อมโยงไปยัง ฐ/ญ ปกติ

ปัญหาแปลก ๆ ด้านเทคนิคแก้ไข

  • อักขระที่มองไม่เห็น สามารถสังเกตได้จาก URL หรือการถอดอักษร
    • ZWSP (U+200B) หรือเครื่องหมายจัดรูปแบบอื่น ๆ ที่มองไม่เห็น มักเกิดจาก Word หรือ Machine Learning ต้องตัดออกเพราะถูกใช้เป็นตัวตัดคำ/บรรทัด ไม่มีผลในการค้นหา แต่จะทำให้เชื่อมโยงคำกันไม่เจอ และจะทำให้คนสร้างหน้าใหม่ซ้ำ
    • ZWJ (U+200C) และ ZWNJ (U+200D) ควรคงไว้เพราะเกี่ยวกับการเปลี่ยนรูปอักษร (ภ.เปอร์เซีย, อูรดู, สิงหล) การใส่กับไม่ใส่ให้ผลลัพธ์เป็นคนละคำ
  • ตัวอักษรในภาษาไทดั้งเดิมและไทตะวันออกเฉียงใต้ดั้งเดิม ᴬ ᴮ ꟲ ᴰ ᴸ ˢ ซึ่งใช้แทนวรรณยุกต์ ตัว s เป็นตัวเล็ก
    • มาตรฐานยูนิโคด 14.0 มี C ตัวใหญ่แล้ว คือ ꟲ (U+A7F2) ฟอนต์ที่มีคือ Symbola
  • คุณลักษณะ OpenType ทำงานไม่ครบถ้วนในเบราว์เซอร์
    • อักษรไทธรรม (ภ.คำเมือง, เขิน, ไทลื้อ) เวลามีพยัญชนะมากกว่า 1 ตัว เช่นอักษรซ้อนหรือตัวควบกล้ำ แล้วใส่สระหน้าตาม สระหน้าไม่ยอมไปอยู่ข้างหน้าสุด แต่เวลาทดสอบใน BabelMap มันโอเค (บางตัว)
    • อักษรไทลื้อใหม่ (ภ.ไทลื้อ) มาตรฐานปัจจุบันให้ใส่ตามลำดับปรากฏ แต่มีบางฟอนต์ที่หวังดี ดึงสระหน้าที่ตามหลังพยัญชนะไปไว้ข้างหน้า เช่น ขแจ กลายเป็น แขจ แล้วก็จะได้คำที่สะกดผิดทั้งที่เราคีย์ถูก
      • วิธีแก้เบื้องต้นคือเอา ZWNJ มาคั่นใน DISPLAYTITLE และ head ซึ่งเป็นจุดสำคัญที่คนมองเห็น ตรงอื่นไม่จำเป็นมีแต่เหนื่อยเพิ่ม
      • ปัญหาใหม่ DISPLAYTITLE ไม่แสดงตามที่ต้องการ ถ้า normalize แล้วได้ค่าเดียวกับชื่อหน้า ซึ่งเป็นข้อจำกัดที่ตั้งไว้ของมีเดียวิกิ อาจต้องใช้จาวาสคริปต์แทน (?)
  • ภาษาถิ่นที่ใช้อักษรไทย มีพยัญชนะบางตัวที่ประพินทุ แล้วมีสระบน/ล่าง การป้อนตามตรรกะควรเป็น พยัญชนะ+พินทุ+สระบน/ล่าง เพื่อให้ลิงก์หากันเจอ แต่หลายฟอนต์แสดงผลโดยวางพินทุไว้ต่ำกว่าสระล่าง หรือวางทับกัน อาจทำให้สับสนได้ (ถ้าระบบเอาตัวอักษรที่เหลืออยู่มาใช้ หรือประดิษฐ์ใหม่เลย อาจจะดีกว่าที่เป็นอยู่)
  • Combining Diacritical Marks ควรใช้ได้กับอักษรทุกแบบ เพราะเป็นกลุ่มอักษร Inherited แต่ในความเป็นจริงหลายฟอนต์ก็ไม่ได้ทำมาให้รองรับ (เช่นเติมบนอักษรไทย) ทำให้ตัวอักษรทับซ้อนกัน หรือกลายเป็นกล่องว่าง เราต้องเข้าใจตามตรรกะว่าได้ใส่เครื่องหมายถูกต้องแล้ว

บันทึกแก้ไข