20:09 ฮิม ถ้า input เป็น html. นี่น่าจะฉลุยเลย
20:10 ทิด ป๋อง ยังเหลือ error อยู่บ้าง สัก 15% ครับ
20:10 ทิด ป๋อง หวังว่าแกะ html จะง่ายกว่านี้. เพราะผมรู้จัก html ดีกว่า rtf มาก
20:10 ฮิม html. น่าจะง่ายกว่าเยอะครับ
20:11 ฮิม เดี๋ยวผมจะหาเวลาดู vba word ว่าทำอะไรได้ไหม…
20:11 ฮิม เผื่อจะเร็วขึ้น
20:11 ทิด ป๋อง งั้นผมจะลองทำ idml ดูก่อนนะครับ. ถ้าเสร็จแล้วจะมาช่วย word ต่อ
20:12 ทิด ป๋อง เพราะทั้งนิสสยะ และ ประชาชน ก็ใช้ indesign ทั้งคู่มั้ง. เผื่อใช้ได้ทั้ง 2 งาน
20:18 ฮิม ได้ครับ…Word ถ้าดูแล้วซับซ้อน ผมก็อาจจะทำเป็น html เหมือนกัน
22:48 ฮิม Photos
22:48 ฮิม ได้ออกมาแบบนี้เลยครับ
22:48 ทิด ป๋อง ดีเลยครับ
22:49 ฮิม แต่มีไม่ได้เหมือนกัน คิดว่า logic ซ่อม พอพอกัน เขียนภาษาไหนก็ต้อเจอ
22:50 ทิด ป๋อง ใช่ครับ. แต่ RTF มันมี code/format แปลกๆ ที่เราไม่เข้าใจอยู่หลายอัน
22:50 ทิด ป๋อง Word เองผมก็ไม่เคยทำ scripting. ถ้าทำก็คงเจองงๆ เหมือนกัน
22:52 ฮิม ผม Google เลยครับ แต่ผมใช้ VBA Access ทำงานเป็นหลัก และเคยใช้ VBA Excelมาบ้าง
สำหรับ Word จะต่างนิดหน่อยครับ
22:53 ฮิม Photos
22:55 ทิด ป๋อง พวก ? นั่นคืออะไรครับ?
22:56 ทิด ป๋อง เหมือน 4-5 ตัวที่ผมเจอใน RTF หรือเปล่าไม่รู้. นิคหิต, ญ, ฐ, …
22:56 ฮิม Photos
22:56 ฮิม ถ้าเลือก font ตรง ก็น่าจะแสดงได้ครับ
23:31 ฮิม ผมส่งไฟล์ที่ ลอง Convert ไปทาง EMAIL แล้วนะครับ… มีไฟล์ที่แปลงได้ บางไฟล์ ไม่มี bold นำ ผมเลยไปต่อไม่เป็นครับผม
2018.01.23 Tuesday
07:56 ทิด ป๋อง ถ้าไม่มี Bold คงต้องใช้การตัดคำช่วยแทนครับ
07:57 ทิด ป๋อง ดูว่าเป็นคำบาลี หรือคำไทย. ใช้ wordlist ทั้ง 2 ภาษามาช่วย
08:03 ฮิม Stickers
10:30 ทิด ป๋อง ถามพี่ฮิม ว่า ไฟล์ idml สองอันมันต่างกันยังไงครับ. ระหว่าง test export กับ part4
10:30 ฮิม ตัว TEST EXPORT ผมเปลี่ยน Font ก่อน EXPORT แต่เปลี่ยนแค่บางส่วนนะครับ
13:11 ฮิม ผมทำเป็น XLS แล้วครับ CSV เพียวๆ บางที่มันไม่ยอม encode ตามครับ
14:31 ทิด ป๋อง ผมพออ่าน idml ได้แล้วนะครับ. ไฟล์มันเป็น zip file และมีเนื้อหาข้างในเป็น XML หลายๆ อัน
14:32 ทิด ป๋อง เนื้อหาหลัก อยู่ในไฟล์ชื่อ Story_u727f.xml เนื้อหาพรหมชาลสูตร
14:33 ทิด ป๋อง Format เป็น
ข้อความต่างๆ
14:34 ทิด ป๋อง ถ้าเทียบกับ html ก็คือ
ข้อความ
14:34 ฮิม Stickers
14:35 ฮิม แบบนี้ไปทาง Indesign จะได้กว้าขวงกว่าไหมครับ
14:35 ทิด ป๋อง ทำได้ครับ. แต่ผมกลับคิดว่า เราหาวิธีเก็บต้นฉบับเป็น word ให้ได้ จะดีกว่า
14:36 Buja Dhammapujako หมายความว่าอย่างไรป๋อง เก็บเป็น word
14:36 ทิด ป๋อง คือเราเขียน extract จาก InDesign มาเทียบกับ extract ของ Word
แล้วแก้ Word ให้ตรงกับ Indesign
14:36 ทิด ป๋อง เข้าใจว่าก่อนจะมาเป็น indesign เขาทำมาเป็น word ก่อนหรือเปล่าครับ?
14:37 Buja Dhammapujako ใช่ เค้าทำเป็น word ก่อน แต่พอเอาขึ้น indsn แล้วเค้าจะปรับปรุงต้นฉบับจากตรงนั้นอีกหลายสิบเปอร์เซ็นต์
14:37 ฮิม indesign จะถูกแก้ก่อนพิมพ์อีกทีนึง จะเป็น version ล่าสุดกว่า แต่ไม่แน่ใจว่า ที่ต่าง ต่างกันแบบ Format หรือ เนื้อหา และต่างกันเยอะไหม
14:37 Buja Dhammapujako ดังนั้น word จะไม่ถูกต้อง
14:38 Buja Dhammapujako ฟังดูน่าจะเยอะนะฮิม แก้จุกจิกเยอะแยะไปหมด
14:38 ทิด ป๋อง ถ้าปรับเยอะมาก ก็อาจแก้คืนไม่ไหว. แต่ถ้าแก้ได้จะดีกว่า. เพราะโครงสร้างใน Word จะชัดเจนกว่า
14:41 Buja Dhammapujako พระไตรปิฎกนิสสยะ ป๋องลองแปลงจาก indd ได้ไหม
14:41 ทิด ป๋อง น่าจะได้ครับ. ให้พี่ฮิมแปลง indd → idml ให้หน่อย.
14:42 ทิด ป๋อง จริงๆ ผมนึกว่า idml ที่แกะอยู่ทีแรก เป็นนิสสยะ ซะอีก
อ้าว เป็นพระไตรปิฎกประชาชนตะหาก
14:42 Buja Dhammapujako แล้ว พตป.ปชช. นั้น พอจะมีโครงสร้างพระสูตรและเนื้อหาย่อของพระสูตรไหม ที่เราจะเอามาใส่พระธัมมเจดีย์
14:43 ทิด ป๋อง มีครับ. แต่โครงสร้างมันอาจจะแกะยากนิดหน่อย
14:43 Buja Dhammapujako คือขั้นแรกอาจจะไม่ 100% คือได้เฉพาะชื่อพระสูตร กับ เนื้อหาย่อของพระสูตร
14:44 ทิด ป๋อง คือมันเป็นเหมือน
กะ หมดเลย. เราก็ต้องมาดูว่า style ตัวนี้เป็นอะไร ซ้อนอะไรอยู่
14:45 ทิด ป๋อง แต่แกะเฉพาะ text ออกมา คงไม่ยากมาก เดี๋ยวผมลองดู
14:46 Buja Dhammapujako Stickers
14:55 ทิด ป๋อง
https://s3-us-west-2.amazonaws.com/stupa/prachachon_1.txt
14:55 ทิด ป๋อง เอาขึ้น s3 ดูบ้าง. เทียบกับ github ไม่รู้อันไหนสะดวกกว่ากัน
15:09 ทิด ป๋อง Code ใน colab ที่แกะ คืออันนี้ครับ
https://colab.research.google.com/notebook#fileId=1j6HB57qa05OFMrQhPFZ7KUGcczudDqV5
15:10 ทิด ป๋อง เนื่องจากเป็น xml เลยเขียนง่ายกว่า rtf มากๆ
15:11 ทิด ป๋อง อันนี้คือดึง text อย่างเดียว. แต่มีข้อมูลอื่น เช่น reference ไปยัง topic (ไว้ทำดัชนีท้ายเล่ม)
หรือการดึง style ของ font, paragraph ออกมาได้ ถ้าอยากหาโครงสร้าง
15:48 Buja Dhammapujako สรุปว่า น่าจะทำได้ไม่ยากเนาะ สำหรับ indd --> idml --> structured text
สำหรับพระไตรปิฏก ประชาชน
2018.01.24 Wednesday
08:10 ทิด ป๋อง น่าจะได้ครับ. แต่อาจจะต้องมี manual บ้างนิดหน่อย
08:38 Buja Dhammapujako Stickers