ข้ามไปยังเนื้อหาหลัก

EDTable fromEML และ EDTable fromEMLBatch ตัวเลือกต่าง ๆ ในการสร้าง Datatas Xml

\[ หน้าเว็บนี้จะสนใจเฉพาะหน้าเว็บ ERDDAP™ ผู้ดูแลระบบที่ทํางานกับแฟ้ม EML เดิมมีการสร้างเอกสารนี้ในปี 2016 มันถูกแก้ไขครั้งสุดท้ายเมื่อ 2020-11-30 \]

** ERDDAP™ ** เป็นเซิร์ฟเวอร์ข้อมูลที่ทําให้ผู้ใช้สามารถดาวน์โหลด สับเซตของข้อมูลวิทยาศาสตร์ที่ฝังอยู่ และแท็บลาร์ในรูปแบบแฟ้มทั่วไป และทํากราฟและแผนที่ได้ ERDDAP™ ทํางานกับชุดข้อมูลที่เป็นกลุ่มของตัวแปรหลายมิติ (เช่น ดาวเทียมหรือข้อมูลต้นแบบ) หรือเป็นตารางแบบฐานข้อมูล (มีคอลัมน์สําหรับข้อมูลแต่ละประเภท และแถวสําหรับแต่ละข้อสังเกต) . ERDDAP™ เป็นซอฟต์แวร์เสรีและโอเพนซอร์ส ดังนั้นทุกคนสามารถ ดาวน์โหลดและติดตั้ง ERDDAP™ เพื่อให้บริการข้อมูลของพวกเขา

เพื่อเพิ่มข้อมูลไปยัง ERDDAP™ การติดตั้ง, ERDDAP™ ผู้ดูแลระบบต้องเพิ่มส่วนย่อยของ XML เพื่ออธิบายข้อมูลเป็นแฟ้มที่ชื่อ datasets.xml . (มี เอกสารที่สมบูรณ์สําหรับ datasets.xml .) แม้ว่ามันเป็นไปได้ที่จะสร้างส่วนย่อยของ XML สําหรับ datasets.xml ด้วยมือทั้งหมด ERDDAP™ มาพร้อมเครื่องมือที่เรียกว่า สร้าง DatatasXml ซึ่งสามารถสร้างการ ร่างแบบหยาบๆ ของส่วนย่อยของ XML ที่จําเป็นต้องใช้สําหรับชุดข้อมูลที่ให้ โดยอิงจากแหล่งข้อมูลบางอย่างเกี่ยวกับชุดข้อมูล

สิ่งแรกที่สร้าง Datatatets Xml ถามคือว่า คุณสร้างชุดข้อมูลแบบไหน ตั้งค่าชุดภาพไอคอนสื่ออารมณ์ XMI มีตัวเลือกพิเศษ EDTable fromEML ซึ่งใช้ข้อมูลใน ภาษา ข้อมูลกํากับภาพ ทาง นิเวศ วิทยา (EML) แฟ้ม XML เพื่อสร้างส่วนย่อยของ XML สําหรับ datasets.xml เพื่อสร้าง แฟ้ม DDTA จาก Ascii ชุดข้อมูลจากแต่ละตารางข้อมูลในแฟ้ม EML มันใช้ได้อย่างดีกับแฟ้ม EML ส่วนใหญ่เพราะไฟล์ EML ทําหน้าที่อย่างดีเยี่ยมในการเก็บข้อมูลกํากับภาพที่จําเป็นทั้งหมด ข้อมูลที่สร้าง DatatatasXml จําเป็นต้องสร้างชุดข้อมูลอยู่ในแฟ้ม EML รวมถึงที่อยู่ URL ของแฟ้มข้อมูล ซึ่งสร้างการดาวน์โหลด DatatatasXml, profiles และเปรียบเทียบกับรายละเอียดในแฟ้ม EML (หลายกลุ่มน่าจะเปลี่ยนเป็น EML ซึ่งเป็นระบบที่ดีในการบันทึกข้อมูลทางวิทยาศาสตร์ และหลายๆกลุ่มที่สร้าง XML Schemas ควรจะใช้ EML เป็นกรณีศึกษาสําหรับ XML Chema ที่ชัดเจน (มีหลายระดับ) และง่ายสําหรับมนุษย์และคอมพิวเตอร์ที่จะทํางานกับ)

คํา ถาม

นี่คือคําถามทั้งหมดที่สร้าง Datatets Xml จะถามด้วยหมายเหตุเกี่ยวกับวิธีการตอบคําถาม หากคุณต้องการประมวลผลเพียงแฟ้ม EML ครั้งเดียว หรือชุดของแฟ้ม EML:

  • ED ประเภทไหน? หากคุณต้องการประมวลผลเพียงแฟ้มเดียว คําตอบ: EDTable fromEML หากคุณต้องการประมวลผลกลุ่มของแฟ้ม ให้คําตอบ: EDTable fromEMLBatch
  • ไดเร็กทอรีที่จะจัดเก็บแฟ้มหรือไม่? ป้อนชื่อไดเรกทอรีที่จะใช้เก็บค่า EML และ/หรือแฟ้มข้อมูล ถ้าไดเรกทอรีไม่มีอยู่ ก็จะถูกสร้างขึ้น
  • (สําหรับ EDTable fromEML เท่านั้น) ที่อยู่ URL EML หรือแฟ้มภายในระบบName ป้อนที่อยู่ URL หรือชื่อแฟ้มภายในระบบของ EML
  • (สําหรับ EDTable fromEMLBatch เท่านั้น) ไดเร็คทอรี EML (ที่อยู่ URL หรือภายใน) ? ป้อนชื่อไดเรกทอรีที่มีแฟ้ม EML (ที่อยู่ URL หรือไดเรกทอรีภายในระบบ) . ตัว อย่าง เช่น:http://sbc.lternet.edu/data/eml/files/
  • (สําหรับ EDTable fromEMLBatch เท่านั้น) Regex ชื่อแฟ้ม? ป้อนเงื่อนไขการค้นหาที่จะใช้ระบุแฟ้ม EML ที่ต้องการในไดเร็กทอรี EML ตัวอย่างเช่น: nnb-lter-sbc\\d+
  • ใช้แฟ้มภายในระบบหากมีอยู่ (จริง | เท็จ) ? ป้อนจริงที่จะใช้แฟ้ม EML ภายในระบบที่มีอยู่ และแฟ้มข้อมูล หากมันมีอยู่จริง เติมเท็จเพื่อทําการโหลดแฟ้ม EML และ/หรือแฟ้มข้อมูลใหม่อีกครั้งเสมอ
  • เข้าใช้ได้ เพื่อ? หากคุณต้องการชุดข้อมูลใหม่ ให้เป็นชุดข้อมูลส่วนตัว ERDDAP ชื่อกลุ่ม (วินาที) นั่นอนุญาตให้เข้าถึงได้ แนะนําสําหรับกลุ่ม LTER: ผสม "lter" บวกกลุ่ม, e.g., Iter เอสบีซี ถ้าคุณป้อน "null" จะไม่มี<เข้าใช้ได้ ถึง httpgt; แท็กในการแสดงผล ดู เข้าใช้ได้ ถึง .
  • ภายใน เวลาzone (เช่น US/Pacific) ? หากตัวแปรเวลาแสดงว่า มีค่าของเวลาท้องถิ่น พื้นที่เวลานี้จะถูกกําหนดให้ใช้ นี่ต้องเป็นค่าจาก รายชื่อคอลัมน์ของเขตเวลา TZ . หมายเหตุทั้งหมดของชื่อ "US/..." ที่อยู่ท้ายรายการที่ง่ายต่อการใช้ ถ้าคุณพบว่ามันไม่ถูกต้อง คุณสามารถเปลี่ยน time\_zone ในก้อนของ datasets.xml .

EML บวก ERDDAP™ เป็นส่วนผสมที่ดีตั้งแต่ ERDDAP™ สามารถให้ผู้ใช้เข้าถึงความอุดมสมบูรณ์ของ ความ รู้ ใน เครือ ข่าย ชีวภาพ (KNB) ถึง การ วิจัย ทาง นิเวศ วิทยา ระยะ ยาว (LTER) ข้อมูลและช่วยเหลือโครงการเหล่านั้น ตรงกับรัฐบาลสหรัฐ การ เข้า ถึง แหล่ง วิจัย ทั่ว ไป (ผิดพลาด) ต้องการ โดยทําให้ข้อมูลใช้ได้ผ่านทางบริการเว็บ นอกจากนี้ EML บวก ERDDAP™ ดูเหมือนเป็นสะพานที่ดี ระหว่างนักวิทยาศาสตร์ในราชอาณาจักรของ NSF และนักวิทยาศาสตร์ในหน่วยงานกลาง ( NOAA นาซ่า USGS) แดน

ดูของเรา ส่วนของการได้รับการสนับสนุนเพิ่มเติม .  

รายละเอียดการออกแบบ

นี่เป็นรายละเอียดของการออกแบบ ตัวเลือก EDTable fromEML ในการสร้าง DatatasXml บางคนเกี่ยวข้องกับความแตกต่างของ EML และ ERDDAP™ ทําสิ่งต่างๆ และวิธีสร้าง Datatets XmI จัดการกับปัญหาเหล่านี้

หนึ่งข้อมูลกลายเป็นหนึ่ง ERDDAP™ ชุดข้อมูล

แฟ้ม EML หนึ่งแฟ้มอาจมีหลายแฟ้ม<ข้อมูล Table>s. ERDDAP™ ทําให้หนึ่ง ERDDAP™ ชุดข้อมูลต่อข้อมูล EML เดอะ datasetID สําหรับชุดข้อมูล อีเอ็มแอลName _สี ตัวเลขตาราง (เมื่อชื่อ EML เป็นข้อความ) หรือ ระบบ\ _อีเอ็มแอลName _สี ตัวเลขตาราง (เมื่อชื่อ EML เป็นหมายเลข) . ตัวอย่างเช่น ตาราง #1 ในแฟ้ม mineb-lter-sbc.28 กลายเป็น ERDDAP™ datasetID = knb\_lter_sbc\_28_t1  

EML เทียบกับ CF+ACDD

ข้อมูลกํากับภาพเกือบทั้งหมดในแฟ้ม EML ERDDAP แต่ในรูปแบบอื่น ERDDAP™ ใช้ CF ถึง หมายเลข ACD มาตรฐานข้อมูล มันเป็นระบบข้อมูลกํากับที่เสริมสร้าง ซึ่งใช้คีย์ = คู่ค่าของข้อมูลกํากับภาพระดับโลก และต่อข้อมูลกํากับภาพของตัวแปรแต่ละตัวแปร ใช่ รูป EML ของข้อมูลกํากับ ดีกว่ารูป CF+ACD ผมไม่ได้แนะนําให้ใช้รูป CF+ACDD แทน EML กรุณาคิดว่า CF+ACAD เป็นส่วนหนึ่งของสะพาน จากโลก EML OPeNDAP โลกของ CF/ACDD  

การเปลี่ยนแปลงขนาดเล็ก

ERDDAP™ ทําการเปลี่ยนแปลงเล็กๆ มากมาย ยกตัวอย่างเช่น ERDDAP™ ใช้ EML ที่ไม่ - DOI เปลี่ยน ตัวระบุบวกข้อมูล ERDDAP™ datasetID แต่การเปลี่ยนแปลงเล็กน้อย ตัวระบุเพื่อทําให้เป็นชื่อตัวแปรที่ถูกต้องในภาษาคอมพิวเตอร์ส่วนใหญ่ เช่น, knb-lter-sbc.33 ข้อมูล ตาราง #1 กลายเป็น knb\_lter///sbc\_33/_t1  

ด็อกบุ๊ค

EML ใช้ระบบทําเครื่องหมายของ DocBook เพื่อให้โครงสร้างสําหรับบล็อกข้อความในแฟ้ม EML CF และ ACDD ต้องการข้อมูลกํากับเป็นข้อความธรรมดา ดังนั้นการสร้าง Datatatets Xml แปลงข้อความที่ถูกขีดไว้เป็นข้อความธรรมดาที่ดูคล้ายกับฉบับที่มีหน่วยเป็นระบบ ป้ายอินไลน์ถูกเคลือบด้วยวงเล็บสี่เหลี่ยม, e.g. \[ เน้น \] และทิ้งไว้ในข้อความธรรมดา  

แฟ้มข้อมูล

เนื่องจากข้อมูลของ EML มีตําแหน่ง URL ของแฟ้มข้อมูลจริงอยู่ ให้สร้าง Datatas XMI จะ:

  1. ดาวน์โหลดแฟ้มข้อมูล
  2. เก็บในไดเรกทอรีเดียวกันกับแฟ้ม EML
  3. อ่านข้อมูล
  4. เปรียบเทียบรายละเอียดของ EML กับข้อมูลจริงในแฟ้ม
  5. หากสร้าง Datatas XMI หาความแตกต่าง, มันเกี่ยวข้องกับพวกมัน, หรือถามผู้ดําเนินการว่าผลต่างโอเคหรือไม่, หรือตอบกลับข้อความผิดพลาด ราย ละเอียด เหล่า นี้ มี หลาย อย่าง ข้าง ล่าง นี้.  

.zip แฟ้มข้อมูล 'd'

ถ้าแฟ้มอ้างอิงคือ .zip แฟ้ม, มันต้องมีเพียงแฟ้มเดียว แฟ้มนั้นจะถูกใช้สําหรับ ERDDAP™ ชุดข้อมูล ถ้ามีมากกว่าหนึ่งแฟ้ม ERDDAP™ จะปฏิเสธข้อมูลชุดนั้น ถ้า จําเป็น อาจ มี การ แก้ไข เรื่อง นี้. (ในการฝึก แฟ้มข้อมูล SBC ทั้งหมด มีไฟล์ข้อมูลเพียงแฟ้มเดียว)
 

สื่อเก็บข้อมูล

ถ้าคลังของคอลัมน์ ไม่ได้ระบุประเภท ERDDAP™ ใช้การเดาที่ดีที่สุด จากข้อมูลในแฟ้มข้อมูล อันนี้ใช้ได้ทีเดียว  

หน่วย

ERDDAP™ ใช้ UDUNITS ฟอร์แมตสําหรับหน่วย . ตั้งค่าชุดภาพไอคอนสื่ออารมณ์ Xml สามารถแปลงหน่วย EML เป็น UDUNITS อย่างชัดเจนประมาณ 95% ของเวลา 5% ส่วนที่เหลือให้ผลในคําอธิบายการอ่านของหน่วย เช่น "biomasDensity Unit Perabundance University" ใน EML กลายเป็น "หน่วยความหนาแน่นไบมาสต่อหน่วยมวล" ใน ERDDAP . ในทางเทคนิคแล้วมันไม่ได้รับอนุญาต ฉันไม่คิดว่ามันแย่นัก ภายใต้สถานการณ์แบบนี้ \[ ถ้าจําเป็น หน่วยที่ไม่สามารถทํา UDUNITS การเข้ากันได้สามารถถูกย้ายไปยังคุณลักษณะหมายเหตุของตัวแปร \]
 

EML รุ่น 2.1.

การรองรับ EML v2.1 นี้ ถูกเพิ่มเข้ากับแฟ้มถูกสร้าง Datatets XMI ในปี ค.ศ. 2020 นั่นยังไม่เกิดขึ้น เดอะ ERDDAP™ ผู้พัฒนาคงจะยินดีที่จะเพิ่มการสนับสนุน EML รุ่นล่าสุดมากขึ้น แต่เฉพาะเมื่อคุณสมบัติใหม่นี้ถูกนําไปใช้จริงเท่านั้น กรุณาส่งเมล erd.data at noaa.gov ถ้าคุณต้องการการสนับสนุน EML รุ่นล่าสุด และจะใช้คุณสมบัตินี้จริงๆ  

ปัญหาเกี่ยวกับแฟ้ม EML

มีบางปัญหา/ ปัญหาเกี่ยวกับแฟ้ม EML ที่ก่อให้เกิดปัญหาเมื่อโปรแกรมลูกข่าย (เช่น ตัวเลือก EDTable fromEML ในการสร้าง DatatetesXML) พยายามแปล/ โพรเซสของแฟ้ม EML

  • แม้ ว่า มี หลาย ประเด็น ที่ กล่าว มา นี้ แต่ ส่วน ใหญ่ แล้ว ปัญหา เหล่า นี้ เป็น ปัญหา เล็ก ๆ และ แก้ ได้. โดยทั่วไป EML เป็นระบบที่ยอดเยี่ยม และได้รับความสุขของฉันที่จะทํางานกับมัน
  • มี การ คัด แยก อย่าง คร่าว ๆ จาก สิ่ง ที่ เลว ร้าย ที่ สุด หรือ ส่วน ใหญ่ แล้ว ไม่ ดี หรือ น้อย ที่ สุด.
  • ส่วนใหญ่เกี่ยวข้องกับปัญหาเล็ก ๆ ในแฟ้ม EML เฉพาะ (ซึ่งมันไม่ใช่ความผิดของ EML) .
  • ส่วนมากสามารถแก้ไขได้โดยการเปลี่ยนรูปแบบแฟ้ม EML หรือแฟ้มข้อมูล
  • จากที่คน LTER สร้างเครื่องตรวจ EML เพื่อทดสอบความถูกต้องของไฟล์ EML ผมเพิ่มคําแนะนําบางอย่างด้านล่างนี้ เกี่ยวกับคุณสมบัติที่อาจถูกเพิ่มเข้าไป

ต่อ ไป นี้ เป็น ประเด็น:

แบ่งวันที่และเวลาเป็นคอลัมน์

แฟ้มข้อมูลบางแฟ้มแยกคอลัมน์สําหรับวันที่และเวลาด้วย แต่ไม่มีคอลัมน์วันรวม+เวลา ปัจจุบัน XmI สร้างชุดข้อมูลที่มีคอลัมน์แยกเหล่านี้ แต่มันไม่ได้อุดมคติเพราะ:

  • มันจะดีที่สุดถ้าชุดข้อมูลใน ERDDAP™ มีคอลัมน์วันที่รวม "time" .
  • บ่อยครั้งที่ชุดข้อมูลจะไม่โหลด ERDDAP™ เพราะว่า "time" คอลัมน์ไม่มีข้อมูลวันที่ + เวลา

มีวิธีแก้ที่เป็นไปได้อยู่สองทาง

  1. แก้ไขแฟ้มข้อมูลต้นฉบับเพื่อเพิ่มคอลัมน์ใหม่ในแฟ้มข้อมูล (และอธิบายมันใน EML) โดยวันที่และเวลา จะรวมกันเป็นหนึ่งคอลัมน์ การสร้าง Datata ใหม่อีกครั้ง XMI เพื่อให้มันหาคอลัมน์ใหม่
  2. ใช้ ตัวแปรการไล่ระดับสี แสดงใน ERDDAP™ เพื่อกําหนดตัวแปรใหม่ใน datasets.xml ผู้ทรงกําหนดวันและเวลา ตัว อย่าง หนึ่ง เกี่ยว ข้อง กับ สถานการณ์ นี้ โดย เฉพาะ.  

ชื่อคอลัมน์ที่ไม่สอดคล้องกัน

แฟ้ม EML แสดงรายการคอลัมน์ของข้อมูลและชื่อแฟ้ม แต่น่าเสียดายที่มักแตกต่างจากชื่อคอลัมน์ ในแฟ้มข้อมูลจริง โดยปกติลําดับคอลัมน์ในแฟ้ม EML จะเหมือนกับลําดับคอลัมน์ในแฟ้มข้อมูล แม้ว่าชื่อจะแตกต่างกันเล็กน้อย แต่ก็ไม่เสมอไป ตั้งค่าชุดภาพไอคอนสื่ออารมณ์ Xml พยายามจับคู่ชื่อคอลัมน์ เมื่อมันไม่สามารถ (ซึ่งเป็นเรื่องปกติ) มันจะหยุดการแสดงชุดชื่อแฟ้ม EML/Data และถามว่ามันเรียงถูกหรือเปล่า ถ้าคุณป้อน 's' เพื่อข้ามตาราง, สร้าง DatatatetsXml จะพิมพ์ข้อความผิดพลาด แล้วไปยังตารางถัดไป คําตอบคือ การเปลี่ยนชื่อคอลัมน์ผิดพลาดในแฟ้ม EML ให้ตรงกับชื่อคอลัมน์ในแฟ้มข้อมูล  

ลําดับคอลัมน์ที่แตกต่างกัน

มีหลายกรณีที่ EML ระบุตําแหน่งคอลัมน์ในรูปแบบอื่น ที่ไม่ใช่แฟ้มข้อมูล ตั้งค่าชุดภาพไอคอนสื่ออารมณ์ XMI จะหยุดและถามผู้ดําเนินการว่า จับคู่ใช้ได้หรือไม่ หรือควรข้ามข้อมูลไป หากมีการข้ามไป จะมีข้อความผิดพลาดอยู่ในแฟ้มผลลัพธ์ เช่น:

      &lt;-- SKIPPED (USUALLY BECAUSE THE COLUMN NAMES IN THE DATAFILE ARE IN
A DIFFERENT ORDER OR HAVE DIFFERENT UNITS THAN IN THE EML file):
datasetID=knb\\_lter\\_sbc\\_17\\_t1
dataFile=all\\_fish\\_all\\_years\\_20140903.csv
The data file and EML file have different column names.
ERDDAP™ would like to equate these pairs of names:
SURVEY\\_TIMING = notes
NOTES = survey\\_timing
--&gt;

คําตอบคือแก้ไขลําดับคอลัมน์ในแฟ้ม EML เหล่านี้เพื่อให้มันตรงกับลําดับในแฟ้มข้อมูล

มันคงจะดีถ้าเครื่องตรวจ EML ตรวจสอบว่าลําดับคอลัมน์และคอลัมน์ในแฟ้มต้นฉบับตรงกับคอลัมน์และลําดับคอลัมน์ในแฟ้ม EML

เส้นพริ้วไหว

ข้อมูล Tables Internations NumHiader Lines=1.g., sbc.4011. นี่เป็นสาเหตุ ERDDAP™ เพื่ออ่านลําดับแรกของข้อมูลในชื่อคอลัมน์ ผมพยายามใช้ SKIP ข้อมูลเหล่านี้ทั้งหมด มันชัดเจนเพราะชื่อ แหล่งที่มาของโคล์ เป็นค่าของข้อมูลทั้งหมด และถ้ามีไฟล์ที่ไม่ถูกต้อง มี Num Header Lines =0 ระบบของฉันก็ไม่ได้ทําให้มันชัดเจน นี่เป็นตัวอย่างจากแฟ้มความล้มเหลวของ SBC

      &lt;-- SKIPPED (USUALLY BECAUSE THE COLUMN NAMES IN THE DATAFILE ARE IN
A DIFFERENT ORDER OR HAVE DIFFERENT UNITS THAN IN THE EML file):
datasetID=knb\\_lter\\_sbc\\_3017\\_t1
dataFile=MC06\\_allyears\\_2012-03-03.txt
The data file and EML file have different column names.
ERDDAP™ would like to equate these pairs of names:
2008-10-01T00:00 = timestamp\\_local
2008-10-01T07:00 = timestamp\\_UTC
2.27 = discharge\\_lps
-999.0 = water\\_temperature\\_celsius
--&gt;

ดังนั้นข้อผิดพลาดอาจปรากฏเหมือนกับ หากสร้าง Datatatets XMI คิดว่าบรรทัดแรกที่มีข้อมูลอยู่ในแฟ้ม (เช่น 2551-10-01T200 น.) คือเส้นตรงที่ชื่อคอลัมน์ (ราวกับว่า 2008-10-01.00:00 เป็นชื่อคอลัมน์) .

มันจะดีถ้าเครื่องตรวจ EML ตรวจสอบค่า Num HeaderLines

นู ม เฮ เด อร์ ลีน = 0

แฟ้มแหล่งบางแฟ้มไม่มีชื่อคอลัมน์ ERDDAP™ ยอมรับว่าถ้า EML อธิบายจํานวนคอลัมน์เดียวกัน

ในความเห็นของผม นี่ดูอันตรายมาก มันอาจมีคอลัมน์ต่างกัน หรือมีหน่วยต่างกัน (ดูด้านล่าง) และไม่มีทางจับปัญหาเหล่านั้นได้ มันจะดีกว่ามากถ้าไฟล์ข้อมูล ASCII ทั้งหมด มีแถวที่มีชื่อคอลัมน์

รูปแบบเวลา

EML มีวิธีอธิบายรูปแบบเวลาแบบมาตรฐาน แต่มีความแตกต่างมากในการใช้แฟ้ม EML (ก่อนหน้านี้ผมคิดผิดเกี่ยวกับเรื่องนี้ ผมเห็นเอกสาร EML สําหรับรูปแบบ string ซึ่งดูเหมือนตรงกับ Java ข้อจํากัดของเวลา แต่ที่ขาดแนวทางที่สําคัญเกี่ยวกับการใช้งานของมัน ผลก็คือรูปแบบ สทริง มักจะใช้อย่างไม่เหมาะสม) มีหลายกรณีที่มีกรณีไม่ถูกต้อง และ/หรือการถอดรหัสตัวอักษรไม่ถูกต้อง และ/หรือรูปแบบที่ไม่มาตรฐาน นั่นทําให้เกิดภาระที่ไม่มีเหตุผลต่อลูกค้า โดยเฉพาะกับลูกค้าของซอฟต์แวร์ เช่น การสร้างสรรค์ DatatatetsXml ตั้งค่าชุดภาพไอคอนสื่ออารมณ์ Xml พยายามแปลงรูปแบบที่กําหนดไว้ไม่ถูกต้องในแฟ้ม EML เป็น รูปแบบวันที่/ เวลา ที่ ERDDAP™ ต้องการ ซึ่งเกือบเหมือนกับ Java รูปแบบของเวลา Juda แต่ให้ อภัยเล็กน้อย

มันคงจะดีถ้าเครื่องตรวจ EML ต้องเข้มงวดกับ Java - โจดะ / ERDDAP หน่วยเวลากําหนดและตรวจสอบว่า ค่าวันที่ในตารางข้อมูลสามารถวิเคราะห์ได้อย่างถูกต้อง โดยใช้รูปแบบที่ระบุ

เวลา

ตั้งค่าชุดภาพไอคอนสื่ออารมณ์ XMI ค้นหาคอลัมน์ที่มีวันที่ เวลาและเขตเวลาที่ระบุ (เช่นเดียวกัน Zulu ชื่อคอลัมน์หรือนิยามคุณลักษณะที่รวมคําว่า "gmt" หรือ "utc" หรือ local: "local" จากชื่อคอลัมน์หรือนิยามคุณลักษณะ) . ที่ยอมรับได้คือแฟ้มที่มีคอลัมน์วันที่ แต่ไม่มีคอลัมน์เวลา ที่ยอมรับได้ก็คือ แฟ้มที่ไม่มีวันที่หรือข้อมูลเวลา

ตั้งค่าชุดภาพไอคอนสื่ออารมณ์ Xml ใช้รูปแบบ "local" ทั้งหมด เป็นช่วงเวลาจากพื้นที่เวลา ซึ่งคุณสามารถกําหนดสําหรับชุดของแฟ้ม, เช่น สําหรับ SBC LTER โดยใช้ US/ Pacific บาง ครั้ง ข้อมูล นี้ อยู่ ใน ความ เห็น แต่ ไม่ ใช่ ใน รูป แบบ ที่ ง่าย ที่ โปรแกรม คอมพิวเตอร์ จะ คิด ออก.

แฟ้มที่ไม่ตรงกับเกณฑ์นี้ถูกปฏิเสธด้วยข้อความ "NOTH Date" (เวลา) University". ปัญหาทั่วไปก็คือ:

  • มีคอลัมน์ที่มีวันที่และคอลัมน์ที่มีเวลา แต่ไม่ใช่วันที่ คอลัมน์เวลา
  • มีหน่วยเวลา แต่พื้นที่เวลาไม่ได้ระบุ

ความเห็นอื่น: หากมีวันที่ดี + เวลากับคอลัมน์เขตเวลา ชื่อคอลัมน์ดังกล่าว "time" ใน ERDDAP . ERDDAP™ ต้องการข้อมูลคอลัมน์เวลาที่เข้าใจได้/ จะสามารถตรวจสอบได้ Zulu UNTC/GMT Time Times. \[ ผมเชื่อว่า: โดยใช้เวลาท้องถิ่นและรูปแบบวันที่/เวลาที่แตกต่างกัน (2 ปี! mm/dd/yy vs dd/m/y vs...) ในแฟ้มข้อมูลจะบังคับให้ผู้ใช้ที่จบการทํางานแบบซับซ้อน Zulu เวลาในการเปรียบเทียบข้อมูล จากชุดข้อมูลหนึ่งเข้ากับข้อมูลอื่น ดังนั้น ERDDAP™ ขนาดของแฟ้ม: สําหรับเวลาสาย ERDDAP™ ใช้ ISO 8601: 2004 เสมอ (E) ฟอร์แมตมาตรฐาน เช่น 1985-01-02.00 น. สําหรับตัวเลขเวลา ERDDAP™ ใช้เสมอ "seconds since 1970-01-01T00:00:00Z" . ERDDAP™ ใช้เสมอ Zulu (UTC, GMT) เขตเวลาที่จะขจัดความยากลําบากของการทํางาน กับพื้นที่เวลาที่แตกต่างกัน และเวลามาตรฐานกับเวลาประหยัดตอนกลางวัน ดังนั้นการสร้าง Datatatets Xml สืบค้นคอลัมน์ข้อมูล EML ด้วยวันที่+time Zulu . มันยากเพราะ EML ไม่ใช้คําศัพท์หรือระบบอย่างเป็นทางการ (เช่น Java รูปแบบเวลาjuda ) สําหรับระบุข้อมูล รูปแบบเวลา: หากมีคอลกับค่าเวลาเป็นตัวเลข (อี.จี. Matlab คูณ) ถึง Zulu เขตเวลา (หรือแค่วันที่ ไม่มีกลุ่มเวลา) มันถูกใช้เป็น "time" . ถ้ามีข้อมูลวันที่และเวลา Zulu พื้นที่เวลา, มันถูกใช้เป็น "time" และวันที่อื่น ๆ หรือคอลัมน์เวลาถูกลบ มิฉะนั้น หากคอมที่มีข้อมูลวันที่เพียง แต่ใช้เป็น "time" ตัวแปร (ไม่มีเขตเวลา) . ถ้ามีคอลัมน์ข้อมูลและคอลัมน์เวลา และไม่มีวันที่รวม คอลัมน์เวลา ชุดข้อมูลคือ Rejefferent — แต่ชุดข้อมูลสามารถใช้ได้โดยเพิ่มวันที่รวม คอลัมน์เวลา (โดยเฉพาะอย่างยิ่ง Zulu เขตเวลา) ไปยังแฟ้มข้อมูลและเพิ่มคําอธิบายของมัน ในแฟ้ม EML EXAMPLE จาก SBC LTER: https://sbclter.msi.ucsb.edu/external/InformationManagement/eml\_2018\_erddap/ ข้อมูล #2.

มันจะดีถ้า EML/LTER ต้องการการผนวกของคอลัมน์ที่มี Zulu (UTC, GMT) เวลาพื้นที่เวลา ในแฟ้มข้อมูลของแหล่งทั้งหมด ถัดไปที่ดีที่สุดคือ เพิ่มระบบไปยัง EML เพื่อระบุ time\_zone คุณสมบัติโดยใช้ชื่อมาตรฐาน (จาก คอลัมน์ TZ ) .

หายไป missing\_value

บางคอลัมน์ใช้ missing\_value แต่ไม่ต้องลงรายการในข้อมูล EML, e.g., procation\_mmm in nab-lter-sbc.5011 ใช้ -99. หากไม่มีการระบุค่าสูญหายใน EML ให้สร้าง DatatasXml ให้โดยอัตโนมัติ เพื่อค้นหาค่าที่ขาดหายไป (e.g., 99, -99, 999, -999, 999, –9999, ฯลฯ) และสร้างข้อมูลกํากับ แต่คนอื่นที่หายไป missing\_value โดนจับไม่ได้

มันจะดีถ้าเครื่องตรวจ EML หาที่หายไป missing\_value เอส.

ปัญหา เล็ก ๆ

มีปัญหาเล็กๆมากมาย (สะกด, เครื่องหมายวรรคตอน) ซึ่งอาจจะพบได้จากมนุษย์ ที่ตรวจสอบข้อมูลแต่ละชุด

มันคงจะดีถ้าเครื่องตรวจ EML หาคําสะกดและไวยากรณ์ผิดพลาด นี่ เป็น ปัญหา ที่ ยาก มาก เพราะ บ่อย ครั้ง คํา ต่าง ๆ ใน วิทยาศาสตร์ ถูก ใส่ ร้าย โดย ผู้ ตรวจ สอบ คํา ศัพท์. อาจ จําเป็น ต้อง แก้ไข ความ คิด ของ มนุษย์.

อักขระยูนิโค้ดไม่ถูกต้อง

เนื้อหาบางส่วนของ EML มีอักขระยูนิโค้ดที่ใช้ไม่ได้ นี่เป็นอักขระจากชุดรหัสอักขระของวินโดวส์ ที่ถูกคัดลอกและวางลงในแฟ้ม UTF-8 EML ตั้งค่าชุดภาพไอคอนสื่ออารมณ์ XMII อักขระเหล่านี้ไปที่ e.g. \[ # 128 \] ดังนั้นพวกเขาจึงง่ายที่จะค้นหาใน ERDDAP™ datasets.xml แฟ้ม

มันจะดีถ้าเครื่องตรวจ EML ตรวจสอบสําหรับสิ่งนี้ เป็น เรื่อง ง่าย ที่ จะ หา วิธี แก้.

จํานวนคอลัมน์ต่าง ๆ (ยกเลิกการประมวลผล)

ข้อมูล EML บางตัวให้นิยามคอลัมน์ที่ไม่สอดคล้องกันกับคอลัมน์ในแฟ้มข้อมูล โดยเฉพาะเพราะพวกมันมีหน่วยต่างกัน ตั้งค่าชุดภาพไอคอนสื่ออารมณ์ ธง Xml เหล่านี้ ขึ้นอยู่กับผู้ดําเนินการที่จะตัดสินว่า ความแตกต่างจะโอเคหรือไม่ สิ่งเหล่านี้ปรากฏในแฟ้มความล้มเหลวเป็นข้อมูล "SKPPPD" EXAMPLE ในแฟ้มความล้มเหลวของ SBC:

      < SKIPPED (USUALLY BECAUSE THE COLUMN NAMES IN THE DATAFILE ARE IN
A DIFFERENT ORDER OR HAVE DIFFERENT UNITS THAN IN THE EML file):
datasetID=knb\\_lter\\_sbc\\_3\\_t1
dataFile=SBCFC\\_Precip\\_Daily\\_active\\_logger.csv
The data file and EML file have different column names.
ERDDAP™ would like to equate these pairs of names:
Daily\\_Precipitation\\_Total\\_mm = Daily\\_Precipitation\\_Total\\_inch
Flag\\_Daily\\_Precipitation\\_Total\\_mm = Flag\\_Daily\\_Precipitation\\_Total\\_inch
-->

มันจะดีถ้าเครื่องตรวจ EML ตรวจสอบว่าหน่วยที่ตรงกับ แต่น่าเสียดายที่มันเป็นไปไม่ได้ที่จะจับ และแล้วเป็นไปไม่ได้ที่จะแก้ไข โดยไม่ต้องติดต่อกับผู้สร้างชุดข้อมูล ความ ไม่ ลง รอย กัน ของ ตัว อย่าง ข้าง ต้น มี แต่ จะ สังเกต เห็น ได้ เพราะ หน่วย ต่าง ๆ รวม อยู่ ใน ชื่อ คอลัมน์ ที่ มา และ ชื่อ คอลัมน์ อี เอ็ม แอล. มีข้อมูลอื่นอีกกี่อันที่มีปัญหา แต่ไม่สามารถตรวจสอบได้

EML รุ่นที่แตกต่างกัน

ตั้งค่าชุดภาพไอคอนสื่ออารมณ์ Xml ถูกออกแบบมาให้ทํางานกับ EML 2.1. EML รุ่นอื่น ๆ จะทํางานเท่าที่มันตรงกับ 2.1 หรือที่ผลิต DatatatetsXml มีรหัสพิเศษในการจัดการ นี่เป็นปัญหาที่หายาก เมื่อมันเกิดขึ้นคําตอบคือการแปลงแฟ้มของคุณเป็น EML 2. 1 หรือส่งแฟ้ม EML ไปยัง erd.data at noaa.gov เพื่อที่ผมจะสามารถสร้างชุด Datatatets XMI เพื่อจัดการกับความแตกต่าง

Bob เพิ่มการรองรับแฟ้ม EML เพื่อสร้าง Datatas XMI ในปี ค.ศ. 2020 นั่นยังไม่เกิดขึ้น Bob ยินดีที่จะเพิ่มการสนับสนุนสําหรับรุ่นล่าสุดของ EML แต่เฉพาะเมื่อคุณสมบัติใหม่จะถูกนําไปใช้จริง กรุณาส่งเมล erd.data at noaa.gov ถ้าคุณต้องการการสนับสนุน EML รุ่นล่าสุด และจะใช้คุณสมบัตินี้จริงๆ

ปัญหาในการวิเคราะห์แฟ้มข้อมูล

อาจปฏิเสธข้อมูลได้ ด้วยความผิดพลาด "จํานวนรายการบนบรรทัดที่ไม่สามารถคาดเดาได้ #120 รายการ (ข้อสังเกต=52 คาดว่าจะ =50) " ข้อความผิดพลาดแบบนี้ หมายความว่าเส้นตรงในแฟ้มข้อมูล มีจํานวนค่าต่างกันกว่าบรรทัดอื่น มันอาจจะเป็นปัญหา ERDDAP™ (e.g., ไม่วิเคราะห์แฟ้มอย่างถูกต้อง) หรือในแฟ้ม EXAMPLE จาก SBC LTER: https://sbclter.msi.ucsb.edu/external/InformationManagement/eml\_2018\_erddap/ ข้อมูล # 3 ดูแฟ้มข้อมูล=LTER\ เดือน\_ bottdateta\regored\ stats\_20140429.txt