วันพฤหัสบดีที่ 20 มกราคม พ.ศ. 2554

AI614_Class9_ 19 Jan 2011

Data Warehouse Processing มีขึ้นตอนต่างๆดังต่อไปนี้
          1. รวบรวมข้อมูล  - Collecting data from internal and external
          2. จัดทำ Meta Dataเป็นข้อมูลที่ใช้อธิบายข้อมูลที่อยู่ใน data warehouse เช่น ที่มาของข้อมูล เป็นต้น
          3. Data Staging  (ECTL or ETL)ซึ่งประกอบไปด้วยการทำ Extract, Clean, Transform และ Load  คือการดึงข้อมูลออกมาตาม Attribute ที่มีประโยชน์ และเกี่ยวข้องกับการตัดสินใจ และจะทำการ Clean ข้อมูล โดยจะตัดข้อมูลที่ไม่เป็นประโยชน์ออกและจัดข้อมูลใหม่ให้อยู่ใน Format ที่เป็นมาตรฐาน และสุดท้ายจะทำการ Load ข้อมูลเข้าไปยัง Data Cube ซึ่งจะประกอบไปด้วยหลายๆ Dimension และใช้สำหรับการวิเคราะห์เพื่อตัดสินใจเชิงกลยุทธ์ต่อไป
          4. สร้าง Data Warehouse 
นำข้อมูล Data Cube ไปสร้าง Data Warehouse โดยจะมีการนำเสนอซึ่งยึด Business View เป็นหลักซึ่งการนำเสนอข้อมูลจะอยู่ในรูปแบบที่ง่ายต่อการวิเคราะห์ ตลอดจนสามารถ ปรับใช้งานได้ง่าย ส่วนใหญ่ในรูปDashboard
         
Data Mart 
         Data Warehouse ขนาดเล็กของแต่ละแผนก เพื่อให้เกิดความสะดวกสบายในการใช้งานของแต่ละแผนก โดย แบ่งออกเป็น 2 ประเภท คือ
          1.Replicated (Dependent) Data Mart 
          2.Stand-alone Data Mart 
Data Cube

          เป็น Multidimensional Databases ช่วยให้ผู้ใช้เห็นข้อมูลเหล่านั้น ในหลายๆมิติ ทำให้มีประสิทธิภาพในการนำไปใช้มากยิ่งขึ้น

Business Intelligence

          ประกอบไปด้วย 3 กลุ่ม Function และ Features ดังต่อไปนี้

          1. Reporting and Analysis 


  •       Enterprise Reporting System       
  •     Dashboards  มักใช้ในการแสดงผลของ operation or tactical โดยแบ่งได้เป็น3ระดับคือ

  1. operational dashboards ซึ่งถูกใช้โดย front lines worker,supervisor
  2. tactical dashboards ซึ่งถูกใช้โดย manager and analysts
  3. strategic dashboard ซึ่งถูกใช้โดย ผู้บริหาร

  • Scorecards ใช้เพื่อประเมินผลและตืดตามผลการดำเนินงาน 
           2.Analytics - การใช้เครื่องมือในการวิเคราะห์ข้อมูล โดยมีตัวอย่างดังต่อไปนี้
               - Online Analytical Processing (OLTP)
เป็น เครื่องมือขั้นพื้นฐานของผู้บริหาร ช่วยระบุปัญหาและวิเคราะห์ได้ในพื้นฐานเท่านั้น ไม่สามารถตอบคำถามเชิงธุรกิจได้ มักจะแสดงผลนั้นออกมาในรูปของแผนภูมิและกราฟ นอกจากนี้การวิเคราห์จะเป็นแบบ Multi-dimensional
               - Data Mining
เป็นการ extract ข้อมูลออกมาเพื่อ 1) พยากรณ์แนวโน้มที่อาจจะเกิดขึ้น หรือ 2) ค้นหา Patterns ที่ไม่เคยรู้มาก่อน
รูปแบบของ Data Mining มีทั้งหมด 5 รูปแบบ ดังต่อไปนี้
1.Clustering - นำเสนอข้อมูลที่มีความสัมพันธ์กันเอง โดยไม่มีการตั้งสมมติฐานไว้ล่วงหน้า(ไม่รู้ว่าจะเกิดอะไรขึ้น)
2.Classification - นำเสนอข้อมูลตามสมมติฐานที่เราคิด โดยให้ทดสอบว่าสมมติฐานนั้นจริงหรือไม่ อย่างไร
3.Association - นำเสนอผลสืบเนื่อง
เช่น คนที่เปิดบัญชีประเภทออมทรัพย์จะมีกี่ % ที่ใช้บัตร ATM
4.Sequence discovery - consequence  ผลที่เกิดตามหลังมา
5.Prediction – นำเสนอโดยการพยากรณ์สิ่งที่จะเกิดขึ้นในอนาคต


ข้อดีและข้อเสียของ Data Mining
- เป็นเครื่องมือที่ใช้งานง่ายสำหรับพนักงานระดับปฏิบัติการ
- แต่เทคนิคอาจมีความซับซ้อนมากเกินไป ทำให้ต้องการความรู้และการอบรม
- ผู้ใช้อาจต้องมีความรู้ด้านสถิติในการอ่านและแปลผล

-Text mining
เป็นเสมือนการทำ Data Mining ในกรณีที่ข้อมูลเป็น Unstructure Data คือ ข้อมูลไม่มีโครงสร้างที่ตายตัว ซึ่งข้อมูลแบบนี้นับวันจะยิ่งเพิ่มจำนวนมากขึ้น เช่น การ complain ของลูกค้, E-mail Spam โดยเมื่อมีการจัดเก็บข้อมูลแบบนี้ไว้รวมๆกันแล้ว ระบบก็จะพยายามค้นหาความสัมพันธ์ของประเด็นต่างๆในเรื่องนั้นๆ เป็นการจับกลุ่มประเด็นของข้อมูล เพื่อให้ข้อมูลเป็นประโยชน์ต่อการใช้งานต่อไป

วันพฤหัสบดีที่ 13 มกราคม พ.ศ. 2554

AI614_Class8_ 12 Jan 2011

 Data Management

ระบบ คือ การเอาหน่วยย่อยๆมาทำงานร่วมกัน "Input ผ่าน Process ได้ Output" เราจะต้องระบุวัตถุประสงค์หรือ output ให้ได้ก่อนเพื่อจะสามารถกำหนด Input และ Process ได้ชัดเจน
ระบบสารสนเทศ = Information System
สารสนเทศ = Information

องค์ประกอบของระบบ(System)
•    วัตถุประสงค์ (Obj.)
•    ส่วนประกอบ (Elements)
•    กระบวนการทำงาน > สิ่งที่นำเข้า (Inputs),กระบวนการ(Process),ผลลัพธ์(Output)
•    สิ่งแวดล้อม (Environment)
•    ขอบเขต (Boundary)
•    การควบคุมและผลย้อนกลับ (Feedback)

Msg ที่ส่งมาเป็น data/information ขึ้นอยู่กับผู้รับ
•    ถ้าไม่มีประโยชน์ต่อผู้รับ > data
•    ถ้ามีผลต่อผู้รับหรือทำให้เกิดการเปลี่ยนแปลงพฤติกรรมของผู้รับ > information
ในงบส่วนที่เป็น Management Report (ชี้จุดอ่อน) ถือว่าเป็นสารสนเทศให้ผู้บริหาร
Twitter,FB,www.tbs.tu.ac.th >ไม่เป็นระบบสารสนเทศ
Google อาจจะเป็นระบบสารสนเทศ
Amazon เป็นระบบสารสนเทศ E-Commerce (ลูกค้าสั่งของ > order id > invoice)

ระบบสารสนเทศ
1.    มีการรวบรวมข้อมูล input
2.    ถูกนำเสนอไปยังผู้รับ
3.    มีการจัดเก็บ "ข้อมูล" (ไม่ใช่สารสนเทศ) :ถ้ามีข้อมูลก็ generate สารสนเทศใหม่ได้ตลอด
เราไม่ได้บริหารสารสนเทศ เราบริหารข้อมูล

6 องค์ประกอบของระบบสารสนเทศ
1.    Hardware
2.    Software
3.    Data
4.    Network
5.    Procedures
6.    People
Application เป็นส่วนหนึ่งของ Software เช่น MS Word

ข้อมูลจะเกิด ณ จุดที่รายการเกิด > เกิดทุกจุดในองค์กร ปัจจุบันแต่ละแผนกแยกกันเก็บแยกกันใช้ข้อมูล

Internal Data (คำสั่งซื้อลูกค้า) / External Data (ราคาคู่แข่ง) แบ่งตามความเป็นเจ้าของ ทั้งนี้ต้องมั่นใจว่าข้อมูลถูกต้อง
การจัดการข้อมูลต้องอยู่บนพื้นฐาน 3 ประการคือ
•    Security
•    Quality
•    Integrity

การจัดการข้อมูล
1.    Data Profiling
2.    Data Quality Management
3.    Data Integration
4.    Data Augmentation
Data Life Cycle Process
1.    เก็บ Data
2.    เก็บเข้า Database อาจมีการเปลี่ยน Format
3.    ผู้ใช้ดึงข้อมูล
4.    Data Mining (Analysis)
ระบบสารสนเทศมีหลายประเภท
เช่น บัญชีมี AIS
Finance > Finance IS
HR และอื่นๆ
และในแต่ละประเภทยังแบ่งเป็น IS ของ พนักงาน,ผู้บริหารงานระดับกลาง,ผู้บริหารระดับสูง

Executive Support System
Decision Support System
Transaction Processing System
ระหว่าง Executive Support System และ Decision Support System หรือ
ระหว่าง Decision Support System และ Transaction Processing System
อาจมี Knowledge worker = คนวิเคราะห์เพื่อส่งให้ผู้บริหาร

(TPS) Transaction Processing System สำคัญมากเพราะข้อมูลทุกอย่างเกิดจากขั้นนี้

____________________________

Data Processing แบ่งได้เป็น 2 ประเภท
1.      Transactional เป็นระบบปฏิบัติการ (Operational systems) ใช้ TPS จัดเก็บข้อมูลและแปลผลจากส่วนกลาง
2.      Analytical เป็นการเอาข้อมูลมาใช้ประมวลผลอีกครั้งเพื่อการตัดสินใจระดับสูงขึ้นไป นำข้อมูลเหล่านี้ไปใช้วิเคราะห์ต่อ

Data warehouse ไม่ใช่ database ขนาดใหญ่ มีวัตถุประสงค์คือช่วยให้ Analytical ทำงานได้ง่ายขึ้นโดย Operational ยังดำเนินไปได้เหมือนเดิม
Database จะถูก Extract ข้อมูลที่ต้องใช้  จะได้เป็น Data Warehouse
สิ่งที่อยู่ใน Data warehouseยังเป็น data กำลังจะเป็น input ใน data mining

สิ่งที่ยากก็คือใน database ข้อมูลมักมี Format ต่างกัน การ extract มารวมกันเป็น data warehouse จึงทำให้ค่อนข้างลำบาก

Data Warehouse เหมาะกับ องค์กรที่มีผู้บริหารที่ใช้ data ในการวิเคราะห์ (Information Base) การทำ Data Warehouse นั้นเป็นเหมือนขั้นตอนการเตรียมข้อมูลเฉพาะที่ต้องการ เพื่อนำไปใช้ในการวิเคราะห์และประมวลผลเพื่อการตัดสินใจอีก

คุณสมบัติใน Data Warehouse
1.    Subject Oriented จัดหมวดหมู่ใหม่ ex. supplier,customer,employer ข้อมูลจะถูกจัดตามหมวดหมู่
2.    ปก้ปัญหาข้อมูลที่ไม่ consistency จาก DB ให้ consistency ใน Data warehouse
3.    Time Variant
4.    ข้อมูลไม่มีการ update แล้ว non-volatile เช่น ข้อมูลย้อนหลัง 5 ปี ถ้ามีการเพิ่มไม่ได้เรียกว่า update เรียก refresh
5.    Relational
6.    Client / Server

องค์กรที่เหมาะกับ Data warehouse
•    ข้อมูลเยอะ
•    ข้อมูลถูกเก็บในที่ที่มีDatabaseเยอะ format ต่างกัน
•    ผู้บริหารเป็น Information Base