Atds

atds@lists.cslab.ece.ntua.gr

7 discussions

Log Files.
by George Chatzikyriakos 23 Mar '17

23 Mar '17

Στα παραδοτέα του project ζητάτε τα log files που σχετίζονται με το Map Reduce job που τρέξαμε. Με αυτό ποια log files εννοείτε; Αυτά που αφορούν τα container που ανοίξανε σε master και slave για την εν λόγω εργασία/εργασίες ή τα logs του ResourceManager , του Namenode, του NodeManager και DataNode ή και τα δύο;

2 1

Διευκρινήσεις σε κάποια ερωτήματα του Project.
by George Chatzikyriakos 20 Mar '17

20 Mar '17

Καλησπέρα, Θα ήθελα να ρωτήσω κάποια πράγματα για ορισμένα ερωτήματα στο Project. Η πρώτη μου ερώτηση αφορά το φιλτράρισμα του θορύβου στα keywords. Αρχικά, στο ερώτημα 2.4 που ψάχουμε τα πιο δημοφιλή keywords, αφού κάνω τα απαραίτητα σπασίματα φιλτράρω τις λέξεις με το αρχείο english.stop που μας είχατε δώσει στην αρχή καθώς και με μία λίστα βασικών "'άσεμνων" λέξεων που βρήκα καθώς το ερώτημα έλεγε να φιλτράρουμε τα αποτελέσματα και για άσεμνες λέξεις. Μετά απο αυτό βέβαια είδα στα top αποτελέσματα να υπάρχουν "λέξεις" όπως το "-" ,το "&", το ".com" και το "www.". Σας πειράζει αυτό ή καλό θα ήταν να φιλτραριστούν οι λέξεις και απο κάποια σύμβολα, για παράδειγμα τα "!@#$%^&*()-_=+"; Στο συγκεκριμένο ερώτημα αυτό είναι εφικτό και σχετικά εύκολο όμως στο ερώτημα 2.5.1 τα πράγματα είναι λιγότερα εύκολα και καθαρά. Θα σας δώσω ένα παράδειγμα για να καταλάβεται που κολάω. Στους τίτλους της Wikipedia έχει ένα τίτλο που έχει την εξής μορφή: !Alarma!_(album) . Με μία πρώτη ματιά τα δύο keywords είναι το "alarma" και το "album" αλλά άμα χωρίσω τον τίτλο σε λέξεις παίρνω τις "!Alarma!" και "(album)". Θα μπορούσα να καθαρίσω τις λέξεις απο τα !/(/) patterns και να πάρω τις πραγματατικές λέξεις αλλά κατα πόσο είναι σωστό αυτό, καθώς στο ερώτημα ζητάει ιστόγραμμα για όλα τα keywords αλλά έχει και μία ομάδα για τα "~!@#$%^&*()_+{}|:”<>?[]\;’,./". Οπότε προκύπτουν ερωτήσεις όπως οι παρακάτω. Αφήνω τις λέξεις όπως έιναι και για παράδειγμα οι λέξεις "!Alarma!" και (album)" πάνε στην κατηγορία "~!@#$%^&*()_+{}|:”<>?[]\;’,./" ; (το πιο εύκολο αλλά δεν βγάζει πολύ λογική) Τις φιλτράρω για να πάρω τα πραγματικά keywords κάνοντας την κατηγορία "~!@#$%^&*()_+{}|:”<>?[]\;’,./" να μην έχει λόγο ύπαρξης; Η κάνω χαμαλοδουλεία του στύλ χωρίζω το παραδειγμα μου σε κάτι τέτοιο: "!" "Alarma" "!" "(" "album" ")" ; Και αν το κάνω αυτό θεωρώ κάτι του στυλ "!?!?" μία λέξη που μπαίνει στην κατηγορία "~!@#$%^&*()_+{}|:”<>?[]\;’,./" ή 4 "λέξεις" δύο "!" και δύο "?" που μπαίνουν όλες στην κατηγορία "~!@#$%^&*()_+{}|:”<>?[]\;’,./" ; Το πλήθος έχει σημασία καθώς προσπαθώ να βγάλω ποσοστό. Η δέυτερη μου ερώτηση αφορά τα ερωτήματα 2.5.2 και κατα συνέπεια το 2.5.1. Στο 2.5.1 λέτε να κάνουμε ιστόγραμμα σε όλο το input μας αλλα και σε κάποια κομμάτια του για να είναι πιο γρήγορο. Για την ακρίβεια λέτε "αντί να αφήσουμε τους mappers να επεξεργαστούν όλα τα δεδομένα, τους τερματίζουμε μόλις έχουν επεξεργαστεί ένα x αριθμό από εγγραφές. Όσο το x μεγαλώνει, τόσο μεγαλύτερη προσέγγιση έχουμε." . Οι mappers διαβάζουν το αρχείο γραμμή-γραμμή οπότε ουσιαστικά αυτο που λέτε είναι ο κάθε mapper να διαβάζει τις πρώτες x γραμμές απο το split που θα πάρει, σωστα ; Βέβαια αυτό δεν είναι και πολύ σωστό sampling καθώς τα δεδομένα μας είναι με αλφαβητική σειρά. Εκτός αν εγώ δεν κατάλαβα κάτι σωστά. Αυτό βέβαια πιστεύω ότι θα δημιουργήσει πρόβλημα κυρίως στο 2.5.2 που λέτε ουσιαστικά να χρησιμοποιήσουμε τον κώδικα του 2.5.1 αλλά με ένα reducer. Για να βγεί "καλό" το partition file μαλλον θα πρέπει το sample να το παίρνουν από τυχαία δεδομένα στο κάθε split (όπως κάνει αυτός στο παράδειγμα που έχετε δώσει). Βέβαια αυτό χρονικά δεν θα είναι και τόσο κερδοφόρο καθώς θα οδηγήσει στο να διαβάσουμε ουσιαστικα όλο το input οπότε δεν έχει τόσο νόημα η χρονική σύγκριση στο 2.5.1. Το ξέρω είναι αρκετά αυτά αλλά με οδηγούσαν στο το μην βγάζω λογικά αποτελέσματα.

2 1

Θέματα μνήμης στο yarn
by Geo Angelopoulos 14 Mar '17

14 Mar '17

Χαίρετε, Προσπαθώντας να τρέξω δικό μου java αρχείο ή από τα hadoop examples το πρόγραμμα κολλάει αρχικά και δεν προχωράει καθόλου. root@master:~# yarn jar hadoop-mapreduce-examples-2.6.3.jar wordcount /input/enwiki-latest-all-titles-in-ns0.1000.txt /output/wordcount.txt INFO client.RMProxy: Connecting to ResourceManager at master/ 192.168.1.1:8050 INFO input.FileInputFormat: Total input paths to process : 1 INFO mapreduce.JobSubmitter: number of splits:1 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1489339353440_0002 INFO impl.YarnClientImpl: Submitted application application_1489339353440_0002 INFO mapreduce.Job: The url to track the job: http://master:8088/proxy/application_1489339353440_0002/ INFO mapreduce.Job: Running job: job_1489339353440_0002 Κάποιες φορές προχωράει μια γραμμή παραπάνω: INFO mapreduce.Job: map 0% reduce 0% και κολλάει εδώ. Tόσο στον master όσο και τον slave μια χαρά τρέχει το hdfs και το yarn πριν την εκτέλεση, root@master:~# jps 15066 SecondaryNameNode 14922 NameNode 15239 ResourceManager 15500 Jps root@slave:~# jps 2239 NodeManager 2142 DataNode 2367 Jps όσο και κατα την διάρκεια της εκτέλεσης. root@master:~# jps 15066 SecondaryNameNode 15544 RunJar 14922 NameNode 15239 ResourceManager 15637 Jps root@slave:~# jps 2446 MRAppMaster 2239 NodeManager 2549 Jps 2142 DataNode Ψάχνοντας στο internet μάλλον το θέμα είναι είτε ότι ο yarn έχει μικρή μνήμη ανα mapper αλλά αυτό δεν είναι λογικό καθώς κάθε block είναι λίγο μικρότερο από 32mB ενώ δίνουμε στο node 1800mB ή γενικότερα επειδή το τρέχουμε σε VM και κολλάει για αυτό. Ευχαριστώ πολύ Γιώργος Αγγελόπουλος

2 3

Διαλέξεις στο Mycourses
by George Chatzikyriakos 17 Feb '17

17 Feb '17

Καλησπέρα, Παρατήρησα ότι λείπουν κάποιες διαφάνιες στο Mycourses στην περιοχή Εγγραφα->Διαλέξεις. Συγκεκριμένα, στους φακέλους "Διάλεξη 07 GFS HDFS BigTable" και "Διάλεξη 12 Αλγόριθμος PageRank και MapReduce" δεν υπάρχει τίποτα μέσα και στο μάθημα θυμάμαι είχαν γίνει οι αντίστοιχες διαλέξεις.

1 0

Σχετικά με το φετινό υλικό του μαθήματος
by Orestis Lagkanikolos 09 Feb '17

09 Feb '17

Καλησπέρα, 1) Επειδή υπάρχει υλικό του μαθήματος των Προχωρημένων Θεματων Βάσεων τόσο στο site του cslab όσο και στο mycourses αν μπορείτε θα ήθελα να διευκρινίσετε αν όλο το υλικό και απο τα 2 site προτείνεται προς διαβασμα. -αναφέρομαι όχι μονο στις διαφάνιες (που φαίνεται να ειναι ίδιες) αλλά και στις ασκήσεις που υπαρχουν αναρτημένες στο mycourses (απο την περσινή χρονιά) 2) Επίσης σχετικά με τη διάλεξη στις 16/1 όπου είχε ανακοινωθεί ότι θα λυθούν ασκήσεις απο τη διδαχθείσα ύλη πολλοί συνάδελφοι δεν μπορέσαμε να έρθουμε επομένως αν γίνεται καλό θα ήταν να ανέβει το σχετικό υλικό , για να έχουμε μια εικόνα και όσοι δεν μπορεσαμε να ερθουμε στη διαλεξη. 3) Σχετικά με τη γραπτή εξέταση, τι υλικο μπορούμε να εχουμε μαζί μας (βιβλιο, διαφανειες, προσωπικες σημειώσεις κλπ) ? Ευχαριστώ, Ορέστης

1 0

[CALL FOR PAPERS] Big Data Systems on Emerging Architectures
by CloudCom 16 Jul '16

16 Jul '16

CALL FOR PAPERS Big Data Systems on Emerging Architectures Special Issue for IEEE Transactions on Big Data The continued evolution of computing hardware and infrastructure imposes new challenges and bottlenecks to big data management. Over the last few years there has been a renewed interest in the area of (big) data systems on emerging hardware. The opportunities and challenges from emerging computing systems have been raised different scales, from a single machine to thousands of machines. The need for effectively utilizing computing resources creates new technologies and research directions: from conventional ones (e.g., cluster computing, in-memory computing), to more recent ones (e.g., GPGPU, many-core processors, and NVRAM). In addition to performance, many other system features are important for big data applications, like energy consumption and total ownership costs. For a specific application domain such as graph processing and deep learning, the design and development of novel systems on emerging hardware will create the insight into new solution approaches of the application domain and even further. Thus, there is a need to fundamentally address all the above-mentioned issues in big data systems. IEEE Transaction on Big Data (TBD) seeks original manuscripts for a Special Issue on the theme - Big Data Systems on Emerging Architectures scheduled to appear in an issue of 2017. Topics of interest include but are not limited to: • System optimization for novel hierarchical memory systems • Hardware systems and hardware-software co-design • Novel usage of co-processors in data-intensive applications (graph processing and deep learning etc.) • Novel applications of new storage technologies (flash, PCM, NVRAM etc.) to data management • New architectures for low-power computing and embedded devices • New data systems and applications on parallel architectures (multi-/many-core processors, FPGA etc) • Algorithms, and data structures on modern hardware • Databases and transactional memory systems • Compiler and operating systems advances for data-intensive computing • New benchmarks and experimental evaluations on modern hardware • Data system designs and implementations on new-generation network interconnects • New systems architecture (Automata processors, OpenPower etc.) • Heterogeneous hardware in storage, processing and networks • Main memory data processing • Sustainable power management • New industry and technology trends and their potential impact • Resource management in heterogeneous systems including allocation and scheduling • Scalable and reconfigurable challenges Original articles must be submitted via IEEE TBD Manuscript Central at https://mc.manuscriptcentral.com/tbd-cs. Submitted articles must not have been previously published or currently submitted for journal publication elsewhere. Authors must adhere to IEEE TBD submission guidelines (http://www.computer.org/web/tbd/author). For more information, please contact the Guest Editor at he.bingsheng(at)gmail(dot)com. Important dates: Oct 15, 2016 Deadline for submission of papers Jan 15, 2017 First decisions to authors Feb 15, 2017 Revisions due (if needed) March 15 , 2017 Notification of final acceptance April 2017 Publication materials due Guest Editors: 1) Prof. Bingsheng He School of Computing National University of Singapore 2) Prof. Yunji Chen Institute of Computing Technology Chinese Academy of Sciences 3) Dr. Jingren Zhou Vice President, Alibaba Group, USA

1 0

[CALL FOR PAPERS] Big Data Systems on Emerging Architectures
by CloudCom 29 May '16

29 May '16

1 0

2026

2025

2024

2023

2022

2021

2020

2019

2018

2017

2016

Atds