בית פורומים עצור כאן חושבים

עצכ"ח במספרים

שלום אורח. באפשרותך להתחבר או להירשם
הצג 15 הודעות בעמוד הוסף לדף האישי  דווח למנהל שלח לחבר
נשלח ב-18/6/2013 22:48 לינק ישיר 

איך אשכול ערכים טכניים התגלגל לערכים?!

שיבולייהו וכל שם וניק דאית ליה, -חוזר לשאלותי,

1. כמה ניקים משתתפים בדיון בממוצע?
2. כמה 'צופים דוממים' יש? -מספר הכניסות לאשכול בניקוי במספר התגובות. (ניתן להעריך כ 2 + כניסות     לכל תגובה)
3. 
 כמה תגובות חוזרות של אותו הניק יש בממוצע באשכול (חוץ מהתגובות החוזרות של פותח האשכול). -ניתן ללמוד מכך על 'אורך הפתיל' של הדיון.
4
      התפלגות ניקים פעילים במשך השנים –מה אורך חייו של ניק?.
5. 
הצטרפות ניקים לפורום. כמה ניקים חדשים מצטרפים בממוצע לחודש?
6. האם ניתן לקשור בין אירועים מסוימים לניקים שהצטרפו? למשל האם הצטרפותם של ניקים מסוימים           גרמו לגל ניקים לפורום?
7. מהו סך כלל הכניסות לפורום במשך השנים?
 
8. האם המאבק החרדי נגד האינטרנט גרם לניקים לפרוש, מבחינה סטטיסטית?

 

הייתי שמח אם תסביר איך יוצרים,  או תעלה לאתר, את המנוע עימו חושפים את הממצאים.
תודה.




דדווח על תוכן פוגעני

מחובר
נשלח ב-19/6/2013 00:28 לינק ישיר 

אוי באמת!

קסת,

העמדת כל היציבות של השקפת העולם החרדית רק על אמונה בעולם הבא פשוט עושה עוול, זו רדידות (לא שלך, של הטענה)

אתה בעצם אומר שאנחנו פועלים רק מפחד השוט (כי השכר שמוזכר פה ושם לא באמת מגרה לעומת ההנאות המוכרות לנו)

מצטערת על ההתפייטות אבל אורח חיינו הוא התגלמות של-

אמונה, עשיית רצון אלוקים כי זה רצונו והכרה בכך שהאדם בטל אליו, מתוך הכרת הטוב, מתוך פליאה.

שליטה עצמית, הגברת החומר על הרוח והגבלת ההתמסרות לתאוות- הכי רלוונטי היום.

בעצם, זה ניסיון לא יעיל לנסות לצמצם את כל ההשקפה הרעיונית של היהדות המגוונת כל כך והמפוזרת באינספור ספרים- רמב"ם, ריה"ל, ספרי חסידות, הוגים יהודיים נוספים (גם של ימינו)

וזו ששואבת את כוחה ההתבוננות מסביב, קריאת ספרי הוגים כלליים של ימינו ושל דורות קודמים והסקת מסקנות מתוכם.




דדווח על תוכן פוגעני

מנותק
נשלח ב-19/6/2013 18:22 לינק ישיר 

היהדות היא דרך חיים שנותנת פיתרון לכל דבר שעולה במהלך החיים .

איזה כיף שיש מי שדאג לכל מה שאנו צריכים .

עלינו רק להיכנע בפני הבורא ואז הוא יעשה בשבילנו את כל הנדרש .



דדווח על תוכן פוגעני

מנותק
נשלח ב-20/6/2013 07:17 לינק ישיר 

איזין
אתה צודק יותר משאתה חושב. הנה למחלוקת שונאי ומחבלים יש אפילו שני פתרונות



דדווח על תוכן פוגעני

מחובר
נשלח ב-20/6/2013 19:22 לינק ישיר 

שיבוליהו.
1. נראה שעדיף להציג כמה גרפים בגרף לוג-לוג.
2. אני יודע שיש ספרות די ענפה שחוקרת שאלות מהסוג שאתה העלת פה לגבי פורומים רבים. האם אתה מודע אליה? אם כן איך הפורום הזה ביחס לפורמים אחרים?
3. אילו תובנות אתה חושב שניתן להשיג מהנתונים הללו, שלא ידענו קודם? (כמובן מעבר לעובדות עצמן).

תוקן על ידי מרובקה ב- 20/06/2013 19:29:37




דדווח על תוכן פוגעני

מחובר
נשלח ב-21/6/2013 13:24 לינק ישיר 

תמיד יש שוליים ולדאבונינו הם מתרחבים קצת .

אבל הבסיס הוא נקי וטהור .



דדווח על תוכן פוגעני

מנותק
נשלח ב-22/6/2013 22:31 לינק ישיר 

 

xibolaiyu : אני חשבתי פעם, לקראת פורים,  לאסוף נתונים למטרה הרבה יותר משעשעת - יצירת טקסטים אקראיים, בסגנון הגיספנומטור: 
http://gispanomator.laaz.co.il/

רק שהטקסטים יהיו מתאימים לסגנון האישי של כל כותב.

לשם כך צריך לאסוף את כל ההודעות של כל כותב, ולהגדיר מודל טקסט אקראי.

אחר-כך יהיה אפשר ליצור אשכולות שלמים באקראי, כאשר ההודעה הראשונה היא טקסט אקראי בסגנון כותב א, ההודעה השניה היא טקסט אקראי בסגנון כותב ב, וכו'.

בסוף נטשתי את הרעיון כי לא היה לי זמן וכוח לאסוף את הנתונים. אבל אתה כנראה כבר אספת את הנתונים, אז, אם חיפשת מה עוד אפשר לעשות איתם, הנה רעיון :)


תוקן על ידי אראלסגל ב- 22/06/2013 22:31:56




דדווח על תוכן פוגעני

סמל אישי
מחובר
נשלח ב-25/6/2013 00:40 לינק ישיר 




תוקן על ידי xibolaiyu ב- 25/06/2013 00:48:49




דדווח על תוכן פוגעני

מנותק
נשלח ב-25/6/2013 00:44 לינק ישיר 

Zeev_w כתב:

הייתי שמח אם תסביר איך,  או תעלה לאתר את, המנוע עימו חושפים את הממצאים.



אין בעיה. בהודעה הבאה יש קוד פייתון קצר, שאותו תוכל להפעיל (קרא את "גיבוי תוכן הפורום" http://www.bhol.co.il/forum/topic.asp?topic_id=2954889&forum_id=1364). הסקריפט ייצר לך קובץ בעל שדות מופרדים בתווי $, שאתו תוכל לשחק, לדוגמה באקסל (אבל משם תמשיך לבד, לי אין ווינדוז).



דדווח על תוכן פוגעני

מנותק
נשלח ב-25/6/2013 00:45 לינק ישיר 

# -*- coding: utf-8 -*-


import urllib
import urllib2
import re
import sys
import traceback
import itertools
import datetime
import time
import codecs
import os
import os.path
import multiprocessing
import glob


def _get_page(url):
    attempts = 20
    to = 60
    sleep = 60    
    for i in xrange(attempts):
        #print 'retrieving', url, '...'
        try:
            resp = urllib2.urlopen(url, timeout = to)
            content = resp.read()
            #print 'done'
            return unicode(content, 'windows-1255')
        except urllib2.URLError, e:
            sys.stderr.write('Failed to fetch %s: %s\n' % (url, str(e)))
            time.sleep(sleep)
    raise urllib2.URLError('Failed to fetch %s' % url)
    
    
def _get_res(url, fname):
    attempts = 20
    to = 240
    sleep = 60    
    for i in xrange(attempts):
        print 'retrieving', url, 'to', fname, '...'
        try:
            urllib.urlretrieve(url, fname)
            print 'done'
            return
        except urllib2.URLError, e:
            sys.stderr.write('Failed to fetch %s: %s\n' % (url, str(e)))
            time.sleep(sleep)
    sys.stderr.write('Failed to fetch %s\n' % url)


def _num_main_pages():
    url = 'http://www.bhol.co.il/forums/forum.asp?forum_id=1364'    
    content = _get_page(url)
    n = max([int(d) for d in _num_main_pages._main_pages_re.findall(content)])
    #print 'altogether %d main pages' % n
    return n
_num_main_pages._main_pages_re = re.compile(ur'<option value="(\d+?)">', re.UNICODE)
    

def _text_to_clusters(text):
        return [(int(m[0]), m[1], m[2]) for m in _text_to_clusters._cluster_re.findall(text)]
_text_to_clusters._cluster_re = re.compile(ur'<a href="topic.asp\?.*?cat_id=24&topic_id=(\d+?)" class="par2" style="dir: rtl">(.+?)</a></span><br /><span class="par2" style="font-size:8pt;">&nbsp;&nbsp; מחבר: <a href="usercard.asp\?uid=.+?">(.+?)</a></span></td>', re.UNICODE)


def _main_page_clusters(page_num):
    url = 'http://www.bhol.co.il/forums/forum.asp?page=%d&forum_id=1364' % page_num
    try:
        cs = _text_to_clusters( _get_page(url) )
        print '%s clusters in %s' % (str([c[0] for c in cs]), url)
        return cs
    except Exception, e:
        sys.stderr.write('Failed to find clusters in %s\n' % url)
        raise
        
        
def _all_clusters():
    for page_num in xrange(1, 1 + _num_main_pages()):
        for (num, title, auth) in _main_page_clusters(page_num):
            yield (num, title, auth)


def _num_pages_in_cluster(content):
    found = [int(d) for d in _num_pages_in_cluster._pages_re.findall(content)]
    n = max(found) if found else 1
    print 'altogether %d pages' % n
    return n
_num_pages_in_cluster._pages_re = re.compile(ur'<option value=\'(\d+?)\'>', re.UNICODE)
    
    
_user_re = re.compile(
    ur'menubar\d+?\.addItem\("1", "(.+?)", "", "", true, null, "user\d+?"\);')


def _parse_seg(url, i, seg):
    auth = _user_re.search(seg).groups()[0]

    (day, month, year, hour, sec) = (int(i) for i in _parse_seg._sent_in_re.search(seg).groups())
    dt = datetime.datetime(year, month, day, hour, sec)

    for re in [_parse_seg._wo_title_msg_start_re, _parse_seg._w_title_msg_start_re]:
        m = re.search(seg)
        if m:
            seg = m.groups()[0]
            seg = seg[: seg.find(_parse_seg._msg_end)]                  
            _seg_res(seg)
            break
    else:
        sys.stderr.write('Failed to find segment in %s %d\n' % (url, i))
        seg = 'ERROR'
     
    return (auth, dt, seg)
_parse_seg._sent_in_re = re.compile(ur'<td align=\'right\' width=\'60%\' style=\'padding-right: 4px; font-size: 8pt; color: gray\'>נשלח ב-(\d+)/(\d+)/(\d+)&nbsp;(\d+):(\d+)</td>', re.UNICODE)
_parse_seg._w_title_msg_start_re = re.compile(ur'</u></b></font><br /><font size=\'2\'><b></b></font><p><font size=\'2\'>(.*)',
    re.UNICODE | re.DOTALL)
_parse_seg._wo_title_msg_start_re = re.compile(ur'<b>\s?<u>\s?</u>\s?</b>\s?</font>\s?<br\s?/>\s?<font size=\'2\'>\s?<b>\s?</b>\s?</font>\s?<p>\s?<font size=\'2\'>(.*)', re.UNICODE | re.DOTALL)
_parse_seg._msg_end = u'</font><br /></p><br><br><table width="100%"><tr><td align="left"><a align="left" href=":void(0);" =":openWindow2(\'report.asp?'


def _page_msgs(url, content):
    #print 'parsing page messages %s' % url
    try:
        starts = [m.start() for m in _user_re.finditer(content)] + [len(content)]
        print 'found %d messages' % (len(starts) - 1)
        for (i, b, e) in itertools.izip(xrange(len(starts) - 1), starts[: -1], starts[1 :]):
            yield _parse_seg(url, i, content[b : e])
    except Exception, e:
        sys.stderr.write('Problem: %s in %s\n' % (url, str(e)))        
        traceback.print_exc(file = sys.stderr)
        raise


def _seg_res(content):
    for url in _seg_res._img_re.findall(content):
        m = _seg_res._shitty_convention_re.match(url)
        if not m:
            continue
        if m.groups()[0] != m.groups()[1]:
            continue
        fname = url.replace(':', '_colon_').replace(' ', '_space_').replace('/', '_slash_')
        _get_res(url, fname)
_seg_res._img_re = re.compile(ur'<img.*? src="(.+?)".*?/>', re.UNICODE)
_seg_res._shitty_convention_re = re.compile('.*_(.*)\.(.*)', re.UNICODE)


def _cluster_msgs(url):
    content = _get_page(url)    
    for i in xrange(1, 1 + _num_pages_in_cluster(content)):
        page_url = '%s?whichpage=%d&%s' % (url.split('?')[0], i, url.split('?')[1])
        if i > 1:        
            content = _get_page(page_url)
        for c in _page_msgs(page_url, content):
            yield c
            
            
def cluster_worker(q):
    while True:
        num_title_auth = q.get()
        if num_title_auth is None:
            return
        num, title, auth = num_title_auth
            
        url ='http://www.bhol.co.il/forums/topic.asp?cat_id=24&topic_id=%d&forum_id=1364' % num
        try:
            for (auth_, dt, seg) in _cluster_msgs(url):
                with codecs.open('scrape.txt', 'a', encoding = 'utf-8') as f:
                    seg = [c for c in seg if u'א' <= c <= u'ת']
                    f.write(str(num)+ '$' + title+ '$' + auth+ '$' + auth_+ '$' + str(dt)+ '$' + str(len(seg)) + '\n')
        except Exception, e:
            sys.stderr.write('Problem in %d: %s\n' % (num, str(e)))
            
            
if __name__ == '__main__':
    os.remove('scrape.txt')
    num_workers = multiprocessing.cpu_count() * 8
    #num_workers = 1
    workers = []
    q = multiprocessing.Queue()
    for i in xrange(num_workers):
        w = multiprocessing.Process(target = cluster_worker, args = (q, ))
        w.start()
        workers.append(w)
    for (num, title, auth) in _all_clusters():
        q.put((num, title, auth))
    for i in xrange(num_workers):
        q.put(None)
    for worker in workers:
        worker.join()




דדווח על תוכן פוגעני

מנותק
נשלח ב-25/6/2013 00:54 לינק ישיר 

מרובקה כתב:
שיבוליהו.
1. נראה שעדיף להציג כמה גרפים בגרף לוג-לוג.
2. אני יודע שיש ספרות די ענפה שחוקרת שאלות מהסוג שאתה העלת פה לגבי פורומים רבים. האם אתה מודע אליה? אם כן איך הפורום הזה ביחס לפורמים אחרים?
3. אילו תובנות אתה חושב שניתן להשיג מהנתונים הללו, שלא ידענו קודם? (כמובן מעבר לעובדות עצמן).


1. היחידי שזה נראה רלוונטי לגביו זה האחרון, לא? למה לוג-לוג עדיף על QQ?
2. לא, אינני מודע לה כלל (זה גם אינו התחום בו אני עוסק. אתה כן?). בעקבות דבריך חיפשתי, וכל מה שמצאתי הוא מה שדי ידוע מראש: ספרות *אדירה* בנושא רשתות חברתיות, לא פורומים. השאלות והנתונים שונים לחלוטין (מה המשמעות של "מי הציע חברות למי בעצכ"ח?"). אתה בהחלט מוזמן לקשר.
3. א. כפי שציינת, ישנן העובדות עצמן, וזה כבר יותר מרוב נושאי עצכ"ח. ב. לא יודע מראש. אולי יש, אולי אין - מעניין לבדוק. ג. אישית קצת הופתעתי מחלק ממה שמצאתי בהודעות 2 ו3 (סובייקטיבי - אולי אתה לא). ד. עושה רושם שזה דורש יותר זמן ממה שחשבתי, מה גם שאין לי שום ידע בNLP, בטח שלא בעברית, והרבה דברים מעניינים מצריכים את זה. 



דדווח על תוכן פוגעני

מנותק
נשלח ב-25/6/2013 12:41 לינק ישיר 

ברור שיש הרבה יותר צפיות מתגובות .

או בגלל שהתגובות כאן ארוכות ומשמימות לפעמים .

או בגלל שמנסים לפעמים לעבור לאישי ולא להתמקד בגוף הדברים .



דדווח על תוכן פוגעני

מנותק
נשלח ב-30/6/2013 22:58 לינק ישיר 

שיבולייהו,

יש לי בעיה באישי אז אעשה את זה פה. דוא"ל הד-הוקי כהמלצתך [email protected]  תודה רבה!
זאב




דדווח על תוכן פוגעני

מחובר
נשלח ב-27/1/2019 20:25 לינק ישיר 

קצב פתיחת אשכולות חדשים כיום עומד על אחד בשבוע בעירך.איך אפשר לבדוק כמה בעבר? לחלק מספר אשכולות בתקופת הזמן של קיום הפורום? זה יתן רק ממוצע, בלי להתייחס לתקופות גאות ושפל.



דדווח על תוכן פוגעני

מחובר
   
בית > פורומים > דת ואמונה > עצור כאן חושבים > עצכ"ח במספרים
מנהל לחץ כאן לנעילת האשכול
הוסף לעמוד האישי  דווח למנהל שלח לחבר
לדף הקודם 1 2 3 4 סך הכל 4 דפים.

bholext
2009 © כל הזכויות שמורות לבחדרי חרדים. בקטגוריית דת ואמונה אתם מוזמים להיכנס ולדון על כל נושא שעולה לכם בקשר לדת היהודית. שו''ת בנושאי הלכה, פרשנות לתורה ולמקרא, גאולה, אחרית הימים ועוד.