מחשבים

טיפים על הדרך

מכבי

מאורסים

חוק וסדר

בית

פורומים

עצור כאן חושבים

עצכ"ח במספרים


שלום אורח. באפשרותך להתחבר או להירשם
הצג 15 הודעות בעמוד

1 2 3 4 סך הכל 4 דפים.

הצג תגובות לאשכול מהסוף להתחלה

נשלח ב-18/6/2013 22:48

איך אשכול ערכים טכניים התגלגל לערכים?!

שיבולייהו וכל שם וניק דאית ליה, -חוזר לשאלותי,

1. כמה ניקים משתתפים בדיון בממוצע?
2. כמה 'צופים דוממים' יש? -מספר הכניסות לאשכול בניקוי במספר התגובות. (ניתן להעריך כ 2 + כניסות לכל תגובה)
3. כמה תגובות חוזרות של אותו הניק יש בממוצע באשכול (חוץ מהתגובות החוזרות של פותח האשכול). -ניתן ללמוד מכך על 'אורך הפתיל' של הדיון.
4 התפלגות ניקים פעילים במשך השנים –מה אורך חייו של ניק?.
5. הצטרפות ניקים לפורום. כמה ניקים חדשים מצטרפים בממוצע לחודש?
6. האם ניתן לקשור בין אירועים מסוימים לניקים שהצטרפו? למשל האם הצטרפותם של ניקים מסוימים גרמו לגל ניקים לפורום?
7. מהו סך כלל הכניסות לפורום במשך השנים?
8. האם המאבק החרדי נגד האינטרנט גרם לניקים לפרוש, מבחינה סטטיסטית?

הייתי שמח אם תסביר איך יוצרים, או תעלה לאתר, את המנוע עימו חושפים את הממצאים.
תודה.

נשלח ב-19/6/2013 00:28

אוי באמת!

קסת,

העמדת כל היציבות של השקפת העולם החרדית רק על אמונה בעולם הבא פשוט עושה עוול, זו רדידות (לא שלך, של הטענה)

אתה בעצם אומר שאנחנו פועלים רק מפחד השוט (כי השכר שמוזכר פה ושם לא באמת מגרה לעומת ההנאות המוכרות לנו)

מצטערת על ההתפייטות אבל אורח חיינו הוא התגלמות של-

אמונה, עשיית רצון אלוקים כי זה רצונו והכרה בכך שהאדם בטל אליו, מתוך הכרת הטוב, מתוך פליאה.

שליטה עצמית, הגברת החומר על הרוח והגבלת ההתמסרות לתאוות- הכי רלוונטי היום.

בעצם, זה ניסיון לא יעיל לנסות לצמצם את כל ההשקפה הרעיונית של היהדות המגוונת כל כך והמפוזרת באינספור ספרים- רמב"ם, ריה"ל, ספרי חסידות, הוגים יהודיים נוספים (גם של ימינו)

וזו ששואבת את כוחה ההתבוננות מסביב, קריאת ספרי הוגים כלליים של ימינו ושל דורות קודמים והסקת מסקנות מתוכם.

נשלח ב-19/6/2013 18:22

היהדות היא דרך חיים שנותנת פיתרון לכל דבר שעולה במהלך החיים .

איזה כיף שיש מי שדאג לכל מה שאנו צריכים .

עלינו רק להיכנע בפני הבורא ואז הוא יעשה בשבילנו את כל הנדרש .

נשלח ב-20/6/2013 07:17

איזין
אתה צודק יותר משאתה חושב. הנה למחלוקת שונאי ומחבלים יש אפילו שני פתרונות

נשלח ב-20/6/2013 19:22

שיבוליהו.
1. נראה שעדיף להציג כמה גרפים בגרף לוג-לוג.
2. אני יודע שיש ספרות די ענפה שחוקרת שאלות מהסוג שאתה העלת פה לגבי פורומים רבים. האם אתה מודע אליה? אם כן איך הפורום הזה ביחס לפורמים אחרים?
3. אילו תובנות אתה חושב שניתן להשיג מהנתונים הללו, שלא ידענו קודם? (כמובן מעבר לעובדות עצמן).

תוקן על ידי מרובקה ב- 20/06/2013 19:29:37

נשלח ב-21/6/2013 13:24

תמיד יש שוליים ולדאבונינו הם מתרחבים קצת .

אבל הבסיס הוא נקי וטהור .

נשלח ב-22/6/2013 22:31

xibolaiyu : אני חשבתי פעם, לקראת פורים, לאסוף נתונים למטרה הרבה יותר משעשעת - יצירת טקסטים אקראיים, בסגנון הגיספנומטור:

http://gispanomator.laaz.co.il/

רק שהטקסטים יהיו מתאימים לסגנון האישי של כל כותב.

לשם כך צריך לאסוף את כל ההודעות של כל כותב, ולהגדיר מודל טקסט אקראי.

אחר-כך יהיה אפשר ליצור אשכולות שלמים באקראי, כאשר ההודעה הראשונה היא טקסט אקראי בסגנון כותב א, ההודעה השניה היא טקסט אקראי בסגנון כותב ב, וכו'.

בסוף נטשתי את הרעיון כי לא היה לי זמן וכוח לאסוף את הנתונים. אבל אתה כנראה כבר אספת את הנתונים, אז, אם חיפשת מה עוד אפשר לעשות איתם, הנה רעיון :)

תוקן על ידי אראלסגל ב- 22/06/2013 22:31:56

נשלח ב-25/6/2013 00:40

תוקן על ידי xibolaiyu ב- 25/06/2013 00:48:49

נשלח ב-25/6/2013 00:44

Zeev_w כתב:
הייתי שמח אם תסביר איך, או תעלה לאתר את, המנוע עימו חושפים את הממצאים.

אין בעיה. בהודעה הבאה יש קוד פייתון קצר, שאותו תוכל להפעיל (קרא את "גיבוי תוכן הפורום" http://www.bhol.co.il/forum/topic.asp?topic_id=2954889&forum_id=1364). הסקריפט ייצר לך קובץ בעל שדות מופרדים בתווי $, שאתו תוכל לשחק, לדוגמה באקסל (אבל משם תמשיך לבד, לי אין ווינדוז).

נשלח ב-25/6/2013 00:45

# -*- coding: utf-8 -*-

import urllib

import urllib2

import re

import sys

import traceback

import itertools

import datetime

import time

import codecs

import os

import os.path

import multiprocessing

import glob

def _get_page(url):

attempts = 20

to = 60

sleep = 60

for i in xrange(attempts):

#print 'retrieving', url, '...'

try:

resp = urllib2.urlopen(url, timeout = to)

content = resp.read()

#print 'done'

return unicode(content, 'windows-1255')

except urllib2.URLError, e:

sys.stderr.write('Failed to fetch %s: %s\n' % (url, str(e)))

time.sleep(sleep)

raise urllib2.URLError('Failed to fetch %s' % url)

def _get_res(url, fname):

attempts = 20

to = 240

sleep = 60

for i in xrange(attempts):

print 'retrieving', url, 'to', fname, '...'

try:

urllib.urlretrieve(url, fname)

print 'done'

return

except urllib2.URLError, e:

sys.stderr.write('Failed to fetch %s: %s\n' % (url, str(e)))

time.sleep(sleep)

sys.stderr.write('Failed to fetch %s\n' % url)

def _num_main_pages():

url = 'http://www.bhol.co.il/forums/forum.asp?forum_id=1364'

content = _get_page(url)

n = max([int(d) for d in _num_main_pages._main_pages_re.findall(content)])

#print 'altogether %d main pages' % n

return n

_num_main_pages._main_pages_re = re.compile(ur'<option value="(\d+?)">', re.UNICODE)

def _text_to_clusters(text):

return [(int(m[0]), m[1], m[2]) for m in _text_to_clusters._cluster_re.findall(text)]

_text_to_clusters._cluster_re = re.compile(ur'<a href="topic.asp\?.*?cat_id=24&topic_id=(\d+?)" class="par2" style="dir: rtl">(.+?)</a>    מחבר: <a href="usercard.asp\?uid=.+?">(.+?)</a></td>', re.UNICODE)

def _main_page_clusters(page_num):

url = 'http://www.bhol.co.il/forums/forum.asp?page=%d&forum_id=1364' % page_num

try:

cs = _text_to_clusters( _get_page(url) )

print '%s clusters in %s' % (str([c[0] for c in cs]), url)

return cs

except Exception, e:

sys.stderr.write('Failed to find clusters in %s\n' % url)

raise

def _all_clusters():

for page_num in xrange(1, 1 + _num_main_pages()):

for (num, title, auth) in _main_page_clusters(page_num):

yield (num, title, auth)

def _num_pages_in_cluster(content):

found = [int(d) for d in _num_pages_in_cluster._pages_re.findall(content)]

n = max(found) if found else 1

print 'altogether %d pages' % n

return n

_num_pages_in_cluster._pages_re = re.compile(ur'<option value=\'(\d+?)\'>', re.UNICODE)

_user_re = re.compile(

ur'menubar\d+?\.addItem$"1", "(.+?)", "", "", true, null, "user\d+?"$;')

def _parse_seg(url, i, seg):

auth = _user_re.search(seg).groups()[0]

(day, month, year, hour, sec) = (int(i) for i in _parse_seg._sent_in_re.search(seg).groups())

dt = datetime.datetime(year, month, day, hour, sec)

for re in [_parse_seg._wo_title_msg_start_re, _parse_seg._w_title_msg_start_re]:

m = re.search(seg)

if m:

seg = m.groups()[0]

seg = seg[: seg.find(_parse_seg._msg_end)]

_seg_res(seg)

break

else:

sys.stderr.write('Failed to find segment in %s %d\n' % (url, i))

seg = 'ERROR'

return (auth, dt, seg)

_parse_seg._sent_in_re = re.compile(ur'<td align=\'right\' width=\'60%\' style=\'padding-right: 4px; font-size: 8pt; color: gray\'>נשלח ב-(\d+)/(\d+)/(\d+) (\d+):(\d+)</td>', re.UNICODE)

_parse_seg._w_title_msg_start_re = re.compile(ur' (.*)',

re.UNICODE | re.DOTALL)

_parse_seg._wo_title_msg_start_re = re.compile(ur'\s?\s?\s?\s?\s?<br\s?/>\s?\s?\s?\s?\s?\s?(.*)', re.UNICODE | re.DOTALL)

_parse_seg._msg_end = u' <table width="100%"><tr><td align="left"><a align="left" href=":void(0);" =":openWindow2(\'report.asp?'

def _page_msgs(url, content):

#print 'parsing page messages %s' % url

try:

starts = [m.start() for m in _user_re.finditer(content)] + [len(content)]

print 'found %d messages' % (len(starts) - 1)

for (i, b, e) in itertools.izip(xrange(len(starts) - 1), starts[: -1], starts[1 :]):

yield _parse_seg(url, i, content[b : e])

except Exception, e:

sys.stderr.write('Problem: %s in %s\n' % (url, str(e)))

traceback.print_exc(file = sys.stderr)

raise

def _seg_res(content):

for url in _seg_res._img_re.findall(content):

m = _seg_res._shitty_convention_re.match(url)

if not m:

continue

if m.groups()[0] != m.groups()[1]:

continue

fname = url.replace(':', '_colon_').replace(' ', '_space_').replace('/', '_slash_')

_get_res(url, fname)

_seg_res._img_re = re.compile(ur'<img.*? src="(.+?)".*?/>', re.UNICODE)

_seg_res._shitty_convention_re = re.compile('.*_(.*)\.(.*)', re.UNICODE)

def _cluster_msgs(url):

content = _get_page(url)

for i in xrange(1, 1 + _num_pages_in_cluster(content)):

page_url = '%s?whichpage=%d&%s' % (url.split('?')[0], i, url.split('?')[1])

if i > 1:

content = _get_page(page_url)

for c in _page_msgs(page_url, content):

yield c

def cluster_worker(q):

while True:

num_title_auth = q.get()

if num_title_auth is None:

return

num, title, auth = num_title_auth

url ='http://www.bhol.co.il/forums/topic.asp?cat_id=24&topic_id=%d&forum_id=1364' % num

try:

for (auth_, dt, seg) in _cluster_msgs(url):

with codecs.open('scrape.txt', 'a', encoding = 'utf-8') as f:

seg = [c for c in seg if u'א' <= c <= u'ת']

f.write(str(num)+ '$' + title+ '$' + auth+ '$' + auth_+ '$' + str(dt)+ '$' + str(len(seg)) + '\n')

except Exception, e:

sys.stderr.write('Problem in %d: %s\n' % (num, str(e)))

if __name__ == '__main__':

os.remove('scrape.txt')

num_workers = multiprocessing.cpu_count() * 8

#num_workers = 1

workers = []

q = multiprocessing.Queue()

for i in xrange(num_workers):

w = multiprocessing.Process(target = cluster_worker, args = (q, ))

w.start()

workers.append(w)

for (num, title, auth) in _all_clusters():

q.put((num, title, auth))

for i in xrange(num_workers):

q.put(None)

for worker in workers:

worker.join()

נשלח ב-25/6/2013 00:54

מרובקה כתב:

1. היחידי שזה נראה רלוונטי לגביו זה האחרון, לא? למה לוג-לוג עדיף על QQ?
2. לא, אינני מודע לה כלל (זה גם אינו התחום בו אני עוסק. אתה כן?). בעקבות דבריך חיפשתי, וכל מה שמצאתי הוא מה שדי ידוע מראש: ספרות *אדירה* בנושא רשתות חברתיות, לא פורומים. השאלות והנתונים שונים לחלוטין (מה המשמעות של "מי הציע חברות למי בעצכ"ח?"). אתה בהחלט מוזמן לקשר.
3. א. כפי שציינת, ישנן העובדות עצמן, וזה כבר יותר מרוב נושאי עצכ"ח. ב. לא יודע מראש. אולי יש, אולי אין - מעניין לבדוק. ג. אישית קצת הופתעתי מחלק ממה שמצאתי בהודעות 2 ו3 (סובייקטיבי - אולי אתה לא). ד. עושה רושם שזה דורש יותר זמן ממה שחשבתי, מה גם שאין לי שום ידע בNLP, בטח שלא בעברית, והרבה דברים מעניינים מצריכים את זה.

נשלח ב-25/6/2013 12:41

ברור שיש הרבה יותר צפיות מתגובות .

או בגלל שהתגובות כאן ארוכות ומשמימות לפעמים .

או בגלל שמנסים לפעמים לעבור לאישי ולא להתמקד בגוף הדברים .

נשלח ב-30/6/2013 22:58

שיבולייהו,

יש לי בעיה באישי אז אעשה את זה פה. דוא"ל הד-הוקי כהמלצתך [email protected] תודה רבה!
זאב

נשלח ב-27/1/2019 20:25

קצב פתיחת אשכולות חדשים כיום עומד על אחד בשבוע בעירך.איך אפשר לבדוק כמה בעבר? לחלק מספר אשכולות בתקופת הזמן של קיום הפורום? זה יתן רק ממוצע, בלי להתייחס לתקופות גאות ושפל.

בית >

פורומים >

דת ואמונה >

עצור כאן חושבים >

עצכ"ח במספרים

מנהל לחץ כאן לנעילת האשכול

1 2 3 4 סך הכל 4 דפים.